본문 바로가기

논문리뷰

[논문리뷰] MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices * 논문 : https://arxiv.org/pdf/2004.02984.pdf * 깃헙 : https://github.com/google-research/google-research/tree/master/mobilebert 개요 성능은 좋지만 무거운 BERT_large, 다이어트 시켜보자! - Bottleneck 구조 도입 - Self attention과 FFN 사이의 밸런스를 맞춤 - 그 결과, 깊이는 BERT_large만큼 , 레이어는 버전인 MobileBERT가 탄생 MobileBERT는 원래 모델과 마찬가지로 fine-tuning을 통해 어떠한 NLP 태스크에도 적용 가능하다. 성능 & 모델 사이즈 측면에서 - BERT_base보다 4.3배 작으면서 5.5배 빠른 모델을 확보 - GLUE 태스크에.. 더보기
[논문리뷰] Tinybert: Distilling bert for natural language understanding 개요 모델 경량화는 모델 사이즈를 줄이고, 추론 속도를 향상시키면서 정확도를 유지하는 것을 목표로 한다. 대표적으로 사용하는 경량화 기법에는 아래와 같은 세 가지 접근법이 있다. 1) Quantization (논문) 2) Weight Pruning (논문) 3) Knowledge Distillation (논문1, 논문2) 본 논문에서는 이 중 Knowlege Distillation 방법을 사용하여 모델을 경량화하는 방법을 제안한다. 특히 Transformer 기반의 모델에 유효한 새로운 Knowledge Distillation 기법을 제안하였다. 그 결과 - 4개 층으로 이루어진 TinyBERT 모델은 GLUE 벤치마크에서 BERT_base의 96.8% 성능 유지 - 이는 BERT_base보다 7.5배 .. 더보기
[논문리뷰] Small Language Models Are Also Few-Shot Learners GPT-3는 in-context learning 방식으로 Few-shot 세팅에서 NLU 태스크를 잘 수행할 수 있다는 것을 보여주었다. 이러한 성과는 1750억 개에 달하는 엄청난 양의 파라미터로 수많은 텍스트에 대해 진행한 사전학습을 통해 달성할 수 있었는데, 이 모델을 학습시키는 데에 드는 비용이 $4.6 million, 약 52억 원에 달할 것으로 추정된다. 으아니... few-shot learning이 가능해진 대가가 52억이라니... (?) 천문학적인 학습 비용 이외에도 GPT-3가 가지는 한계는 존재한다. GPT-3에서 사용하는 in-context learning은 모델이 컨텍스트에 주어진 태스크에 대한 설명이나 예시를 통해 어떤 태스크를 수행해야 하는지를 추론 단계에서 '유추'해내는 것을 .. 더보기
[논문리뷰] TaBERT: 텍스트 & 표 데이터 인식을 위한 사전학습 ** 논문: https://arxiv.org/pdf/2005.08314.pdf ** 깃헙: https://github.com/facebookresearch/TaBERT 자연어(Natural Language, NL) 문장과 표 데이터에 대한 representation을 동시에 학습할 수 있는 사전학습 기법 TaBERT 학습에 대한 전체 학습도 : (A) 표 내용에 대한 스냅샷은 자연어 발화에 기반해 생성 (B) 스냅샷에 있는 각 행은 Transformer로 인코딩 되어 토큰과 셀에 대한 행별(row-wise) 인코딩을 생성함 (C) 모든 행별 인코딩은 vertical self-attention layer V로 처리되어 열 representation을 생성함 모델 3.1 자연어 발화와 테이블 스키마에 대한 .. 더보기
[논문리뷰] Longformer: The Long-Document Transformer **논문: https://arxiv.org/abs/2004.05150 **깃헙: https://github.com/allenai/longformer MOTIVATION Transformer의 self-attention은 인풋 시퀀스 길이의 제곱에 비례하여 메모리와 계산량이 늘어난다. 이는 그동안 길이가 긴 텍스트를 인풋으로 받는 NLU 태스크를 처리하는 데에 병목이 되었다. 긴 컨텍스트에 대한 질의응답과 같이 NLU에는 긴 시퀀스를 처리해야 하는 문제들이 존재하고, BERT의 경우 다음과 같은 방법들을 통해 Transformer의 512토큰 제한 문제를 우회했다: 1) 512 글자 제한에 맞도록 인풋 문서 일부분을 버리기 2) stride를 주며 독립적으로 문서의 조각들을 처리 3) 관련 있는 문서 조각.. 더보기
[논문리뷰] GPT3 - Language Models are Few-Shot Learners 오픈 AI GPT 시리즈의 세 번째 논문이 공개되었씁니다!!!! GPT1 - Improving Language Understanding by Generative Pre-Training GPT2 - Language Models are Unsupervised Multitask Learners GPT3 - Language Models are Few-Shot Learners 2020/07/20 - [AI] - GPT-3, 이런 것도 된다고? GPT-3, 이런 것도 된다고? 오픈AI의 GPT-3가 할 수 있는 놀라운 일들 2020/06/22 - [AI] - [논문리뷰] GPT3 - Language Models are Few-Shot Learners [논문리뷰] GPT3 - Language Models are Fe.. 더보기
[논문리뷰] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately 생성 모델 대신 "판별모델"을 통해 인코더 사전 학습하기 (Pre-training Text Encoders as Discriminators Rather Than Generators) 논문 - https://openreview.net/pdf?id=r1xMH1BtvB 깃허브 - https://github.com/google-research/electra 생성 모델 대신 "판별모델"을 통해 인코더 사전학습하기 대량의 코퍼스에 대해 모델을 사전학습하고, 풀고자 하는 태스크에 대해 fine-tuning 하는 방법은 NLP 과제를 수행하는 데에 있어 성공적이었다.. 더보기
[논문리뷰] 블렌더(Blender) - Facebook AI의 오픈 도메인 챗봇 BLENDER > 페이스북 AI에서 발표한 오픈 도메인 챗봇 모델 > 대화에 적절히 개입하고, 지식과 강세, 페르소나를 나타내면서 멀티턴 대화에서 일관적인 성격을 유지하는 것에 초점 > 90M, 2.7B, 9.4B 개의 파라미터를 가지는 모델을 공개함 > 사람이 평가해보았을 때, 멀티턴 대화 시스템에서 호응도(engageness)와 사람다움(humanness)에서 다른 모델을 능가 > 특히 구글의 Meena와 비교할 때 호응도 25~75% 개선, 사람다움이 35~65% 개선되었다고 봄. "오픈 도메인 챗봇을 만드는 레시피를 제공합니다" 기존의 오픈 도메인 챗봇 연구에 따르면 뉴럴넷 파라미터 수와 데이터 크기를 늘리면 성능 향상에 효과가 있었다. 본 논문에서는 단순히 모델 크기를 스케일링하는 것 이외에 아.. 더보기