본문 바로가기

NLU

[논문리뷰] Tinybert: Distilling bert for natural language understanding 개요 모델 경량화는 모델 사이즈를 줄이고, 추론 속도를 향상시키면서 정확도를 유지하는 것을 목표로 한다. 대표적으로 사용하는 경량화 기법에는 아래와 같은 세 가지 접근법이 있다. 1) Quantization (논문) 2) Weight Pruning (논문) 3) Knowledge Distillation (논문1, 논문2) 본 논문에서는 이 중 Knowlege Distillation 방법을 사용하여 모델을 경량화하는 방법을 제안한다. 특히 Transformer 기반의 모델에 유효한 새로운 Knowledge Distillation 기법을 제안하였다. 그 결과 - 4개 층으로 이루어진 TinyBERT 모델은 GLUE 벤치마크에서 BERT_base의 96.8% 성능 유지 - 이는 BERT_base보다 7.5배 .. 더보기
모델 경량화 - BERT 경량화 / 추론 속도 향상 기법 정리 BERT는 뛰어난 성능과 간단한 fine-tuning 기법에도 불구하고 - 거대한 모델 사이즈 (파라미터 개수) - 느린 추론 속도 - 복잡하고 비용이 많이 드는 사전학습 과정 으로 인해 그 사용성에 대해 제한이 있다. 이에 모델을 경량화하고 추론 속도를 높이고자 하는 니즈가 강했고, 많은 연구가 이루어져왔다. BERToloty - BERT 아키텍처에 대한 연구 : BERT의 구성 요소 각각과 그 유효성 / 역할에 대한 연구 Are sixteen heads really better than one? (Michel et al., 2019, 논문) - BERT가 잘 작동하기 위해 실제로 필요한 attention head의 개수에 대해 연구 2020/12/29 - [AI] - [논문리뷰] Are Sixteen.. 더보기
[논문리뷰] Small Language Models Are Also Few-Shot Learners GPT-3는 in-context learning 방식으로 Few-shot 세팅에서 NLU 태스크를 잘 수행할 수 있다는 것을 보여주었다. 이러한 성과는 1750억 개에 달하는 엄청난 양의 파라미터로 수많은 텍스트에 대해 진행한 사전학습을 통해 달성할 수 있었는데, 이 모델을 학습시키는 데에 드는 비용이 $4.6 million, 약 52억 원에 달할 것으로 추정된다. 으아니... few-shot learning이 가능해진 대가가 52억이라니... (?) 천문학적인 학습 비용 이외에도 GPT-3가 가지는 한계는 존재한다. GPT-3에서 사용하는 in-context learning은 모델이 컨텍스트에 주어진 태스크에 대한 설명이나 예시를 통해 어떤 태스크를 수행해야 하는지를 추론 단계에서 '유추'해내는 것을 .. 더보기
Transformer 위치 인코딩이 가지는 성질 & 의미 Timo Denk's Blog의 글을 번역 & 정리한 포스팅입니다 ❤️Source: Timo Denk's Blog - Linear Relationships in the Transformer’s Positional Encoding ❤️ Transformer는 attention만을 사용해 Seq2Seq 태스크를 모델링한 아키텍처이다. 이 모델의 핵심인 scaled dot product attention은 들어온 시퀀스의 각 토큰으로부터 key, query, value에 해당하는 정보를 추출한 후 이를 이용해 각 토큰과 관련이 높은 정보에 집중(attend)하여 representation을 생성해가는 과정이다. 이 멋진 구조를 활용한 Transformer은 기계번역, 요약 등 각종 태스크에서 좋은 성능을 보였.. 더보기
[논문리뷰] TaBERT: 텍스트 & 표 데이터 인식을 위한 사전학습 ** 논문: https://arxiv.org/pdf/2005.08314.pdf ** 깃헙: https://github.com/facebookresearch/TaBERT 자연어(Natural Language, NL) 문장과 표 데이터에 대한 representation을 동시에 학습할 수 있는 사전학습 기법 TaBERT 학습에 대한 전체 학습도 : (A) 표 내용에 대한 스냅샷은 자연어 발화에 기반해 생성 (B) 스냅샷에 있는 각 행은 Transformer로 인코딩 되어 토큰과 셀에 대한 행별(row-wise) 인코딩을 생성함 (C) 모든 행별 인코딩은 vertical self-attention layer V로 처리되어 열 representation을 생성함 모델 3.1 자연어 발화와 테이블 스키마에 대한 .. 더보기
[논문리뷰] Longformer: The Long-Document Transformer **논문: https://arxiv.org/abs/2004.05150 **깃헙: https://github.com/allenai/longformer MOTIVATION Transformer의 self-attention은 인풋 시퀀스 길이의 제곱에 비례하여 메모리와 계산량이 늘어난다. 이는 그동안 길이가 긴 텍스트를 인풋으로 받는 NLU 태스크를 처리하는 데에 병목이 되었다. 긴 컨텍스트에 대한 질의응답과 같이 NLU에는 긴 시퀀스를 처리해야 하는 문제들이 존재하고, BERT의 경우 다음과 같은 방법들을 통해 Transformer의 512토큰 제한 문제를 우회했다: 1) 512 글자 제한에 맞도록 인풋 문서 일부분을 버리기 2) stride를 주며 독립적으로 문서의 조각들을 처리 3) 관련 있는 문서 조각.. 더보기
Transformer로 텍스트를 생성하는 다섯 가지 전략 Hugging face에서 정리한 자연어 생성 디코딩 전략 포스팅을 번역 & 정리한 포스트입니다 ❤️ Source - hugging face ❤️ 더 좋은 디코딩 전략으로 자연어 생성 모델의 성능 높이기 원본 포스팅: https://huggingface.co/blog/how-to-generate?fbclid=IwAR19kbEiW_sF19TeSr4BE4jQZSIqz0GzOFD2013fIGEH32DReW9pAFq6vDM 포스팅에서 소개하는 전략은 아래와 같이 표현할 수 있는 모든 auto-regressive 언어 모델에 적용 가능하다. 또한, 다섯 가지 디코딩 전략은 hugging face의 transformer 라이브러리에서 함수로 호출해 사용할 수 있다. import tensorflow as tf fro.. 더보기
GPT-3, 이런 것도 된다고? 오픈AI의 GPT-3가 할 수 있는 놀라운 일들 2020/06/22 - [AI] - [논문리뷰] GPT3 - Language Models are Few-Shot Learners [논문리뷰] GPT3 - Language Models are Few-Shot Learners 오픈 AI GPT 시리즈의 세 번째 논문이 공개되었씁니다!!!! GPT1 - Improving Language Understanding by Generative Pre-Training GPT2 - Language Models are Unsupervised Multitask Learners GPT3 - Language .. littlefoxdiary.tistory.com 앱을 만들어줄 수 있겠어? "돈을 추가하고 빼는 버튼을 만들고, 버튼을.. 더보기