본문 바로가기

경량화

[논문리뷰] Are Sixteen Heads Really Better than One? 논문 : arxiv.org/pdf/1905.10650.pdf 깃헙: github.com/pmichel31415/are-16-heads-really-better-than-1 개요 Attention 알고리즘은 매우 강력하면고 범용적인 매커니즘으로, 뉴럴 모델이 중요한 정보 조각에 집중하여 그를 가중합한 결과를 예측에 사용한다는 아이디어이다. 그 중에서도 자연어처리에서 Transformer 기반의 모델에서 사용하는 multi-head attention은 - 여러 head의 attention을 병렬적으로 적용하여 - 각각의 head는 인풋의 각기 다른 부분에 집중하도록 한다. 이를 통해 결과적으로 단순히 가중합을 사용하는 것보다 정교한 함수를 사용해 정보를 가공할 수 있다. 그러나 본 논문에서는 multi-he.. 더보기
[논문리뷰] MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices * 논문 : https://arxiv.org/pdf/2004.02984.pdf * 깃헙 : https://github.com/google-research/google-research/tree/master/mobilebert 개요 성능은 좋지만 무거운 BERT_large, 다이어트 시켜보자! - Bottleneck 구조 도입 - Self attention과 FFN 사이의 밸런스를 맞춤 - 그 결과, 깊이는 BERT_large만큼 , 레이어는 버전인 MobileBERT가 탄생 MobileBERT는 원래 모델과 마찬가지로 fine-tuning을 통해 어떠한 NLP 태스크에도 적용 가능하다. 성능 & 모델 사이즈 측면에서 - BERT_base보다 4.3배 작으면서 5.5배 빠른 모델을 확보 - GLUE 태스크에.. 더보기
[논문리뷰] Tinybert: Distilling bert for natural language understanding 개요 모델 경량화는 모델 사이즈를 줄이고, 추론 속도를 향상시키면서 정확도를 유지하는 것을 목표로 한다. 대표적으로 사용하는 경량화 기법에는 아래와 같은 세 가지 접근법이 있다. 1) Quantization (논문) 2) Weight Pruning (논문) 3) Knowledge Distillation (논문1, 논문2) 본 논문에서는 이 중 Knowlege Distillation 방법을 사용하여 모델을 경량화하는 방법을 제안한다. 특히 Transformer 기반의 모델에 유효한 새로운 Knowledge Distillation 기법을 제안하였다. 그 결과 - 4개 층으로 이루어진 TinyBERT 모델은 GLUE 벤치마크에서 BERT_base의 96.8% 성능 유지 - 이는 BERT_base보다 7.5배 .. 더보기
모델 경량화 - BERT 경량화 / 추론 속도 향상 기법 정리 BERT는 뛰어난 성능과 간단한 fine-tuning 기법에도 불구하고 - 거대한 모델 사이즈 (파라미터 개수) - 느린 추론 속도 - 복잡하고 비용이 많이 드는 사전학습 과정 으로 인해 그 사용성에 대해 제한이 있다. 이에 모델을 경량화하고 추론 속도를 높이고자 하는 니즈가 강했고, 많은 연구가 이루어져왔다. BERToloty - BERT 아키텍처에 대한 연구 : BERT의 구성 요소 각각과 그 유효성 / 역할에 대한 연구 Are sixteen heads really better than one? (Michel et al., 2019, 논문) - BERT가 잘 작동하기 위해 실제로 필요한 attention head의 개수에 대해 연구 2020/12/29 - [AI] - [논문리뷰] Are Sixteen.. 더보기