본문 바로가기

Ai

[논문리뷰] MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices * 논문 : https://arxiv.org/pdf/2004.02984.pdf * 깃헙 : https://github.com/google-research/google-research/tree/master/mobilebert 개요 성능은 좋지만 무거운 BERT_large, 다이어트 시켜보자! - Bottleneck 구조 도입 - Self attention과 FFN 사이의 밸런스를 맞춤 - 그 결과, 깊이는 BERT_large만큼 , 레이어는 버전인 MobileBERT가 탄생 MobileBERT는 원래 모델과 마찬가지로 fine-tuning을 통해 어떠한 NLP 태스크에도 적용 가능하다. 성능 & 모델 사이즈 측면에서 - BERT_base보다 4.3배 작으면서 5.5배 빠른 모델을 확보 - GLUE 태스크에.. 더보기
[논문리뷰] Tinybert: Distilling bert for natural language understanding 개요 모델 경량화는 모델 사이즈를 줄이고, 추론 속도를 향상시키면서 정확도를 유지하는 것을 목표로 한다. 대표적으로 사용하는 경량화 기법에는 아래와 같은 세 가지 접근법이 있다. 1) Quantization (논문) 2) Weight Pruning (논문) 3) Knowledge Distillation (논문1, 논문2) 본 논문에서는 이 중 Knowlege Distillation 방법을 사용하여 모델을 경량화하는 방법을 제안한다. 특히 Transformer 기반의 모델에 유효한 새로운 Knowledge Distillation 기법을 제안하였다. 그 결과 - 4개 층으로 이루어진 TinyBERT 모델은 GLUE 벤치마크에서 BERT_base의 96.8% 성능 유지 - 이는 BERT_base보다 7.5배 .. 더보기
모델 경량화 - BERT 경량화 / 추론 속도 향상 기법 정리 BERT는 뛰어난 성능과 간단한 fine-tuning 기법에도 불구하고 - 거대한 모델 사이즈 (파라미터 개수) - 느린 추론 속도 - 복잡하고 비용이 많이 드는 사전학습 과정 으로 인해 그 사용성에 대해 제한이 있다. 이에 모델을 경량화하고 추론 속도를 높이고자 하는 니즈가 강했고, 많은 연구가 이루어져왔다. BERToloty - BERT 아키텍처에 대한 연구 : BERT의 구성 요소 각각과 그 유효성 / 역할에 대한 연구 Are sixteen heads really better than one? (Michel et al., 2019, 논문) - BERT가 잘 작동하기 위해 실제로 필요한 attention head의 개수에 대해 연구 2020/12/29 - [AI] - [논문리뷰] Are Sixteen.. 더보기
[논문리뷰] Small Language Models Are Also Few-Shot Learners GPT-3는 in-context learning 방식으로 Few-shot 세팅에서 NLU 태스크를 잘 수행할 수 있다는 것을 보여주었다. 이러한 성과는 1750억 개에 달하는 엄청난 양의 파라미터로 수많은 텍스트에 대해 진행한 사전학습을 통해 달성할 수 있었는데, 이 모델을 학습시키는 데에 드는 비용이 $4.6 million, 약 52억 원에 달할 것으로 추정된다. 으아니... few-shot learning이 가능해진 대가가 52억이라니... (?) 천문학적인 학습 비용 이외에도 GPT-3가 가지는 한계는 존재한다. GPT-3에서 사용하는 in-context learning은 모델이 컨텍스트에 주어진 태스크에 대한 설명이나 예시를 통해 어떤 태스크를 수행해야 하는지를 추론 단계에서 '유추'해내는 것을 .. 더보기
AI는 딥러닝을 넘어 "깊은 이해"의 단계로 넘어가야 한다 SKT에서 주관한 ai.x2020컨퍼런스에서 아주 흥미로운 키노트를 들었다. AI가 가야 할 길과 연구자로서의 야망(!)을 끌어올리는 개리 마커스의 키노트였는데, 특히 자연어처리 분야에 대해서 생각해볼 만한 인사이트가 있어서 간단히 정리해 보았다. AGI, Artificial General Intelligence AGI는 오랜 예전부터 AI의 지향점이었다. 우리는 - 새로운 문서를 읽고, 이해하여 빠르게 증식하는 문서들로부터 중요한 지식을 취합할 수 있고 - 인과 관계에 대해 추론할 수 있으며 - 따라서 실제 세상의 어려운 상황들; 새로운 환경이나 정보가 불충분한 상황에서 올바른 결정을 내리도록 돕는 AI - 또한 인간이 하기에 위험한 일들을 수행하고, 노인들을 도우며 문앞까지 택배를 배달해줄 수 있는 .. 더보기
Active Learning - ② 액티브 러닝 쿼리 전략 다섯 가지 ** Previous ** 2020/08/16 - [AI] - Active Learning - ① 액티브 러닝이란 무엇인가 Active Learning - ① 액티브 러닝이란 무엇인가 액티브 러닝이란? 전통적으로 기계학습(Passive Machine Learning)은 라벨링되지 않은 데이터에 대해 사람이 라벨을 부여하면 이를 기계가 학습하는 방식으로 이루어졌다. 이 방식에서는 학습 데이터 � littlefoxdiary.tistory.com 액티브러닝의 핵심은 러너가 아직 라벨링 되지 않은 데이터 중 가장 정보 혹은 효용이 높은 인스턴스를 쿼리하는 데에 있다. 이렇게 라벨링이 필요한 데이터를 선택하는 전략을 쿼리 전략(query strategy)이라고 부른다. 쿼리 전략 중 한 가지가 이전 포스팅에서 소.. 더보기
Active Learning - ① 액티브 러닝이란 무엇인가 액티브 러닝이란? 전통적으로 기계학습(Passive Machine Learning)은 라벨링되지 않은 데이터에 대해 사람이 라벨을 부여하면 이를 기계가 학습하는 방식으로 이루어졌다. 이 방식에서는 학습 데이터 마련에 상당한 사람의 공수가 들어간다. 뿐만아니라 이미지넷 리더보드나 기계번역 모델을 보면 사람보다도 태스크를 잘 수행하는 모델이 등장하였는데, 이렇게 잠재적으로 뛰어난 기계를 두고 사람이 모든 라벨링을 진행하는 것은 조금 아깝다는 생각이 든다. 어떤 데이터가 필요한지를 기계가 판단하여 사람에게 라벨링을 부탁하면 사람은 더 적은 라벨링 공수를 들이고도 좋은 모델을 학습할 수 있지 않을까? 이것이 액티브러닝의 아이디어다. 액티브러닝에서는 기계가 라벨링이 필요한 데이터 중 자동적으로, 그리고 점진적으로.. 더보기
[OpenAI] Image GPT - 이미지 분야에 트랜스포머 활용하기 ** 링크: https://openai.com/blog/image-gpt/ ** 깃헙: https://github.com/openai/image-gpt iGPT 소개 자기지도학습(Self-supervised learning) 자기지도학습은 사람 라벨링 없이도 대량의 raw 데이터를 활용하여 모델이 인풋에 대한 좋은 representation을 생성하는 방법을 배우는 방법이다. 언어 AI의 경우 GPT, BERT 등의 모델은 자기지도학습을 통해 도메인과 무관한(domain agnostic) 특성을 학습하였고, 다운스트림 태스크에서 좋은 성능을 보였다. 특히 이 모델들은 임의 길이의 1차원의 시퀀스를 처리하기 위해 Transformer 아키텍쳐를 사용하였다. 이미지를 Transformer로 처리하기 iGPT.. 더보기