AI/Algorithm&Models 41

오픈도메인 QA 리서치: Open Domain Question Answering

Open-domain question answering : 다양한 주제에 대한 대량의 문서 집합으로부터 자연어 질의에 대한 답변을 찾아오는 태스크 DATA & TASKs [ Natural Questions ] ✅ 구글에 입력된 real query에 대해 long / short / others 타입의 QA - Open-domain QA 테스트를 위해 질문만 취하고, 답변을 찾을 수 있는 문단 정보는 삭제하는 방식으로 실험 진행 - long answer type의 경우 extractive snippet이라고 판단, 제거하고 실험 - (예. 답변이 5토큰 이내인 질문에 대해서만 실험, Lee et al., 2019) - 링크: ai.google.com/research/NaturalQuestions/ [ Cur..

AI/Algorithm&Models 2021.03.15

[논문리뷰] DialogBERT: Discourse-Aware Response Generation via Learning to Recover and Rank Utterances

논문: arxiv.org/pdf/2012.01775.pdf IDEA BERT, GPT 등 사전학습 모델은 언어 AI 모델링에 필수적인 요소가 되었다. 특히 [대화모델] 부문에서 사전학습된 언어모델은 자연스러운 발화를 생성함에 있어 큰 발전을 가져왔다. 하지만, 지금까지의 연구는 대부분 대화의 맥락을 으로 처리했다. 이 나이브한 방법에서는 이어진 대화를 쭉 이어붙인 후 트랜스포머에 인풋으로 넣어 발화를 생성하는데, 이렇게 되면 모델은 토큰을 생성함에 있어 주어진 문맥에 대해 토큰 단위의 self-attention을 계산하게 된다. (www.groundai.com/www.groundai.com/project/hello-its-gpt-2-how-can-i-help-you-towards-the-use-of-pr..

AI/Algorithm&Models 2021.03.14

[논문리뷰] DALL-E: Zero-Shot Text-to-Image Generation

너무너무 궁금했던 DALL-E 페이퍼가 공개되었어요 두근두근❤ 사상은 예상했던 대로 텍스트와 이미지를 하나의 스트림 (concat)으로 트랜스포머에 밀어 넣는다는 것 이때 denoising VAE를 사용하여 픽셀 단위의 이미지를 이미지 토큰으로 변환해 사용했다고 한다. 이번 논문 역시 #대용량데이터와 #대규모모델이 핵심 키워드였는데, large-scale 모델 학습을 위한 16-bit 학습, distributed optimization 등 다양한 노하우가 녹아있다. 논문: arxiv.org/pdf/2102.12092.pdf 깃헙: github.com/lucidrains/DALLE-pytorch Abstract 본 논문에서는 하나의 데이터 소스로부터 transformer를 활용하여 text-to-image..

AI/Algorithm&Models 2021.03.13

Multimodal Deep Learning and AI Research : 멀티모달 연구에 대한 생각

휴가 낸 김에 AI 연구 방향에 대해 평소 가지고 있던 생각을 글로 적어 보자 🦊 사고는 언어의 틀 속에 존재하고, 따라서 우리가 사용하는 말의 체계에 의해서만 세상을 인지한다. 예를 들어 아래의 사진을 보고, 일반적인 사람은 일반적인 사진이라고 판단할 것이다. 고양이에 관심이 많은 사람이라면 사진이라고 생각할 것이며 등을 연상할 수도 있다. 이토록 인간의 사고에서 개념이란, 언어 체계에서 다른 말과의 관계에 의해 결여된 관념으로 정의된다. 반면에 내가 좋아하는 속담 중에 이런 말이 있다. [ 백문이 불여일견 ] " 털 무늬는 스팟(점박이), 로젯(표범 무늬), 마블 등의 타입이 있다. 스폿 타입은 토종 고양이 중에도 비슷한 무늬를 가진 것이 있으나(그래서 잘 모르는 사람은 코숏으로 오해하는 경우도 있다..

AI/Algorithm&Models 2021.02.16

[논문리뷰] Vision Transformer - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

** 작년에 공개된 구글 리서치 논문입니다 ** An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (A.K.A) Vision Transformer 개요 비전 AI도 CNN없이 풀 수 있다! Transformer만을 사용하여 이미지 분류 태스크 수행하기 - 이미지는 이미지 조각의 시퀀스로 처리함 - 대량의 데이터에 대해 사전 학습한 후 작은 이미지 인식 벤치마크(이미지넷, CIFAR-100, VTAB)에 적용 - 그 결과 Vision Transformer(ViT)은 여타의 SOTA CNN 기반의 모델과 비교했을 때 훌륭한 성능을 얻음. - 동시에 학습 과정에서의 계산 자원은 훨씬 적게 소모함 [ Transformer의 계산..

AI/Algorithm&Models 2021.01.09

인공지능의 시대, 튜링 테스트를 넘어선 새로운 비전이 필요하다

The Turing Test is obsolete. It's time to build a new barometer for AI ... written by Rohit Prasad, head scientist of Alexa at Amazon ** 원본 출처: Fast Company ** 아래 포스팅은 원본 칼럼을 번역 & 일부 요약한 내용입니다. 컴퓨터 과학의 아버지 앨런 튜링이 튜링 테스트에 대한 개념을 제안한 가 출간된 지 71년이 지났다. 이 테스트의 목표는 기계가 사람과 구분할 수 없는 만큼의 대화를 진행해할 수 있는지를 판단하는 것이다. 튜링은 2000년에는 인간은 기계와 인간을 구분하는 이 태스크에 있어 70% 미만의 정답률을 달성할 것이라고 예견했다. 하지만 예견된 시점에서 20년이 지난 오늘..

AI/Algorithm&Models 2021.01.09

[논문리뷰] Are Sixteen Heads Really Better than One?

논문 : arxiv.org/pdf/1905.10650.pdf 깃헙: github.com/pmichel31415/are-16-heads-really-better-than-1 개요 Attention 알고리즘은 매우 강력하면고 범용적인 매커니즘으로, 뉴럴 모델이 중요한 정보 조각에 집중하여 그를 가중합한 결과를 예측에 사용한다는 아이디어이다. 그 중에서도 자연어처리에서 Transformer 기반의 모델에서 사용하는 multi-head attention은 - 여러 head의 attention을 병렬적으로 적용하여 - 각각의 head는 인풋의 각기 다른 부분에 집중하도록 한다. 이를 통해 결과적으로 단순히 가중합을 사용하는 것보다 정교한 함수를 사용해 정보를 가공할 수 있다. 그러나 본 논문에서는 multi-he..

AI/Algorithm&Models 2020.12.29

[논문리뷰] MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices

* 논문 : https://arxiv.org/pdf/2004.02984.pdf * 깃헙 : https://github.com/google-research/google-research/tree/master/mobilebert 개요 성능은 좋지만 무거운 BERT_large, 다이어트 시켜보자! - Bottleneck 구조 도입 - Self attention과 FFN 사이의 밸런스를 맞춤 - 그 결과, 깊이는 BERT_large만큼 , 레이어는 버전인 MobileBERT가 탄생 MobileBERT는 원래 모델과 마찬가지로 fine-tuning을 통해 어떠한 NLP 태스크에도 적용 가능하다. 성능 & 모델 사이즈 측면에서 - BERT_base보다 4.3배 작으면서 5.5배 빠른 모델을 확보 - GLUE 태스크에..

AI/Algorithm&Models 2020.12.18

[논문리뷰] Tinybert: Distilling bert for natural language understanding

개요 모델 경량화는 모델 사이즈를 줄이고, 추론 속도를 향상시키면서 정확도를 유지하는 것을 목표로 한다. 대표적으로 사용하는 경량화 기법에는 아래와 같은 세 가지 접근법이 있다. 1) Quantization (논문) 2) Weight Pruning (논문) 3) Knowledge Distillation (논문1, 논문2) 본 논문에서는 이 중 Knowlege Distillation 방법을 사용하여 모델을 경량화하는 방법을 제안한다. 특히 Transformer 기반의 모델에 유효한 새로운 Knowledge Distillation 기법을 제안하였다. 그 결과 - 4개 층으로 이루어진 TinyBERT 모델은 GLUE 벤치마크에서 BERT_base의 96.8% 성능 유지 - 이는 BERT_base보다 7.5배 ..

AI/Algorithm&Models 2020.11.30

모델 경량화 - BERT 경량화 / 추론 속도 향상 기법 정리

BERT는 뛰어난 성능과 간단한 fine-tuning 기법에도 불구하고 - 거대한 모델 사이즈 (파라미터 개수) - 느린 추론 속도 - 복잡하고 비용이 많이 드는 사전학습 과정 으로 인해 그 사용성에 대해 제한이 있다. 이에 모델을 경량화하고 추론 속도를 높이고자 하는 니즈가 강했고, 많은 연구가 이루어져왔다. BERToloty - BERT 아키텍처에 대한 연구 : BERT의 구성 요소 각각과 그 유효성 / 역할에 대한 연구 Are sixteen heads really better than one? (Michel et al., 2019, 논문) - BERT가 잘 작동하기 위해 실제로 필요한 attention head의 개수에 대해 연구 2020/12/29 - [AI] - [논문리뷰] Are Sixteen..

AI/Algorithm&Models 2020.11.08