AI 썸네일형 리스트형 [논문리뷰] Small Language Models Are Also Few-Shot Learners GPT-3는 in-context learning 방식으로 Few-shot 세팅에서 NLU 태스크를 잘 수행할 수 있다는 것을 보여주었다. 이러한 성과는 1750억 개에 달하는 엄청난 양의 파라미터로 수많은 텍스트에 대해 진행한 사전학습을 통해 달성할 수 있었는데, 이 모델을 학습시키는 데에 드는 비용이 $4.6 million, 약 52억 원에 달할 것으로 추정된다. 으아니... few-shot learning이 가능해진 대가가 52억이라니... (?) 천문학적인 학습 비용 이외에도 GPT-3가 가지는 한계는 존재한다. GPT-3에서 사용하는 in-context learning은 모델이 컨텍스트에 주어진 태스크에 대한 설명이나 예시를 통해 어떤 태스크를 수행해야 하는지를 추론 단계에서 '유추'해내는 것을 .. 더보기 AI는 딥러닝을 넘어 "깊은 이해"의 단계로 넘어가야 한다 SKT에서 주관한 ai.x2020컨퍼런스에서 아주 흥미로운 키노트를 들었다. AI가 가야 할 길과 연구자로서의 야망(!)을 끌어올리는 개리 마커스의 키노트였는데, 특히 자연어처리 분야에 대해서 생각해볼 만한 인사이트가 있어서 간단히 정리해 보았다. AGI, Artificial General Intelligence AGI는 오랜 예전부터 AI의 지향점이었다. 우리는 - 새로운 문서를 읽고, 이해하여 빠르게 증식하는 문서들로부터 중요한 지식을 취합할 수 있고 - 인과 관계에 대해 추론할 수 있으며 - 따라서 실제 세상의 어려운 상황들; 새로운 환경이나 정보가 불충분한 상황에서 올바른 결정을 내리도록 돕는 AI - 또한 인간이 하기에 위험한 일들을 수행하고, 노인들을 도우며 문앞까지 택배를 배달해줄 수 있는 .. 더보기 Active Learning - ② 액티브 러닝 쿼리 전략 다섯 가지 ** Previous ** 2020/08/16 - [AI] - Active Learning - ① 액티브 러닝이란 무엇인가 Active Learning - ① 액티브 러닝이란 무엇인가 액티브 러닝이란? 전통적으로 기계학습(Passive Machine Learning)은 라벨링되지 않은 데이터에 대해 사람이 라벨을 부여하면 이를 기계가 학습하는 방식으로 이루어졌다. 이 방식에서는 학습 데이터 � littlefoxdiary.tistory.com 액티브러닝의 핵심은 러너가 아직 라벨링 되지 않은 데이터 중 가장 정보 혹은 효용이 높은 인스턴스를 쿼리하는 데에 있다. 이렇게 라벨링이 필요한 데이터를 선택하는 전략을 쿼리 전략(query strategy)이라고 부른다. 쿼리 전략 중 한 가지가 이전 포스팅에서 소.. 더보기 Active Learning - ① 액티브 러닝이란 무엇인가 액티브 러닝이란? 전통적으로 기계학습(Passive Machine Learning)은 라벨링되지 않은 데이터에 대해 사람이 라벨을 부여하면 이를 기계가 학습하는 방식으로 이루어졌다. 이 방식에서는 학습 데이터 마련에 상당한 사람의 공수가 들어간다. 뿐만아니라 이미지넷 리더보드나 기계번역 모델을 보면 사람보다도 태스크를 잘 수행하는 모델이 등장하였는데, 이렇게 잠재적으로 뛰어난 기계를 두고 사람이 모든 라벨링을 진행하는 것은 조금 아깝다는 생각이 든다. 어떤 데이터가 필요한지를 기계가 판단하여 사람에게 라벨링을 부탁하면 사람은 더 적은 라벨링 공수를 들이고도 좋은 모델을 학습할 수 있지 않을까? 이것이 액티브러닝의 아이디어다. 액티브러닝에서는 기계가 라벨링이 필요한 데이터 중 자동적으로, 그리고 점진적으로.. 더보기 [OpenAI] Image GPT - 이미지 분야에 트랜스포머 활용하기 ** 링크: https://openai.com/blog/image-gpt/ ** 깃헙: https://github.com/openai/image-gpt iGPT 소개 자기지도학습(Self-supervised learning) 자기지도학습은 사람 라벨링 없이도 대량의 raw 데이터를 활용하여 모델이 인풋에 대한 좋은 representation을 생성하는 방법을 배우는 방법이다. 언어 AI의 경우 GPT, BERT 등의 모델은 자기지도학습을 통해 도메인과 무관한(domain agnostic) 특성을 학습하였고, 다운스트림 태스크에서 좋은 성능을 보였다. 특히 이 모델들은 임의 길이의 1차원의 시퀀스를 처리하기 위해 Transformer 아키텍쳐를 사용하였다. 이미지를 Transformer로 처리하기 iGPT.. 더보기 Transformer 위치 인코딩이 가지는 성질 & 의미 Timo Denk's Blog의 글을 번역 & 정리한 포스팅입니다 ❤️Source: Timo Denk's Blog - Linear Relationships in the Transformer’s Positional Encoding ❤️ Transformer는 attention만을 사용해 Seq2Seq 태스크를 모델링한 아키텍처이다. 이 모델의 핵심인 scaled dot product attention은 들어온 시퀀스의 각 토큰으로부터 key, query, value에 해당하는 정보를 추출한 후 이를 이용해 각 토큰과 관련이 높은 정보에 집중(attend)하여 representation을 생성해가는 과정이다. 이 멋진 구조를 활용한 Transformer은 기계번역, 요약 등 각종 태스크에서 좋은 성능을 보였.. 더보기 [논문리뷰] TaBERT: 텍스트 & 표 데이터 인식을 위한 사전학습 ** 논문: https://arxiv.org/pdf/2005.08314.pdf ** 깃헙: https://github.com/facebookresearch/TaBERT 자연어(Natural Language, NL) 문장과 표 데이터에 대한 representation을 동시에 학습할 수 있는 사전학습 기법 TaBERT 학습에 대한 전체 학습도 : (A) 표 내용에 대한 스냅샷은 자연어 발화에 기반해 생성 (B) 스냅샷에 있는 각 행은 Transformer로 인코딩 되어 토큰과 셀에 대한 행별(row-wise) 인코딩을 생성함 (C) 모든 행별 인코딩은 vertical self-attention layer V로 처리되어 열 representation을 생성함 모델 3.1 자연어 발화와 테이블 스키마에 대한 .. 더보기 [논문리뷰] Longformer: The Long-Document Transformer **논문: https://arxiv.org/abs/2004.05150 **깃헙: https://github.com/allenai/longformer MOTIVATION Transformer의 self-attention은 인풋 시퀀스 길이의 제곱에 비례하여 메모리와 계산량이 늘어난다. 이는 그동안 길이가 긴 텍스트를 인풋으로 받는 NLU 태스크를 처리하는 데에 병목이 되었다. 긴 컨텍스트에 대한 질의응답과 같이 NLU에는 긴 시퀀스를 처리해야 하는 문제들이 존재하고, BERT의 경우 다음과 같은 방법들을 통해 Transformer의 512토큰 제한 문제를 우회했다: 1) 512 글자 제한에 맞도록 인풋 문서 일부분을 버리기 2) stride를 주며 독립적으로 문서의 조각들을 처리 3) 관련 있는 문서 조각.. 더보기 이전 1 ··· 4 5 6 7 8 9 10 다음