흙수저GPT? 썸네일형 리스트형 [논문리뷰] Small Language Models Are Also Few-Shot Learners GPT-3는 in-context learning 방식으로 Few-shot 세팅에서 NLU 태스크를 잘 수행할 수 있다는 것을 보여주었다. 이러한 성과는 1750억 개에 달하는 엄청난 양의 파라미터로 수많은 텍스트에 대해 진행한 사전학습을 통해 달성할 수 있었는데, 이 모델을 학습시키는 데에 드는 비용이 $4.6 million, 약 52억 원에 달할 것으로 추정된다. 으아니... few-shot learning이 가능해진 대가가 52억이라니... (?) 천문학적인 학습 비용 이외에도 GPT-3가 가지는 한계는 존재한다. GPT-3에서 사용하는 in-context learning은 모델이 컨텍스트에 주어진 태스크에 대한 설명이나 예시를 통해 어떤 태스크를 수행해야 하는지를 추론 단계에서 '유추'해내는 것을 .. 더보기 이전 1 다음