본문 바로가기

NLU

LLM fine-tuning 전략 | PEFT - Parameter Efficient Fine Tuning Table of Contents ● Parameter Efficient Fine-tuning이란? ● 대표적인 PEFT 방법론 6가지 ● LLM에 적용 가능한 PEFT 방법론 3가지 Parameter Efficient Fine-tuning(PEFT)이란? 딥러닝 모델의 크기가 증가함에 따라, 기존과 같이 태스크에 따른 모델 튜닝에 있어 기존과 같이 모든 파라미터를 미세조정하는 full-fine-tuning 방식은 자원 측면에서 점점 불가능해지고 있다. 이에 파라미터 효율적으로 fine-tuning 하는 PEFT 방법이 활발하게 연구되고 있다. PEFT는 다운스트림 작업의 성능을 유지하거나 심지어 향상시키면서 학습에 필요한 계산량, 혹은 모델의 크기를 줄이는 것을 목표로 한다. PEFT는 아래와 같은 장점.. 더보기
GPT-4 : OpenAI의 '가장 진보된 AI 시스템' 공개 지난 3월 14일, OpenAI가 모델의 scaling에 대한 최첨단 연구의 결과물인 GPT-4을 발표하였다. GPT-4은 이미지와 텍스트를 입력받아 해당 인풋을 바탕으로 텍스트를 출력해낼 수 있는 대규모 멀티모달 모델이다. 공개된 영상에 따르면 GPT-4의 학습은 지난 8월에 끝지만, 모델을 발표하기까지의 6개월간 모델을 더 안전하고, 유용하며, 인간의 가치에 상응하도록 하는 작업을 거쳤다고 한다. 이 과정을 통해 내부적으로 ▲모델의 오용(adversarial usage) ▲원하지 않는 내용(unwanted content) ▲개인정보 이슈(privacy concern) 등에 대한 내부 가이드라인을 세웠다고 한다. " GPT-4은 인류의 삶에 유용하고, 실용적인 보조자로서의 역할을 수행할 것으로 기대한다.. 더보기
Anthropic의 Constitutional AI: Harmless from AI Feedback | AI 헌법에 따라 행동하는 인공지능 참고 논문 및 자료: - Constitutional AI: Harmlessness from AI Feedback (Anthropic) - Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic) - https://scale.com/blog/chatgpt-vs-claude Motivation: "AI의 행동을 감독하는 데에 AI를 활용하자" 최근 뛰어난 성능으로 큰 관심을 받고 있는 ChatGPT는 모델이 생성한 답변에 대한 사람의 선호 피드백을 활용하여 보다 사람이 선호하는 답변을 하도록 학습한, Reinforcement Learning from Human Feedback을 사용한.. 더보기
한국어 (초)거대 공개 언어모델 - Polyglot, KoGPT GPT-3를 필두로 하여 거대 파라미터의 모델에 대규모 코퍼스를 학습한 (초)거대 언어모델은 자연스러운 문장을 생성하거나 다양한 태스크를 적은 학습 데이터로 수행하는 등 뛰어난 가능성을 보였다. 하지만 학습에 막대한 자본이 필요한 거대 언어모델은 AI의 독점화 및 권력화, 그리고 데이터 및 컴퓨팅 파워 격차에 따른 기술 격차 심화를 낳을 것이라는 우려도 존재한다. 빅테크 기업이 아닌 일반 기업이나 연구자가 거대 언어 모델을 다루기는 쉽지 않은 것은 엄연한 사실이다. 이러한 상황에 변화를 가져오기 위해 Huggingface가 중심이 되는 BigScience 프로젝트에서는 를 위해 전 세계 1,000여 명의 AI 연구자들이 힘을 합쳐 다양한 언어를 포괄하는 176B 규모의 언어모델 BLOOM을 확보하여 공개.. 더보기
[논문리뷰] DeepMind RETRO - 수 조개의 토큰 DB로부터 정보를 검색해 강화된 언어모델 블로그 : https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens 논문 : https://arxiv.org/abs/2112.04426 Motivation 언어 모델이란 '가장 자연스러운 단어 시퀀스를 찾아내는 모델'로 단어의 시퀀스에 확률을 할당(assign) 하는 일을 하는 모델이다. 그리고 이러한 작업을 학습하기 위해 가장 보편적으로 사용하는 방법은 언어모델이 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 훈련시키는 것이다. 지난 몇 년 동안 컴퓨팅 자원의 발달에 힘입어 언어모델은 더 큰 파라미터를 더 많은 데이터에 대해 학습하는 방향으로 발전해왔다. 2020년 1750.. 더보기
[논문리뷰] Relative Position Representations in Transformer MOTIVATION Transformer 아키텍쳐는 인풋 시퀀스 사이의 attention을 통해 인풋 사이의 관계를 모델링한다. 이때 이 매커니즘만으로는 시퀀스의 순서를 모델링할 수 없다. 예를 들어 "철수 / 가 / 영희 / 를 / 좋아해"라는 시퀀스와 "영희 / 가 / 철수 / 를 / 좋아해"라는 시퀀스에서 "철수"에 해당하는 attention layer의 아웃풋은 두 문장에서 완벽하게 동일하다. 이러한 문제를 해결하기 위해 2017년에 발표된 Transformer 논문에서는 인풋에 위치 인코딩 (position encoding)을 더해주는 방법을 사용하였다. 여기서 위치 인코딩은 (a)sinusoidal 함수를 사용한 결정론적인 벡터나 (b)학습한 벡터를 주로 사용한다. (a) sinusoidal .. 더보기
[논문리뷰] Are Sixteen Heads Really Better than One? 논문 : arxiv.org/pdf/1905.10650.pdf 깃헙: github.com/pmichel31415/are-16-heads-really-better-than-1 개요 Attention 알고리즘은 매우 강력하면고 범용적인 매커니즘으로, 뉴럴 모델이 중요한 정보 조각에 집중하여 그를 가중합한 결과를 예측에 사용한다는 아이디어이다. 그 중에서도 자연어처리에서 Transformer 기반의 모델에서 사용하는 multi-head attention은 - 여러 head의 attention을 병렬적으로 적용하여 - 각각의 head는 인풋의 각기 다른 부분에 집중하도록 한다. 이를 통해 결과적으로 단순히 가중합을 사용하는 것보다 정교한 함수를 사용해 정보를 가공할 수 있다. 그러나 본 논문에서는 multi-he.. 더보기
[논문리뷰] MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices * 논문 : https://arxiv.org/pdf/2004.02984.pdf * 깃헙 : https://github.com/google-research/google-research/tree/master/mobilebert 개요 성능은 좋지만 무거운 BERT_large, 다이어트 시켜보자! - Bottleneck 구조 도입 - Self attention과 FFN 사이의 밸런스를 맞춤 - 그 결과, 깊이는 BERT_large만큼 , 레이어는 버전인 MobileBERT가 탄생 MobileBERT는 원래 모델과 마찬가지로 fine-tuning을 통해 어떠한 NLP 태스크에도 적용 가능하다. 성능 & 모델 사이즈 측면에서 - BERT_base보다 4.3배 작으면서 5.5배 빠른 모델을 확보 - GLUE 태스크에.. 더보기