본문 바로가기

AI

한국어 (초)거대 공개 언어모델 - Polyglot, KoGPT

GPT-3를 필두로 하여 거대 파라미터의 모델에 대규모 코퍼스를 학습한 (초)거대 언어모델은 자연스러운 문장을 생성하거나 다양한 태스크를 적은 학습 데이터로 수행하는 등 뛰어난 가능성을 보였다. 하지만 학습에 막대한 자본이 필요한 거대 언어모델은 AI의 독점화 및 권력화, 그리고 데이터 및 컴퓨팅 파워 격차에 따른 기술 격차 심화를 낳을 것이라는 우려도 존재한다. 빅테크 기업이 아닌 일반 기업이나 연구자가 거대 언어 모델을 다루기는 쉽지 않은 것은 엄연한 사실이다.

 

이러한 상황에 변화를 가져오기 위해 Huggingface가 중심이 되는 BigScience 프로젝트에서는 <거대 언어 모델의 민주화>를 위해 전 세계 1,000여 명의 AI 연구자들이 힘을 합쳐 다양한 언어를 포괄하는 176B 규모의 언어모델 BLOOM을 확보하여 공개하기도 했다. 

 

 

한국어에 있어서도 중소규모의 사전학습된 언어 모델이 공개되어 있었는데 (참고: 2021.05.16 - [AI] - 한국어 언어모델: Korean Pre-trained Language Models) 최근 수억 개 파라미터 규모의 모델들에 대해서도 오픈 프로젝트 형태로 확보를 진행하고 있거나, 기업이 확보한 거대 모델을 공개한 바 있다.


Polyglot: 다국어 거대 언어 모델 프로젝트

링크: https://github.com/EleutherAI/polyglot

 

mBERT, BLOOM, XGLM과 은 다국어 언어모델이 공개되었음에도 불구하고 비영어권 언어를 다루는 연구자들은 여전히 단일 언어 모델을 확보해나가고 있는 추세이다. 공개되어 있는 <다국어> 모델의 학습 데이터는 영어에 편중되어 있고, 비영어권 언어 태스크에 있어서는 만족스럽지 못한 성능을 보이기 때문이다.

 

▼ 영어권에서 공개된 다국어 언어모델의 학습 언어 비중

Model 특징 영어 코퍼스 비중
BLOOM •46개 언어와 13개 프로그래밍 언어로 학습
•Vocab Size = 250,880
•공개 모델 사이즈
    · Bloom-560M, 1B, 3B, 7B
    · Bloom-175B
30%
XGLM •30개 언어로 학습 
•데이터 over sampling을 통해 언어 불균형 문제를 해소하고자 함
•공개 모델 사이즈
    · XGLM-564M, 1.7B, 2.9B, 7.5B, 4.5B
49%
(sharding 후 32%)

Polyglot에서는 단일 모델에 많은 언어를 한 번에 학습하는 대신 비슷한 어족의 언어를 모아 모델을 학습한다.

또한 지나치게 데이터 소스가 적은 언어까지 포함하기보다는 거대 언어 모델 확보에 적절한 사이즈의 코퍼스 확보가 가능한 언어에 집중한다.

 

Polyglot-KO

  • TuNiB AI에서 수집한 1.2TB 규모의 한국어로 학습 (전처리 후 863GB 규모의 데이터가 필터링됨)
  • 2022년 12월 기준 5.8B 규모의 모델까지 공개되었으며, 12.8B 모델 준비 중
  • 30,003개의 Vocab 사용
Size Training Status Model Card Model Checkpoints Demo Server
1.3B Finished Available Available Available
3.8B Finished Available Available N/A
5.8B Finished Available Available Available
12.8B Stopped Coming Soon Coming Soon Coming Soon

 

 


KoGPT: Kakao Brain에서 공개한 6B 규모의 언어모델

링크: https://huggingface.co/kakaobrain/kogpt

  • 2000억 토큰 규모의 한국어 데이터셋을 바탕으로 학습
  • 64,512개의 Vocab 사용
  • 텍스트를 분류, 검색, 요약 또는 생성하는데 가장 적합한 모델
Size Training Status Model Card Model Checkpoints
6B Finished Available Available

 

▼ KoGPT In-context learning 성능표

[참고]

  • KoGPT는 AI커뮤니티를 위한 연구용으로 욕설, 음란, 정치적 내용 및 기타 거친 언어에 대한 처리를 하지 않은 원시 데이터로 학습하였음을 경고함
  • 학습 데이터에 잘 등장하지 않는 방언 등은 좋지 않은 성능을 보일 수 있음
  • 테스트중에 발생한 비정상적인 혹은 사회적으로 용인되지 않는 텍스트가 생성된 경우에 대한 피드백 수집중 (opensource+kogpt@kakaobrain.com "prompt"와 "생성된 문장"을 함께 보내주시기 바랍니다.)