본문 바로가기

AI

한국어 언어모델: Korean Pre-trained Language Models

Encoder Only Model (BERT 계열)

모델 모델 사이즈 학습 코퍼스 설명
BERT_multi
(Google)
vocab=10만+
- 12-layers
다국어 BERT original paper에서 공개한 multi-lingual BERT

[벤치마크 성능]
- [텍스트분류] NSMC Acc 87.07
- [개체명인식] Naver-NER F1 84.20
- [기계 독해]   KorQuAD 1.0 EM 80.82%, F1 90.68%
- [의미역결정] Korean Propbank F1 81.85%
KorBERT
_Morphology

_WordPiece
(ETRI)
[Morphology]
vocab = 30,349
[WordPiece]
vocab = 30,797

- 12-layers
기사, 백과사전
- 23GB
- 4.7B 형태소
홈페이지 >> https://aiopen.etri.re.kr/service_dataset.php
* ETRI 형태소분석 API 사용

[벤치마크 성능 - Morphology]

- [기계 독해]   KorQuAD 1.0 EM 86.40%, F1 94.18%
- [의미역결정] Korean Propbank F1 85.77%

[벤치마크 성능 - WordPiece]
- [기계 독해]   KorQuAD 1.0 EM 80.70%, F1 91.94%
- [의미역결정] Korean Propbank F1 85.10%
KoBERT
(SKT)
vocab = 8,002
- 12-layers
위키백과
- 5M sents
- 54M words
github>> https://github.com/SKTBrain/KoBERT

[벤치마크 성능 - WordPiece]
- [텍스트분류] NSMC Acc 89.63
- [개체명인식] Naver-NER F1 86.11
HanBERT
(TwoBlock AI)
vocab = 54,000
- 12-layers

기본코퍼스
- 70GB
- 350M sents
- 11.3B 형태소
+특허문서
- 75GB
- 270M sents
- 15B 형태소
홈페이지 >> TwoBlockAI
github >> https://github.com/monologg/HanBert-Transformers

[벤치마크 성능 - WordPiece]
- [텍스트분류] NSMC Acc 90.16
- [개체명인식] Naver-NER F1 87.31
LMkor vocab = 42,000 총 70GB 텍스트
- 위키/나무위키
- 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 
- 모두의 말뭉치
github >> https://github.com/kiyoungkim1/LMkor

다양한 사전학습 기법을 활용한 한국 언어모델 공개

  - albert-kor-base (12 layers)
  - bert-kor-base (12 layers)
  - funnel-kor-base (6-6-6 layers)
  - electra-kor-base (12 layers)

[벤치마크 성능 - 홈페이지 참고]
KalBERT vocab = 47,473
- 24-layers
총 6GB 텍스트
- 위키백과
- KAIST book corpus
- 세종코퍼스
github >> https://github.com/MrBananaHuman/KalBert

[벤치마크 성능]
- [기계 독해]   KorQuAD 1.0 EM 81.26%, F1 90.01%
DistilKoBERT 3-layers 위키,나무위키,뉴스 (10GB) github >> https://github.com/monologg/DistilKoBERT

SKT Ko-BERT의 경량화 버전
[벤치마크 성능]
- [텍스트분류] NSMC Acc 88.41
- [개체명인식] Naver-NER F1 84.13
- [기계 독해]   KorQuAD 1.0 EM 54.12%, F1 77.80%

KR-BERT
_character
_sub-character
vocab 
- 16,424
- 12,367
2.47GB
- 20M sents

- 233M words
github>> https://github.com/snunlp/KR-BERT

 

Decoder Only Model (GPT 계열)

모델 모델 사이즈 학습 코퍼스 설명
KoGPT2
(SKT)
vocab = 51,200
- 12-layers
40GB github >> https://github.com/SKT-AI/KoGPT2

* 생성 태스크를 위한 모델로, 이모지 / 이모티콘이 사전에 포함
(예) 😀😁😆😅🤣, .. , :-):)-)(-:

[데모 코드 - githib에서 확인]
- 한국어 chit-chat 챗봇
- 데이터 생성 어플리케이션
- 생성 요약
LMkor vocab = 42,000
- 12-layers
총 70GB 텍스트
- 위키/나무위키
- 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 
- 모두의 말뭉치
github >> https://github.com/kiyoungkim1/LMkor

다양한 사전학습 기법을 활용한 한국 언어모델 공개

  - gpt3-kor-small_based_on_gpt2 (12 layers)

* 최대 처리 가능한 토큰 개수가 2,048개
* GPT2를 기반으로 학습, few-shot 학습 위해 인풋 길이를 늘린 것
* 홈페이지에서 GPT3 generation 데모 실행 가능

 

Encoder-Decoder Model

모델 모델 사이즈 학습 코퍼스 설명
LMkor vocab = 42,000
- Enc: 12-layers
- Dec: 12-layers
총 70GB 텍스트
- 위키/나무위키
- 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 
- 모두의 말뭉치
github >> https://github.com/kiyoungkim1/LMkor

다양한 사전학습 기법을 활용한 한국 언어모델 공개

  - bertshared-kor-base (12 layers)

* bert-kor-base로 파라미터 초기화 후 encoder-decoder 학습
* 텍스트 요약 태스크에 대해 학습함
* 홈페이지에서 텍스트 요약 코드 실행 가능
KoBART
(SKT)
vocab = 30,000
- Enc: 6-layers
- Dec: 6-layers
위키백과, 뉴스, 책, 모두의말뭉치, 청화대 국민청원 데이터 등

5M + sents
홈페이지 >> https://reposhub.com/python/natural-language-processing/SKT-AI-KoBART.html#kobart

* 생성 태스크를 위한 모델로, 이모지 / 이모티콘이 사전에 포함
(예) 😀😁😆😅🤣, .. , :-):)-)(-:

[데모 코드 - 홈페이지에서 확인]
- 텍스트 요약
Asian BART vocab = 80,000
- Enc: 12-layers
- Dec: 12-layers
- github >> https://github.com/hyunwoongko/asian-bart

한국어 이외에도 영어, 중국어, 일본어 모델 지원