Encoder Only Model (BERT 계열)
모델 | 모델 사이즈 | 학습 코퍼스 | 설명 |
BERT_multi (Google) |
vocab=10만+ - 12-layers |
다국어 | BERT original paper에서 공개한 multi-lingual BERT [벤치마크 성능] - [텍스트분류] NSMC Acc 87.07 - [개체명인식] Naver-NER F1 84.20 - [기계 독해] KorQuAD 1.0 EM 80.82%, F1 90.68% - [의미역결정] Korean Propbank F1 81.85% |
KorBERT _Morphology _WordPiece (ETRI) |
[Morphology] vocab = 30,349 [WordPiece] vocab = 30,797 - 12-layers |
기사, 백과사전 - 23GB - 4.7B 형태소 |
홈페이지 >> https://aiopen.etri.re.kr/service_dataset.php * ETRI 형태소분석 API 사용 [벤치마크 성능 - Morphology] - [기계 독해] KorQuAD 1.0 EM 86.40%, F1 94.18% - [의미역결정] Korean Propbank F1 85.77% [벤치마크 성능 - WordPiece] - [기계 독해] KorQuAD 1.0 EM 80.70%, F1 91.94% - [의미역결정] Korean Propbank F1 85.10% |
KoBERT (SKT) |
vocab = 8,002 - 12-layers |
위키백과 - 5M sents - 54M words |
github>> https://github.com/SKTBrain/KoBERT [벤치마크 성능 - WordPiece] - [텍스트분류] NSMC Acc 89.63 - [개체명인식] Naver-NER F1 86.11 |
HanBERT (TwoBlock AI) |
vocab = 54,000 - 12-layers |
기본코퍼스 - 70GB - 350M sents - 11.3B 형태소 +특허문서 - 75GB - 270M sents - 15B 형태소 |
홈페이지 >> TwoBlockAI github >> https://github.com/monologg/HanBert-Transformers [벤치마크 성능 - WordPiece] - [텍스트분류] NSMC Acc 90.16 - [개체명인식] Naver-NER F1 87.31 |
LMkor | vocab = 42,000 | 총 70GB 텍스트 - 위키/나무위키 - 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 - 모두의 말뭉치 |
github >> https://github.com/kiyoungkim1/LMkor 다양한 사전학습 기법을 활용한 한국 언어모델 공개 - albert-kor-base (12 layers) - bert-kor-base (12 layers) - funnel-kor-base (6-6-6 layers) - electra-kor-base (12 layers) [벤치마크 성능 - 홈페이지 참고] |
KalBERT | vocab = 47,473 - 24-layers |
총 6GB 텍스트 - 위키백과 - KAIST book corpus - 세종코퍼스 |
github >> https://github.com/MrBananaHuman/KalBert [벤치마크 성능] - [기계 독해] KorQuAD 1.0 EM 81.26%, F1 90.01% |
DistilKoBERT | 3-layers | 위키,나무위키,뉴스 (10GB) | github >> https://github.com/monologg/DistilKoBERT SKT Ko-BERT의 경량화 버전 [벤치마크 성능] - [텍스트분류] NSMC Acc 88.41 - [개체명인식] Naver-NER F1 84.13 - [기계 독해] KorQuAD 1.0 EM 54.12%, F1 77.80% |
KR-BERT _character _sub-character |
vocab - 16,424 - 12,367 |
2.47GB - 20M sents - 233M words |
github>> https://github.com/snunlp/KR-BERT |
Decoder Only Model (GPT 계열)
모델 | 모델 사이즈 | 학습 코퍼스 | 설명 |
KoGPT2 (SKT) |
vocab = 51,200 - 12-layers |
40GB | github >> https://github.com/SKT-AI/KoGPT2 * 생성 태스크를 위한 모델로, 이모지 / 이모티콘이 사전에 포함 (예) 😀, 😁, 😆, 😅, 🤣, .. , :-), :), -), (-: [데모 코드 - githib에서 확인] - 한국어 chit-chat 챗봇 - 데이터 생성 어플리케이션 - 생성 요약 |
LMkor | vocab = 42,000 - 12-layers |
총 70GB 텍스트 - 위키/나무위키 - 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 - 모두의 말뭉치 |
github >> https://github.com/kiyoungkim1/LMkor 다양한 사전학습 기법을 활용한 한국 언어모델 공개 - gpt3-kor-small_based_on_gpt2 (12 layers) * 최대 처리 가능한 토큰 개수가 2,048개 * GPT2를 기반으로 학습, few-shot 학습 위해 인풋 길이를 늘린 것 * 홈페이지에서 GPT3 generation 데모 실행 가능 |
Encoder-Decoder Model
모델 | 모델 사이즈 | 학습 코퍼스 | 설명 |
LMkor | vocab = 42,000 - Enc: 12-layers - Dec: 12-layers |
총 70GB 텍스트 - 위키/나무위키 - 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 - 모두의 말뭉치 |
github >> https://github.com/kiyoungkim1/LMkor 다양한 사전학습 기법을 활용한 한국 언어모델 공개 - bertshared-kor-base (12 layers) * bert-kor-base로 파라미터 초기화 후 encoder-decoder 학습 * 텍스트 요약 태스크에 대해 학습함 * 홈페이지에서 텍스트 요약 코드 실행 가능 |
KoBART (SKT) |
vocab = 30,000 - Enc: 6-layers - Dec: 6-layers |
위키백과, 뉴스, 책, 모두의말뭉치, 청화대 국민청원 데이터 등 5M + sents |
홈페이지 >> https://reposhub.com/python/natural-language-processing/SKT-AI-KoBART.html#kobart * 생성 태스크를 위한 모델로, 이모지 / 이모티콘이 사전에 포함 (예) 😀, 😁, 😆, 😅, 🤣, .. , :-), :), -), (-: [데모 코드 - 홈페이지에서 확인] - 텍스트 요약 |
Asian BART | vocab = 80,000 - Enc: 12-layers - Dec: 12-layers |
- | github >> https://github.com/hyunwoongko/asian-bart 한국어 이외에도 영어, 중국어, 일본어 모델 지원 |
'AI' 카테고리의 다른 글
PoseNet: TensorFlow.js으로 실시간 human pose estimation 구현하기 (0) | 2021.09.05 |
---|---|
[논문리뷰] VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text (1) | 2021.06.25 |
[딥러닝 시리즈] ③ Loss 함수 설계하기 (2) (0) | 2021.05.16 |
[딥러닝 시리즈] ② Loss 함수 설계하기 (1) (0) | 2021.05.07 |
[딥러닝 시리즈] ① 딥러닝으로 풀고자 하는 문제에 대하여 (0) | 2021.04.24 |