본문 바로가기

Ai

Transformer 위치 인코딩이 가지는 성질 & 의미 Timo Denk's Blog의 글을 번역 & 정리한 포스팅입니다 ❤️Source: Timo Denk's Blog - Linear Relationships in the Transformer’s Positional Encoding ❤️ Transformer는 attention만을 사용해 Seq2Seq 태스크를 모델링한 아키텍처이다. 이 모델의 핵심인 scaled dot product attention은 들어온 시퀀스의 각 토큰으로부터 key, query, value에 해당하는 정보를 추출한 후 이를 이용해 각 토큰과 관련이 높은 정보에 집중(attend)하여 representation을 생성해가는 과정이다. 이 멋진 구조를 활용한 Transformer은 기계번역, 요약 등 각종 태스크에서 좋은 성능을 보였.. 더보기
[논문리뷰] TaBERT: 텍스트 & 표 데이터 인식을 위한 사전학습 ** 논문: https://arxiv.org/pdf/2005.08314.pdf ** 깃헙: https://github.com/facebookresearch/TaBERT 자연어(Natural Language, NL) 문장과 표 데이터에 대한 representation을 동시에 학습할 수 있는 사전학습 기법 TaBERT 학습에 대한 전체 학습도 : (A) 표 내용에 대한 스냅샷은 자연어 발화에 기반해 생성 (B) 스냅샷에 있는 각 행은 Transformer로 인코딩 되어 토큰과 셀에 대한 행별(row-wise) 인코딩을 생성함 (C) 모든 행별 인코딩은 vertical self-attention layer V로 처리되어 열 representation을 생성함 모델 3.1 자연어 발화와 테이블 스키마에 대한 .. 더보기
[논문리뷰] Longformer: The Long-Document Transformer **논문: https://arxiv.org/abs/2004.05150 **깃헙: https://github.com/allenai/longformer MOTIVATION Transformer의 self-attention은 인풋 시퀀스 길이의 제곱에 비례하여 메모리와 계산량이 늘어난다. 이는 그동안 길이가 긴 텍스트를 인풋으로 받는 NLU 태스크를 처리하는 데에 병목이 되었다. 긴 컨텍스트에 대한 질의응답과 같이 NLU에는 긴 시퀀스를 처리해야 하는 문제들이 존재하고, BERT의 경우 다음과 같은 방법들을 통해 Transformer의 512토큰 제한 문제를 우회했다: 1) 512 글자 제한에 맞도록 인풋 문서 일부분을 버리기 2) stride를 주며 독립적으로 문서의 조각들을 처리 3) 관련 있는 문서 조각.. 더보기
Transformer로 텍스트를 생성하는 다섯 가지 전략 Hugging face에서 정리한 자연어 생성 디코딩 전략 포스팅을 번역 & 정리한 포스트입니다 ❤️ Source - hugging face ❤️ 더 좋은 디코딩 전략으로 자연어 생성 모델의 성능 높이기 원본 포스팅: https://huggingface.co/blog/how-to-generate?fbclid=IwAR19kbEiW_sF19TeSr4BE4jQZSIqz0GzOFD2013fIGEH32DReW9pAFq6vDM 포스팅에서 소개하는 전략은 아래와 같이 표현할 수 있는 모든 auto-regressive 언어 모델에 적용 가능하다. 또한, 다섯 가지 디코딩 전략은 hugging face의 transformer 라이브러리에서 함수로 호출해 사용할 수 있다. import tensorflow as tf fro.. 더보기
GPT-3, 이런 것도 된다고? 오픈AI의 GPT-3가 할 수 있는 놀라운 일들 2020/06/22 - [AI] - [논문리뷰] GPT3 - Language Models are Few-Shot Learners [논문리뷰] GPT3 - Language Models are Few-Shot Learners 오픈 AI GPT 시리즈의 세 번째 논문이 공개되었씁니다!!!! GPT1 - Improving Language Understanding by Generative Pre-Training GPT2 - Language Models are Unsupervised Multitask Learners GPT3 - Language .. littlefoxdiary.tistory.com 앱을 만들어줄 수 있겠어? "돈을 추가하고 빼는 버튼을 만들고, 버튼을.. 더보기
[논문리뷰] GPT3 - Language Models are Few-Shot Learners 오픈 AI GPT 시리즈의 세 번째 논문이 공개되었씁니다!!!! GPT1 - Improving Language Understanding by Generative Pre-Training GPT2 - Language Models are Unsupervised Multitask Learners GPT3 - Language Models are Few-Shot Learners 2020/07/20 - [AI] - GPT-3, 이런 것도 된다고? GPT-3, 이런 것도 된다고? 오픈AI의 GPT-3가 할 수 있는 놀라운 일들 2020/06/22 - [AI] - [논문리뷰] GPT3 - Language Models are Few-Shot Learners [논문리뷰] GPT3 - Language Models are Fe.. 더보기
한국어 자연어 처리 데이터셋 목록 *** NLP / NLU 모델 학습을 위한 한국어 데이터셋 모음 *** (8/1 UPDATE) AI HUB에 언어 인식기술 관련 멋진 데이터들이 대량 공개된 것 발견!! 특히 대화모델 학습용 데이터가 많이 포함되어 있습니다. 분류 분석 (감성분석/ 의도분류) 이름 설명 링크 네이버 영화 리뷰 네이버 영화 리뷰 데이터에 대한 긍/부정 라벨 데이터 - 학습 15만건 / 테스트 5만건 github Toxic Comment Data 네이버 영화 리뷰 데이터의 라벨을 상세화한 데이터 - toxic / obscene / threat / insult / identity_hate 분류 github 3i4k 의도분류 학습용 데이터셋 - 문장에 대해 7가지 클래스 라벨 부여 - 논문: https://arxiv.org/pd.. 더보기
[논문리뷰] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately 생성 모델 대신 "판별모델"을 통해 인코더 사전 학습하기 (Pre-training Text Encoders as Discriminators Rather Than Generators) 논문 - https://openreview.net/pdf?id=r1xMH1BtvB 깃허브 - https://github.com/google-research/electra 생성 모델 대신 "판별모델"을 통해 인코더 사전학습하기 대량의 코퍼스에 대해 모델을 사전학습하고, 풀고자 하는 태스크에 대해 fine-tuning 하는 방법은 NLP 과제를 수행하는 데에 있어 성공적이었다.. 더보기