전체 글 썸네일형 리스트형 한국어 자연어 처리 데이터셋 목록 *** NLP / NLU 모델 학습을 위한 한국어 데이터셋 모음 *** (8/1 UPDATE) AI HUB에 언어 인식기술 관련 멋진 데이터들이 대량 공개된 것 발견!! 특히 대화모델 학습용 데이터가 많이 포함되어 있습니다. 분류 분석 (감성분석/ 의도분류) 이름 설명 링크 네이버 영화 리뷰 네이버 영화 리뷰 데이터에 대한 긍/부정 라벨 데이터 - 학습 15만건 / 테스트 5만건 github Toxic Comment Data 네이버 영화 리뷰 데이터의 라벨을 상세화한 데이터 - toxic / obscene / threat / insult / identity_hate 분류 github 3i4k 의도분류 학습용 데이터셋 - 문장에 대해 7가지 클래스 라벨 부여 - 논문: https://arxiv.org/pd.. 더보기 [논문리뷰] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately 생성 모델 대신 "판별모델"을 통해 인코더 사전 학습하기 (Pre-training Text Encoders as Discriminators Rather Than Generators) 논문 - https://openreview.net/pdf?id=r1xMH1BtvB 깃허브 - https://github.com/google-research/electra 생성 모델 대신 "판별모델"을 통해 인코더 사전학습하기 대량의 코퍼스에 대해 모델을 사전학습하고, 풀고자 하는 태스크에 대해 fine-tuning 하는 방법은 NLP 과제를 수행하는 데에 있어 성공적이었다.. 더보기 세계 영어 문화권 알아보기 (3) - Australia Strine (호주 사람들이 호주의 악센트로 사용하는 영어) I'm knackered : 나 너무 피곤해 It's a goer : 반드시 일어날 일 mucking around : 다른 사람들이 싫어하는 방식으로 행동하는 것을 가리킴 No dramas! = No worries. 괜찮아! Ow-yar-goin? = How are you? Pull ya head in : 너 말 듣기 싫으니까 닥쳐줘 Put a snag on the barbie : 바베큐 그릴에 소시지를 굽다 Av-a-go-yer-mug : 충분히 노력하지 않는 거 같은 사람이 좀 더 노력하길 바랄 때 사용하는 말 bloody oath = 사실이야. That's true (ex) Bloody oath it is. chuck a U-e = 유턴을.. 더보기 [논문리뷰] 블렌더(Blender) - Facebook AI의 오픈 도메인 챗봇 BLENDER > 페이스북 AI에서 발표한 오픈 도메인 챗봇 모델 > 대화에 적절히 개입하고, 지식과 강세, 페르소나를 나타내면서 멀티턴 대화에서 일관적인 성격을 유지하는 것에 초점 > 90M, 2.7B, 9.4B 개의 파라미터를 가지는 모델을 공개함 > 사람이 평가해보았을 때, 멀티턴 대화 시스템에서 호응도(engageness)와 사람다움(humanness)에서 다른 모델을 능가 > 특히 구글의 Meena와 비교할 때 호응도 25~75% 개선, 사람다움이 35~65% 개선되었다고 봄. "오픈 도메인 챗봇을 만드는 레시피를 제공합니다" 기존의 오픈 도메인 챗봇 연구에 따르면 뉴럴넷 파라미터 수와 데이터 크기를 늘리면 성능 향상에 효과가 있었다. 본 논문에서는 단순히 모델 크기를 스케일링하는 것 이외에 아.. 더보기 토치서브(TorchServe) - 파이토치 배포를 위한 모델 서비스 프레임워크 공개 Pytorch 파이토치는 간결하면서 '파이썬스러운' 문법과 그래프 모드의 유연성으로 인해 AI 알고리즘 연구자들이 대대적으로 선호해 온 머신러닝 프레임워크이다. 텐서플로우에서 케라스를 래핑한 TensorFlow2.0을 발표하며 개발의 용이성을 강조했을 때에도 "우리 연구실 학생들이 파이토치에서 갈아탄다면 텐플이 쉽다는 걸 인정하겠네 "라는 meme이 돌았을만큼 파이토치를 사용한 모델 개발과 실험은 매우 쉽다! 그러나 파이토치로 개발된 모델을 비즈니스 레벨로 디플로이하는 것은 쉽지 않았다. 대규모 추론 환경에서 프로덕션 레벨로 모델을 배포하기 위해서는 안정적인 다중 응대 뿐만 아니라 모델 관리, 보안, 모니터링 등 필요한 기능이 많기 때문이다. 이러한 모델 베포 프로세스를 단순화할 수 있는 방법 중 하나가.. 더보기 [논문리뷰] CTRL - 자연어 생성을 위한 조건부 트랜스포머 언어 모델 CTRL - Conditional Transformer Language Model for Generation 논문 >> https://arxiv.org/pdf/1909.05858.pdf CTRL은 세일즈포스닷컴(Salesforce)에서 2019년에 발표한 조건부 자연어 생성 모델이다. 텍스트 생성을 명시적으로 통제하기 위해 '컨트롤 코드(control code)' 를 도입하여 이에 조건부인 언어 모델을 학습하고, 모델이 생성하는 텍스트에 대한 특성을 더 명시적으로 표현하였다. CTRL은 Transformer 기반의 모델로, 16.3억개의 파라메터를 가진다. 컨트롤 코드란? 컨트롤 코드는 도메인, 스타일, 주제, 날짜, 개체, 개체간의 관계, 태스크와 관련된 행동 등을 통제하는 prefix같은 것이다. 모.. 더보기 세계 영어 문화권 알아보기 (2) - The United States of America History 미국의 원주민(indigenous people)은 아시아 대륙으로부터 왔다는 설이 있다. 약 17,000년 전, 해수면이 낮아져 시베리아와 북아메리카(현재 시베리아 지역)를 잇는 다리가 생겼고, 아시아로부터 처음으로 사람이 건너왔고, 16,500년 전부터는 빙하가 녹기 시작하며 이들이 동남쪽으로 움직이며 현재의 캐나다와 미국 지역으로 이주했다는 것이다. 이들은 미 대륙 전역으로 이동하며 다양한 언어와 가족을 형성하며 살았지만, 1492-1504년 콜럼버스 항해 이후 유럽에서 건너온 사람들이 가지고 온 질병으로 인해 80-95%에 달하는 인구가 줄어들게 된다. 영어를 사용하는 첫 번째 정복자는 17세기에 들어온 것으로 알려져 있다. 이후 미국식 영어는 서아프리카, 독일, 더치, 아이리시, 스.. 더보기 세계 영어 문화권 알아보기 (1) -The United Kingdom 역사 (History) 현재 UK는 England, Scotland, Wales, Northern Ireland로 구성되어 있는데, 이들을 home nations(=home contries)라고 부른다. 초기에 UK에 정착한 켈트족부터 시작해 로마, 색슨족, 그리고 노먼 족까지 영어는 고대 외부 문화의 영향을 받아왔다. Celts : UK에 초기에 정착한 사람들은 켈트 족으로, 원래는 아일랜드와 스페인의 일부 지역에 살던 사람들이 영국으로 이주한 것이다. 웨일스나 스코틀랜드에 사는 많은 사람들이 그들의 조상은 켈트 사람(Celtic)이라고 생각하고 있고, 어떤 사람들은 여전히 이들의 전통적인 언어인 게일릭(Gaelic)을 사용한다. Romans : 다음으로 공중 목욕, 도로 등을 만든 로마 사람들이 영국.. 더보기 이전 1 ··· 8 9 10 11 12 13 14 15 다음 목록 더보기