분류 전체보기 121

[논문리뷰] Small Language Models Are Also Few-Shot Learners

GPT-3는 in-context learning 방식으로 Few-shot 세팅에서 NLU 태스크를 잘 수행할 수 있다는 것을 보여주었다. 이러한 성과는 1750억 개에 달하는 엄청난 양의 파라미터로 수많은 텍스트에 대해 진행한 사전학습을 통해 달성할 수 있었는데, 이 모델을 학습시키는 데에 드는 비용이 $4.6 million, 약 52억 원에 달할 것으로 추정된다. 으아니... few-shot learning이 가능해진 대가가 52억이라니... (?) 천문학적인 학습 비용 이외에도 GPT-3가 가지는 한계는 존재한다. GPT-3에서 사용하는 in-context learning은 모델이 컨텍스트에 주어진 태스크에 대한 설명이나 예시를 통해 어떤 태스크를 수행해야 하는지를 추론 단계에서 '유추'해내는 것을 ..

AI/Algorithm&Models 2020.10.09

시니피앙과 시니피에 - 우리는 언어의 틀 안에서만 세상을 파악할 수 있다

단어가 가지는 의미의 폭은 언어에 따라 다르다 우리는 흔히 '물건'이라는 실체가 있고, 그에 맞는 '이름'은 나중에 붙여졌다고 생각한다. 하지만 생각과는 달리 물건의 체계와 언어의 체계가 문화권에 따라 다르다. 예를 들어 우리는 '나비'라는 말과 '나방'이라는 말에 익숙한 나머지 원래부터 나비와 나방이라는 두 종류의 곤충이 있어서 이렇게 이름이 붙여졌다고 생각하기 쉽다. 하지만 프랑스어에는 나비와 나방의 개념을 모두 포함하는 이라는 단어밖에 없다고 한다. 즉, 프랑스 문화권에서는 나비와 나방을 구분해 사용하는 개념이 없기 때문에 더 넓은 폭을 나타내는 이라는 단어로 정의되어 있다. 프랑스인에게는 '나비'라는 개념도, '나방'이라는 개념도 없고, 오직 두 가지를 하나의 집합으로 인식하는 이라는 전혀 다른 ..

Others/Books 2020.09.19

AI는 딥러닝을 넘어 "깊은 이해"의 단계로 넘어가야 한다

SKT에서 주관한 ai.x2020컨퍼런스에서 아주 흥미로운 키노트를 들었다. AI가 가야 할 길과 연구자로서의 야망(!)을 끌어올리는 개리 마커스의 키노트였는데, 특히 자연어처리 분야에 대해서 생각해볼 만한 인사이트가 있어서 간단히 정리해 보았다. AGI, Artificial General Intelligence AGI는 오랜 예전부터 AI의 지향점이었다. 우리는 - 새로운 문서를 읽고, 이해하여 빠르게 증식하는 문서들로부터 중요한 지식을 취합할 수 있고 - 인과 관계에 대해 추론할 수 있으며 - 따라서 실제 세상의 어려운 상황들; 새로운 환경이나 정보가 불충분한 상황에서 올바른 결정을 내리도록 돕는 AI - 또한 인간이 하기에 위험한 일들을 수행하고, 노인들을 도우며 문앞까지 택배를 배달해줄 수 있는 ..

AI/Algorithm&Models 2020.09.12

조직의 성공을 위한 생각의 도구 3가지

리더의 역할은 무엇인가 장기적인 번영과 행복에 책임감을 가지고 있는 리더는 과감히 결단을 내리고 행동해야 할 때가 있다. 리더의 입장에 선다는 것은 때때로 고독하고, 암흑의 책임을 떠안는 일이다. 카리스마를 지닌 리더가 있는 조직에서는 조직의 방향과 구동의 원동력이 대가나 벌칙을 정한 규칙이 아닌 피지배자들의 자발적인 동기, 즉 지배자를 따르고자 하는 마음이다. 권력거리란 상사에게 반론을 제기할 때 부하 직원이 느끼는 심리적 저항감의 정도를 의미한다. 권력거리는 두 가지 측면에서 조직에 영향을 미친다. 첫 째, 조직의 권력자가 잘못된 의사결정을 내릴 경우 부하 직원이 반론을 제기할 수 있는가(준법 감시). 둘째, 혁신에 대한 문제이다. 과학자 토머스 쿤은 패러다임의 전환을 일으키는 인물의 특징 중 하나로..

Others/Books 2020.09.06

자아 실현을 이룬 인물들의 공통적인 특징 15가지

애이브러햄 매슬로(1908-1970)는 인간의 욕구 중 최고의 우위에 있는 자아실현을 이루었다고 판단한 역사적 인물 사례를 연구하여 자아 실현을 이룬 사람들의 공통적인 특징 15지를 정리했다. 1. 현실을 더욱 효과적으로 지각하고 쾌적한 관계를 유지한다. - 소망, 욕망, 불안, 혹은 낙관주의나 비관주의에 기반해 예측하지 않는다. - 미지의 것이나 애매한 것에 겁먹지 않고 오히려 흥미로워한다. 2. 자연을 비롯해 자신과 타자를 수용한다. - 자연을 자연 그대로 받아들이듯이 인간성의 약점, 유약함, 사악함을 받아들일 수 있다. 3. 자발성, 단순함, 자연스러움 - 행동, 사상, 욕구에 대해 자발적이다. 행동은 단순하고 자연스럽고, 거짓을 꾸미거나 결과를 위해 긴장하지 않는다. 4. 과제 중심적이다. - 철..

Others/Books 2020.08.30

Active Learning - ② 액티브 러닝 쿼리 전략 다섯 가지

** Previous ** 2020/08/16 - [AI] - Active Learning - ① 액티브 러닝이란 무엇인가 Active Learning - ① 액티브 러닝이란 무엇인가 액티브 러닝이란? 전통적으로 기계학습(Passive Machine Learning)은 라벨링되지 않은 데이터에 대해 사람이 라벨을 부여하면 이를 기계가 학습하는 방식으로 이루어졌다. 이 방식에서는 학습 데이터 � littlefoxdiary.tistory.com 액티브러닝의 핵심은 러너가 아직 라벨링 되지 않은 데이터 중 가장 정보 혹은 효용이 높은 인스턴스를 쿼리하는 데에 있다. 이렇게 라벨링이 필요한 데이터를 선택하는 전략을 쿼리 전략(query strategy)이라고 부른다. 쿼리 전략 중 한 가지가 이전 포스팅에서 소..

AI/Algorithm&Models 2020.08.19

Active Learning - ① 액티브 러닝이란 무엇인가

액티브 러닝이란? 전통적으로 기계학습(Passive Machine Learning)은 라벨링되지 않은 데이터에 대해 사람이 라벨을 부여하면 이를 기계가 학습하는 방식으로 이루어졌다. 이 방식에서는 학습 데이터 마련에 상당한 사람의 공수가 들어간다. 뿐만아니라 이미지넷 리더보드나 기계번역 모델을 보면 사람보다도 태스크를 잘 수행하는 모델이 등장하였는데, 이렇게 잠재적으로 뛰어난 기계를 두고 사람이 모든 라벨링을 진행하는 것은 조금 아깝다는 생각이 든다. 어떤 데이터가 필요한지를 기계가 판단하여 사람에게 라벨링을 부탁하면 사람은 더 적은 라벨링 공수를 들이고도 좋은 모델을 학습할 수 있지 않을까? 이것이 액티브러닝의 아이디어다. 액티브러닝에서는 기계가 라벨링이 필요한 데이터 중 자동적으로, 그리고 점진적으로..

AI/Algorithm&Models 2020.08.16

[OpenAI] Image GPT - 이미지 분야에 트랜스포머 활용하기

** 링크: https://openai.com/blog/image-gpt/ ** 깃헙: https://github.com/openai/image-gpt iGPT 소개 자기지도학습(Self-supervised learning) 자기지도학습은 사람 라벨링 없이도 대량의 raw 데이터를 활용하여 모델이 인풋에 대한 좋은 representation을 생성하는 방법을 배우는 방법이다. 언어 AI의 경우 GPT, BERT 등의 모델은 자기지도학습을 통해 도메인과 무관한(domain agnostic) 특성을 학습하였고, 다운스트림 태스크에서 좋은 성능을 보였다. 특히 이 모델들은 임의 길이의 1차원의 시퀀스를 처리하기 위해 Transformer 아키텍쳐를 사용하였다. 이미지를 Transformer로 처리하기 iGPT..

AI/Algorithm&Models 2020.08.10

모든 순간의 물리학 - 상대성이론, 양자역학, 입자, 공간입자와 루프양자중력

"우리가 자유롭게 결정하고, 존재하는 것조차 물리학이다!"모든 순간의 물리학, 카를로 로벨리 지음세상에서 가장 아름다운 이론#1. 일반 상대성이론의 탄생1905년, 아인슈타인은 에 논문 세 편을 보냈다: ① 원자가 실제로 존재한다는 것을 증명 ② 양자역학의 시초가 된 광자에 대한 이론 ③ 상대 이론그리고 1915년, 중력 이론에 대한 논문을 완성한다 :상대성 이론과 중력은 논리적으로 상충하는 부분이 있었고, 뉴턴 이후 최고의 이론으로 자리하고 있던 '만유인력'은 의심을 받게 된다. 그리고, 아인슈타인은 중력과 상대성이론이 양립할 방법을 찾아낸다. 이 이론이 바로 "일반 상대성 이론"이다. #2. 공간에 대한 인식의 변화뉴턴 says- 모든 것은 서로를 끌어당긴다 (중력)- 우주를 담고 있는 빈 공간이 존..

Others/Books 2020.08.04

Transformer 위치 인코딩이 가지는 성질 & 의미

Timo Denk's Blog의 글을 번역 & 정리한 포스팅입니다 ❤️Source: Timo Denk's Blog - Linear Relationships in the Transformer’s Positional Encoding ❤️ Transformer는 attention만을 사용해 Seq2Seq 태스크를 모델링한 아키텍처이다. 이 모델의 핵심인 scaled dot product attention은 들어온 시퀀스의 각 토큰으로부터 key, query, value에 해당하는 정보를 추출한 후 이를 이용해 각 토큰과 관련이 높은 정보에 집중(attend)하여 representation을 생성해가는 과정이다. 이 멋진 구조를 활용한 Transformer은 기계번역, 요약 등 각종 태스크에서 좋은 성능을 보였..

AI/Algorithm&Models 2020.07.29