LLM/Algorithm&Models 8

[논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

** Technical Report: https://arxiv.org/pdf/2501.12948DeepSeek-R1✔ 모델이 생각하여 추론하는 방법을 스스로 학습하도록 하기 위한 강화학습과 가독성 증대 및 사람 선호와의 일치를 위한 Fine-tuning 단계를 반복함으로써 OpenAI O1 모델에 비견할만한 모델을 학습했으며, 해당 모델을 오픈소스로 공개 ✔ DeepSeek은 R1 모델을 약 560만 달러 (약 80억 원)의 비용으로 훈련시켰다고 알려져 있으나, 과소 측정 논란이 있음 ✔ 671B 규모의 MoE 아키텍처를 사용하여 계산 효율성을 높이고 리소스 소비를 줄임 ✘ 데이터 Source, 도메인, 강화학습 단계에서 사용한 데이터 규모 등 학습 데이터의 Curation 방법 미공개 ✘ 영어, 중국어..

[논문리뷰] SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling

논문 링크: https://arxiv.org/pdf/2312.15166.pdf SOLAR 10.7B NLP 분야는 언어 및 사람과의 상호작용에 대한 이해가 강화된 대규모 언어모델의 등장 이후 그 장세가 크게 변화하였다. 성능에 대한 scaling law에 따라 더 큰 모델을 학습해야 하는 부담이 생긴 것이다. 대규모 학습에 대해 언어 모델을 scaling 하기 위해 MoE(Mixture of Experts)와 같은 방법이 제안되기도 하였지만, 이러한 구조는 학습 및 추론 프레임워크에 있어 변경이 필요하기에 활용성에 제약이 생긴다. 효율적이면서 효과적으로 LLM을 scale up하면서 그 간결성(simplicity)을 유지하는 것은 중요한 연구 분야이다. SOLAR에서는 depth up-scaling(DU..

Anthropic의 Constitutional AI: Harmless from AI Feedback | AI 헌법에 따라 행동하는 인공지능

참고 논문 및 자료: - Constitutional AI: Harmlessness from AI Feedback (Anthropic) - Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic) - https://scale.com/blog/chatgpt-vs-claude Motivation: "AI의 행동을 감독하는 데에 AI를 활용하자" 최근 뛰어난 성능으로 큰 관심을 받고 있는 ChatGPT는 모델이 생성한 답변에 대한 사람의 선호 피드백을 활용하여 보다 사람이 선호하는 답변을 하도록 학습한, Reinforcement Learning from Human Feedback을 사용한..

챗GPT는 어떻게 학습되었을까 - Human Feedback Reinforcement Learning (RLHF)

주요 출처 및 참고자료: https://huggingface.co/blog/rlhf MOTIVATION 최근 발표된 언어 모델은 사람이 입력한 프롬프트로부터 다양하고 그럴듯한 텍스트를 생성하는 데에 있어 뛰어난 능력을 보였다. 하지만 텍스트를 정의하는 것은 본직적으로 어려운 일인데, 이 기준이 주관적이고 상황에 따라 다르기 때문이다. 예를 들어 이야기를 쓸 때에는 창의성이 필요하고, 정보성 문단은 사실적이어야 하며 코드 스니펫과 같은 것은 실행 가능해야 한다. 이렇게 복잡한 속성들을 담은 loss function을 설계하는 것은 거의 불가능하다. 따라서 대부분의 언어모델은 cross entropy를 사용해 다음 토큰을 예측하는 태스크를 통해 학습한다. 이 loss는 좋은 텍스트를 생성했는지 판단하기에 직..

한국어 (초)거대 공개 언어모델 - Polyglot, KoGPT

GPT-3를 필두로 하여 거대 파라미터의 모델에 대규모 코퍼스를 학습한 (초)거대 언어모델은 자연스러운 문장을 생성하거나 다양한 태스크를 적은 학습 데이터로 수행하는 등 뛰어난 가능성을 보였다. 하지만 학습에 막대한 자본이 필요한 거대 언어모델은 AI의 독점화 및 권력화, 그리고 데이터 및 컴퓨팅 파워 격차에 따른 기술 격차 심화를 낳을 것이라는 우려도 존재한다. 빅테크 기업이 아닌 일반 기업이나 연구자가 거대 언어 모델을 다루기는 쉽지 않은 것은 엄연한 사실이다. 이러한 상황에 변화를 가져오기 위해 Huggingface가 중심이 되는 BigScience 프로젝트에서는 를 위해 전 세계 1,000여 명의 AI 연구자들이 힘을 합쳐 다양한 언어를 포괄하는 176B 규모의 언어모델 BLOOM을 확보하여 공개..

[논문리뷰] DeepMind RETRO - 수 조개의 토큰 DB로부터 정보를 검색해 강화된 언어모델

블로그 : https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens 논문 : https://arxiv.org/abs/2112.04426 Motivation 언어 모델이란 '가장 자연스러운 단어 시퀀스를 찾아내는 모델'로 단어의 시퀀스에 확률을 할당(assign) 하는 일을 하는 모델이다. 그리고 이러한 작업을 학습하기 위해 가장 보편적으로 사용하는 방법은 언어모델이 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 훈련시키는 것이다. 지난 몇 년 동안 컴퓨팅 자원의 발달에 힘입어 언어모델은 더 큰 파라미터를 더 많은 데이터에 대해 학습하는 방향으로 발전해왔다. 2020년 1750..

AI alignment - 인공지능과 사람의 <동상동몽>

근래에 자주 보이는 AI 연구 키워드 중 하나가 [ AI alignment ] 이다. alignment [əˈlīnmənt] - 조정, 정렬, 정돈 AI 정렬? 익숙지 않은 개념 탓에 사전적인 의미만 가지고는 AI alignment가 어떤 의미인지 딱 와닿지 않는다. 위키피디아에 AI alignment를 검색해보니 AI alignment에 대해 아주 자세히 정리해놓은 페이지가 있었다. https://en.wikipedia.org/wiki/AI_alignment#Problem_description AI alignment - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Issue of ensuring ben..

[논문리뷰] GPT3의 새로워진 버전 - InstructGPT : 인간의 지시에 따른 결과물을 완성해내는 AI

InstructGPT : Training language models to follow instructions with human feedback 논문 링크 : https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf 블로그 포스팅 : https://towardsdatascience.com/the-new-version-of-gpt-3-is-much-much-better-53ac95f21cfb GPT-3 설명 : 2020.06.22 - [AI] - [논문리뷰] GPT3 - Language Models are Few-Shot Learners GPT-3가 발표된 후 지난 2년간 GPT-..