LLM 썸네일형 리스트형 [논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning ** Technical Report: https://arxiv.org/pdf/2501.12948DeepSeek-R1✔ 모델이 생각하여 추론하는 방법을 스스로 학습하도록 하기 위한 강화학습과 가독성 증대 및 사람 선호와의 일치를 위한 Fine-tuning 단계를 반복함으로써 OpenAI O1 모델에 비견할만한 모델을 학습했으며, 해당 모델을 오픈소스로 공개 ✔ DeepSeek은 R1 모델을 약 560만 달러 (약 80억 원)의 비용으로 훈련시켰다고 알려져 있으나, 과소 측정 논란이 있음 ✔ 671B 규모의 MoE 아키텍처를 사용하여 계산 효율성을 높이고 리소스 소비를 줄임 ✘ 데이터 Source, 도메인, 강화학습 단계에서 사용한 데이터 규모 등 학습 데이터의 Curation 방법 미공개 ✘ 영어, 중국어.. 더보기 언어 모델을 화이트 해킹하자 | ② Human-in-the-Loop 지난 포스트에서 LLM의 원치 않는 행동을 방지하기 위한 Red-teaming의 개념에 대해 알아보았다.이번에는 레드팀에서 가장 중요한 방법 중 하나인, 사람이 개입한 Red-teaming에 대해 구체적으로 알아보자. Human Red-teaming레드팀에서 가장 중요한 부분 중 하나는 인간 평가자가 모델의 응답을 검토하고 편향, 잘못된 정보 또는 공격적인 내용의 예를 식별하는 것이다. 이러한 활동에는 적대적인 시나리오를 시뮬레이션하는 데에 숙련된 사람들 뿐만 아니라 언어학, AI 및 윤리 전문가가 참여한다. 이들의 목표는 LLM이 해롭거나 부적절한 출력을 생성하도록 할 수 있는 잠재적인 취약성과 편견을 밝혀내는 것이다. 일반적인 Red-teaming 절차는 다음과 같다: (1) 범위 정하기조사하려는 L.. 더보기 언어 모델을 화이트 해킹하자 | ① Red-Teaming Large Language Models ⚠ 본 포스트는 언어 모델의 해로운 행동에 대한 내용으로, 모델이 생성한 공격적이거나 불쾌한 내용이 포함되어 있을 수 있습니다. 대량의 텍스트를 학습한 대규모 언어모델(LLM)은 능숙하게 현실적인 콘텐츠를 생성하고, 사람의 지시에 따른다.그러나 이러한 모델은 종종 개인정보를 유출하거나 잘못된 정보, 편견, 혐오 혹은 해로운 콘텐츠를 생성하는 등, 언어모델의 개발/운영자가 원하지 않는 행동을 하게 된다. 예를 들어 GPT-3 모델은 여성의 투표권에 대한 차별적인 텍스트를 생성하기도 했다. LLM이 원하지 않는 답변을 했다는 것을 발견하게 되면, 우리는 LLM이 그러한 행동을 하지 않도록, 전략을 취할 수 있다.작은 언어모델을 활용하여 LLM의 생성을 가이드하는 GeDi(Generative Discrim.. 더보기 Llama3 한국어 성능 테스트 | Colab에서 Meta-Llama-3 모델 사용해보기🦙 GPT-4에 비견할만한 성능을 가진다는 Meta의 오픈소스 LLM Llama3를 사용해보자! Llama 3 모델 Llama 3 모델 특징8B & 70B 파라미터 규모의 모델으로, MMLU, HumanEval 등 벤치마크 태스크에서 경쟁모델보다 좋은 성능을 보임Decoder-only 트랜스포머 아키텍처를 기본으로 하되, Llama2 대비 큰 향상을 보임토큰 인코딩 효율을 늘리기 위해 128,000개의 vocab size를 가지는 토크나이저 사용Llama2의 데이터셋의 7배 규모에 달하는 15조 토큰의 데이터에 대해 학습30개 이상의 언어에 대한 학습으로 다양한 언어적인 특성을 학습함Post-training 단계에서 Supervised fine-tuning, rejection sampling, Policy.. 더보기 [논문리뷰] SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 논문 링크: https://arxiv.org/pdf/2312.15166.pdf SOLAR 10.7B NLP 분야는 언어 및 사람과의 상호작용에 대한 이해가 강화된 대규모 언어모델의 등장 이후 그 장세가 크게 변화하였다. 성능에 대한 scaling law에 따라 더 큰 모델을 학습해야 하는 부담이 생긴 것이다. 대규모 학습에 대해 언어 모델을 scaling 하기 위해 MoE(Mixture of Experts)와 같은 방법이 제안되기도 하였지만, 이러한 구조는 학습 및 추론 프레임워크에 있어 변경이 필요하기에 활용성에 제약이 생긴다. 효율적이면서 효과적으로 LLM을 scale up하면서 그 간결성(simplicity)을 유지하는 것은 중요한 연구 분야이다. SOLAR에서는 depth up-scaling(DU.. 더보기 LLM Evaluation | LLM 기반의 시스템을 어떻게 평가할 수 있을까 지난 포스팅에서 다루었던 것처럼 LLM의 문맥 이해 및 자연어 생성 능력 능력이 향상되었고, fine-tuning API, Plug-in 지원 등이 이루어지면서 다양한 애플리케이션 개발이 가능해졌다. 개인의 창의성과 공부를 위해 LLM을 활용하는 것이라면 정량적인 성능 평가까지는 불필요할 수 있지만, LLM을 활용하여 서비스 가능한 시스템을 운영하기 위해서는 생성형 AI 시스템의 성능을 평가하는 것이 필수적이다. 하지만 생성형 모델을 기반으로 한 시스템에 대한 성능 평가는 기존 NLU 태스크처럼 단순하지 않다. 문장의 카테고리를 분류하거나 유사도를 수치화하는 등 정답 라벨의 정의가 과제와 달리, 생성형 AI 기반의 시스템은 ① 유저의 피드백 혹은 "정답"에 대한 데이터는 매우 제한적으로 발생하거나 심지어.. 더보기 OpenAI GPT store 공개 - 내가 가진 아이디어로 노코딩 챗봇 개발 & 수익화하기 지난 11월 GPTs 기능이 공개된 후 300만 이상의 커스텀 ChatGPT가 생성되었다고 한다. 이미 많은 빌더들이 자신이 만든 GPTs를 다른 사람들도 쓸 수 있도록 공유하기도 했다. 이에 OpenAI는 1월 10일, ChatGPT Plus, Team, Enterprise 고객을 대상으로 GPT store을 론칭하였다. 현재 DALLE 활용하기, 글쓰기, 연구, 프로그래밍, 교육 등 다양한 분야에서 인기를 끌고 있는 GPTs를 GPT store의 커뮤니티 리더보드를 통해 확인할 수 있다. 예를 들어 아래와 같은 GPTs 어플리케이션이 트렌딩 하고 있다: AllTrails : 맞춤형 트레일 추천 Consensus : 2억 개의 학술 논문에서 결과를 검색하고 결과를 종합 Code Tutor : 코딩 기술.. 더보기 LLM fine-tuning 전략 | PEFT - Parameter Efficient Fine Tuning Table of Contents ● Parameter Efficient Fine-tuning이란? ● 대표적인 PEFT 방법론 6가지 ● LLM에 적용 가능한 PEFT 방법론 3가지 Parameter Efficient Fine-tuning(PEFT)이란? 딥러닝 모델의 크기가 증가함에 따라, 기존과 같이 태스크에 따른 모델 튜닝에 있어 기존과 같이 모든 파라미터를 미세조정하는 full-fine-tuning 방식은 자원 측면에서 점점 불가능해지고 있다. 이에 파라미터 효율적으로 fine-tuning 하는 PEFT 방법이 활발하게 연구되고 있다. PEFT는 다운스트림 작업의 성능을 유지하거나 심지어 향상시키면서 학습에 필요한 계산량, 혹은 모델의 크기를 줄이는 것을 목표로 한다. PEFT는 아래와 같은 장점.. 더보기 이전 1 2 다음