'Ai' 태그의 글 목록

Model Compression Recipe - Generalized Knowledge Distillation (GKD)

Generalized Knowledge Distillation 개요LLM은 대규모 파라미터를 활용하여 다양한 태스크에서의 가능성을 입증해왔으나, 이러한 규모로 인해 추론 비용 등 모델의 배포 관점에서 장벽이 있다. Knowledge Distillation(KD, 지식 증류)는 비교적 작은 학생(student) 모델을 학습하여 추론 비용과 메모리 사용량을 줄이기 위해 교사 모델을 압축하는 기법이다. Auto-regressive 모델에 대한 지식 증류는 ▲ teacher 모델이 생성한 고정된 아웃풋 시퀀스를 활용하거나 (Kim & Rush, 2016) ▲토큰 단위의 확률 분포를 지정함으로써 teacher 모델이 라벨을 지정할 수 있는 방법(Sanh et al., 2019)을 활용하여 이루어졌다. 그러나 이러..

LLM/LLM Customization 2025.05.22

Model Compression Recipe - Knowledge Distillation (KD)

Knowledge Distillation 개요지식 증류 (Knowledge Distillation, KD)는 파라미터 규모가 큰 LLM teacher model의 지식을 소규모 student model에게 전달하여 모델 효율성을 높이면서도 성능을 유지할 수 있도록 하는 Post training 기법이다. KD는 전통적인 hard label보다 더 풍부한 teacher 모델의 출력 분포를 활용한다. 이를 통해 학생 모델은 단순히 클래스 예측뿐 아니라, 클래스 간의 관계나 teacher representation에 내재된 미묘한 패턴까지 복제할 수 있다. 이 과정은 일반적으로 지도 학습 목표함수와 증류 목표함수를 균형 있게 조정하는 복합 손실 함수를 최적화하는 방식으로 이루어진다. 이로써 계산 및 메모리 요..

LLM/LLM Customization 2025.05.07

Alignment Tuning Recipe - Direct Preference Optimization (DPO)

DPO 학습 개요Alignment tuning은 모델의 출력이 인간의 기대와 선호에 부합하도록 유도하는 과정이다.이중 DPO는 이러한 강화학습 과정에서 보상 최적화 과정을 단순화하여 이러한 문제를 인간 선호 데이터에 기반한 single-stage policy training 문제로 취급하여 모델을 학습한다. DPO 프레임워크는 두 가지 핵심 모델인 reference policy( π_ref )과 target policy ( π_tar )을 기반으로 구축된다. 여기서 reference는 일반적으로 사전 학습 및 감독 학습 기반 미세 조정이 완료된 언어 모델로, 학습 동안 고정된 상태로 유지된다. 반면, target policy는 eference policy 로부터 초기화되며, 선호도 기반 피드백을 통해 ..

LLM/LLM Customization 2025.04.30

LLM 성능 향상을 위한 Post-training 방법론 개요

언어 모델의 학습 과정 개요언어 모델의 학습 과정은 크게 세 단계로 나눌 수 있다:① 사전학습 (Pretraining)대규모의 일반 텍스트 데이터를 사용하여 언어 모델이 언어의 구조와 패턴을 이해하도록 훈련하는 과정. 이 단계에서는 모델이 문맥을 이해하고 다음 단어를 예측하는 능력을 갖추게 됨 ② 연속 사전학습 (Continual Pretraining, CPT) 이미 사전학습된 모델을 새로운 도메인이나 언어, 데이터에 적응시키기 위해 추가로 학습시키는 과정 의료, 법률, 특허 등 새로운 분야의 데이터를 추가로 학습하여 해당 도메인의 질문에 더 정확하게 응답하게 하는 사례가 있음 ③ 후속 학습 (Post-training)사전학습된 모델의 한계를 해결하기 위해 추가적으로 모델을 학습하는 과정 언어 모델..

LLM/LLM Customization 2025.04.29

[논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

** Technical Report: https://arxiv.org/pdf/2501.12948DeepSeek-R1✔ 모델이 생각하여 추론하는 방법을 스스로 학습하도록 하기 위한 강화학습과 가독성 증대 및 사람 선호와의 일치를 위한 Fine-tuning 단계를 반복함으로써 OpenAI O1 모델에 비견할만한 모델을 학습했으며, 해당 모델을 오픈소스로 공개 ✔ DeepSeek은 R1 모델을 약 560만 달러 (약 80억 원)의 비용으로 훈련시켰다고 알려져 있으나, 과소 측정 논란이 있음 ✔ 671B 규모의 MoE 아키텍처를 사용하여 계산 효율성을 높이고 리소스 소비를 줄임 ✘ 데이터 Source, 도메인, 강화학습 단계에서 사용한 데이터 규모 등 학습 데이터의 Curation 방법 미공개 ✘ 영어, 중국어..

LLM/Algorithm&Models 2025.02.03

언어 모델을 화이트 해킹하자 | ① Red-Teaming Large Language Models

⚠ 본 포스트는 언어 모델의 해로운 행동에 대한 내용으로, 모델이 생성한 공격적이거나 불쾌한 내용이 포함되어 있을 수 있습니다. 대량의 텍스트를 학습한 대규모 언어모델(LLM)은 능숙하게 현실적인 콘텐츠를 생성하고, 사람의 지시에 따른다.그러나 이러한 모델은 종종 개인정보를 유출하거나 잘못된 정보, 편견, 혐오 혹은 해로운 콘텐츠를 생성하는 등, 언어모델의 개발/운영자가 원하지 않는 행동을 하게 된다. 예를 들어 GPT-3 모델은 여성의 투표권에 대한 차별적인 텍스트를 생성하기도 했다. LLM이 원하지 않는 답변을 했다는 것을 발견하게 되면, 우리는 LLM이 그러한 행동을 하지 않도록, 전략을 취할 수 있다.작은 언어모델을 활용하여 LLM의 생성을 가이드하는 GeDi(Generative Discrim..

LLM/LLM Evaluation 2024.07.16

Llama3 한국어 성능 테스트 | Colab에서 Meta-Llama-3 모델 사용해보기🦙

GPT-4에 비견할만한 성능을 가진다는 Meta의 오픈소스 LLM Llama3를 사용해보자! Llama 3 모델 Llama 3 모델 특징8B & 70B 파라미터 규모의 모델으로, MMLU, HumanEval 등 벤치마크 태스크에서 경쟁모델보다 좋은 성능을 보임Decoder-only 트랜스포머 아키텍처를 기본으로 하되, Llama2 대비 큰 향상을 보임토큰 인코딩 효율을 늘리기 위해 128,000개의 vocab size를 가지는 토크나이저 사용Llama2의 데이터셋의 7배 규모에 달하는 15조 토큰의 데이터에 대해 학습30개 이상의 언어에 대한 학습으로 다양한 언어적인 특성을 학습함Post-training 단계에서 Supervised fine-tuning, rejection sampling, Policy..

AI/Algorithm&Models 2024.07.10

[논문리뷰] SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling

논문 링크: https://arxiv.org/pdf/2312.15166.pdf SOLAR 10.7B NLP 분야는 언어 및 사람과의 상호작용에 대한 이해가 강화된 대규모 언어모델의 등장 이후 그 장세가 크게 변화하였다. 성능에 대한 scaling law에 따라 더 큰 모델을 학습해야 하는 부담이 생긴 것이다. 대규모 학습에 대해 언어 모델을 scaling 하기 위해 MoE(Mixture of Experts)와 같은 방법이 제안되기도 하였지만, 이러한 구조는 학습 및 추론 프레임워크에 있어 변경이 필요하기에 활용성에 제약이 생긴다. 효율적이면서 효과적으로 LLM을 scale up하면서 그 간결성(simplicity)을 유지하는 것은 중요한 연구 분야이다. SOLAR에서는 depth up-scaling(DU..

LLM/Algorithm&Models 2024.03.17

[Huggingface] 모델 학습 시 GPU 메모리 사용 알아보기

원문 허깅페이스 - https://huggingface.co/docs/transformers/en/model_memory_anatomy 모델 학습 도중 GPU는 어떤 방식으로 활용되는가 모델 학습 속도와 메모리 활용의 효율성을 증대하기 위한 최적화 기법을 이해하기 위해, ①학습 도중 GPU가 어떤 식으로 활용되며 ②수행하는 작업에 따라 계산 강도가 어떻게 달라지는지 이해할 필요가 있다. Step-by-step 메모리 확인 가이드는 아래 huggingface 가이드에 있는 코드를 따라 해 보면 된다. https://huggingface.co/docs/transformers/en/model_memory_anatomy Pytorch를 통해 모델을 로드하고, 학습하는동안 GPU 사용률을 관찰해 보면 아래와 같이..

AI/DL Frameworks 2024.03.08

LLM Evaluation | LLM 기반의 시스템을 어떻게 평가할 수 있을까

지난 포스팅에서 다루었던 것처럼 LLM의 문맥 이해 및 자연어 생성 능력 능력이 향상되었고, fine-tuning API, Plug-in 지원 등이 이루어지면서 다양한 애플리케이션 개발이 가능해졌다. 개인의 창의성과 공부를 위해 LLM을 활용하는 것이라면 정량적인 성능 평가까지는 불필요할 수 있지만, LLM을 활용하여 서비스 가능한 시스템을 운영하기 위해서는 생성형 AI 시스템의 성능을 평가하는 것이 필수적이다. 하지만 생성형 모델을 기반으로 한 시스템에 대한 성능 평가는 기존 NLU 태스크처럼 단순하지 않다. 문장의 카테고리를 분류하거나 유사도를 수치화하는 등 정답 라벨의 정의가 과제와 달리, 생성형 AI 기반의 시스템은 ① 유저의 피드백 혹은 "정답"에 대한 데이터는 매우 제한적으로 발생하거나 심지어..

LLM/LLM Evaluation 2024.01.16

아기여우의 자기계발로그

Ai 67

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31