post-training 3

Model Compression Recipe - Knowledge Distillation (KD)

Knowledge Distillation 개요지식 증류 (Knowledge Distillation, KD)는 파라미터 규모가 큰 LLM teacher model의 지식을 소규모 student model에게 전달하여 모델 효율성을 높이면서도 성능을 유지할 수 있도록 하는 Post training 기법이다. KD는 전통적인 hard label보다 더 풍부한 teacher 모델의 출력 분포를 활용한다. 이를 통해 학생 모델은 단순히 클래스 예측뿐 아니라, 클래스 간의 관계나 teacher representation에 내재된 미묘한 패턴까지 복제할 수 있다. 이 과정은 일반적으로 지도 학습 목표함수와 증류 목표함수를 균형 있게 조정하는 복합 손실 함수를 최적화하는 방식으로 이루어진다. 이로써 계산 및 메모리 요..

Alignment Tuning Recipe - Direct Preference Optimization (DPO)

DPO 학습 개요Alignment tuning은 모델의 출력이 인간의 기대와 선호에 부합하도록 유도하는 과정이다.이중 DPO는 이러한 강화학습 과정에서 보상 최적화 과정을 단순화하여 이러한 문제를 인간 선호 데이터에 기반한 single-stage policy training 문제로 취급하여 모델을 학습한다. DPO 프레임워크는 두 가지 핵심 모델인 reference policy( π_ref )과 target policy ( π_tar )을 기반으로 구축된다. 여기서 reference는 일반적으로 사전 학습 및 감독 학습 기반 미세 조정이 완료된 언어 모델로, 학습 동안 고정된 상태로 유지된다. 반면, target policy는 eference policy 로부터 초기화되며, 선호도 기반 피드백을 통해 ..

LLM 성능 향상을 위한 Post-training 방법론 개요

언어 모델의 학습 과정 개요​언어 모델의 학습 과정은 크게 세 단계로 나눌 수 있다:① 사전학습 (Pretraining)대규모의 일반 텍스트 데이터를 사용하여 언어 모델이 언어의 구조와 패턴을 이해하도록 훈련하는 과정. 이 단계에서는 모델이 문맥을 이해하고 다음 단어를 예측하는 능력을 갖추게 됨 ② 연속 사전학습 (Continual Pretraining, CPT) 이미 사전학습된 모델을 새로운 도메인이나 언어, 데이터에 적응시키기 위해 추가로 학습시키는 과정 의료, 법률, 특허 등 새로운 분야의 데이터를 추가로 학습하여 해당 도메인의 질문에 더 정확하게 응답하게 하는 사례가 있음 ③ 후속 학습 (Post-training)사전학습된 모델의 한계를 해결하기 위해 추가적으로 모델을 학습하는 과정 언어 모델..