LLM/LLM Customization 6

LLM Post-training | CSP LLM Post-training 서비스 (AWS Bedrock, Microsoft Azure, Google Vertex AI)

언제 fine-tuning해야 하는가?Fine-tuning은 더 높은 정확성으로 특정 태스크를 수행하도록 모델을 조정할 때 사용할 수 있는 기법이다. Fine-tuning을 통해 특정 태스크에서 모델 응답 품질을 개선하거나 모델 안정성을 향상, 더 짧은 프롬프트로 태스크를 수행할 수 있도록 함으로써 추론 시간을 단축하고 비용을 절감할 수 있다. 🔍 프롬프트 엔지니어링 vs 모델 파인튜닝 ✔ 프롬프트 엔지니어링AI 모델이 원하는 출력을 추출하도록 효과적인 지침(instruction) 을 작성하는 기술수행하고자 하는 태스크에 대한 묘사, 원하는 출력 형식, 맥락 등을 전달하는 프롬프트 설계를 포함함아래와 같은 경우에 적합:신속한 프로토타이핑: 유즈케이스를 빠르게 테스트하거나 베이스라인 성능을 얻을 때레..

Model Compression Recipe - Generalized Knowledge Distillation (GKD)

Generalized Knowledge Distillation 개요LLM은 대규모 파라미터를 활용하여 다양한 태스크에서의 가능성을 입증해왔으나, 이러한 규모로 인해 추론 비용 등 모델의 배포 관점에서 장벽이 있다. Knowledge Distillation(KD, 지식 증류)는 비교적 작은 학생(student) 모델을 학습하여 추론 비용과 메모리 사용량을 줄이기 위해 교사 모델을 압축하는 기법이다. Auto-regressive 모델에 대한 지식 증류는 ▲ teacher 모델이 생성한 고정된 아웃풋 시퀀스를 활용하거나 (Kim & Rush, 2016) ▲토큰 단위의 확률 분포를 지정함으로써 teacher 모델이 라벨을 지정할 수 있는 방법(Sanh et al., 2019)을 활용하여 이루어졌다. 그러나 이러..

Model Compression Recipe - Knowledge Distillation (KD)

Knowledge Distillation 개요지식 증류 (Knowledge Distillation, KD)는 파라미터 규모가 큰 LLM teacher model의 지식을 소규모 student model에게 전달하여 모델 효율성을 높이면서도 성능을 유지할 수 있도록 하는 Post training 기법이다. KD는 전통적인 hard label보다 더 풍부한 teacher 모델의 출력 분포를 활용한다. 이를 통해 학생 모델은 단순히 클래스 예측뿐 아니라, 클래스 간의 관계나 teacher representation에 내재된 미묘한 패턴까지 복제할 수 있다. 이 과정은 일반적으로 지도 학습 목표함수와 증류 목표함수를 균형 있게 조정하는 복합 손실 함수를 최적화하는 방식으로 이루어진다. 이로써 계산 및 메모리 요..

Alignment Tuning Recipe - Direct Preference Optimization (DPO)

DPO 학습 개요Alignment tuning은 모델의 출력이 인간의 기대와 선호에 부합하도록 유도하는 과정이다.이중 DPO는 이러한 강화학습 과정에서 보상 최적화 과정을 단순화하여 이러한 문제를 인간 선호 데이터에 기반한 single-stage policy training 문제로 취급하여 모델을 학습한다. DPO 프레임워크는 두 가지 핵심 모델인 reference policy( π_ref )과 target policy ( π_tar )을 기반으로 구축된다. 여기서 reference는 일반적으로 사전 학습 및 감독 학습 기반 미세 조정이 완료된 언어 모델로, 학습 동안 고정된 상태로 유지된다. 반면, target policy는 eference policy 로부터 초기화되며, 선호도 기반 피드백을 통해 ..

LLM 성능 향상을 위한 Post-training 방법론 개요

언어 모델의 학습 과정 개요​언어 모델의 학습 과정은 크게 세 단계로 나눌 수 있다:① 사전학습 (Pretraining)대규모의 일반 텍스트 데이터를 사용하여 언어 모델이 언어의 구조와 패턴을 이해하도록 훈련하는 과정. 이 단계에서는 모델이 문맥을 이해하고 다음 단어를 예측하는 능력을 갖추게 됨 ② 연속 사전학습 (Continual Pretraining, CPT) 이미 사전학습된 모델을 새로운 도메인이나 언어, 데이터에 적응시키기 위해 추가로 학습시키는 과정 의료, 법률, 특허 등 새로운 분야의 데이터를 추가로 학습하여 해당 도메인의 질문에 더 정확하게 응답하게 하는 사례가 있음 ③ 후속 학습 (Post-training)사전학습된 모델의 한계를 해결하기 위해 추가적으로 모델을 학습하는 과정 언어 모델..

ChatGPT Fine-tuning 예시 | 언제, 어떻게 해야 하는가

지난 8월, OpenAI는 ChatGPT Fine-tuning API를 공개하였습니다. 뿐만 아니라 11월 OpenAI Dev Day 행사에서는 GPT-4에 대한 fine-tuning에 대한 실험적인 결과를 오픈하였습니다. 본 포스트에서는 Chat-GPT fine-tuning API 기능을 알아보고 fine-tuning을 통한 모델 개선 실습을 수행해 봅니다. Before >>> After >>> LLM 사용 전략의 기본, Prompt Engineering GPT(Generative Pre-trained Model)은 방대한 양의 문서에 대해 학습되었다. 뿐만 아니라 Instruction tuning 과정을 통해 입력의 지시사항을 따르도록 학습된 ChatGPT, Claude 등의 모델은 프롬프트를 통해 ..