언어 모델의 학습 과정 개요
언어 모델의 학습 과정은 크게 세 단계로 나눌 수 있다:
① 사전학습 (Pretraining)
- 대규모의 일반 텍스트 데이터를 사용하여 언어 모델이 언어의 구조와 패턴을 이해하도록 훈련하는 과정.
- 이 단계에서는 모델이 문맥을 이해하고 다음 단어를 예측하는 능력을 갖추게 됨
② 연속 사전학습 (Continual Pretraining, CPT)
- 이미 사전학습된 모델을 새로운 도메인이나 언어, 데이터에 적응시키기 위해 추가로 학습시키는 과정
- 의료, 법률, 특허 등 새로운 분야의 데이터를 추가로 학습하여 해당 도메인의 질문에 더 정확하게 응답하게 하는 사례가 있음
③ 후속 학습 (Post-training)
- 사전학습된 모델의 한계를 해결하기 위해 추가적으로 모델을 학습하는 과정
언어 모델 Post-training 개요
✔ Post-training의 필요성
사전학습된 LLM은 광범위한 일반 텍스트 데이터를 기반으로 언어의 구조와 패턴을 학습하지만, 한계가 존재한다.
▷ 제한된 추론 능력: 복잡한 문제 해결이나 다단계 추론에서의 성능 저하
▷ 윤리적 불확실성: 편향된 응답이나 부적절한 콘텐츠 생성 가능성
▷ 도메인 특화 성능 부족: 특정 분야(예: 의료, 법률)에서의 정확도 저하
Post-training을 통해 이러한 기존 모델의 한계를 극복하고, 모델의 성능을 개선하여 더 나은 모델을 만들 수 있다.
최근에는 Post-training을 통해 개발된 대규모 추론 모델(Large Reasoning Models, LRMs)이 주목받고 있는데, OpenAI의 o1/o3 모델과 DeepSeek의 R1 모델 등은 이들은 복잡한 수학 문제 해결, 코딩, 논리적 추론 등에서 뛰어난 성능을 보이고 있다.
✔ Post-training 주요 패러다임
Post-training은 아래의 다섯 가지 핵심 패러다임을 중심으로 발전해왔다.
- Fine-tuning: 특정 작업에 대한 정확도 향상을 위해 모델을 추가로 학습시키는 과정
- Alignment: 모델의 출력을 인간의 가치와 윤리 기준에 맞추는 과정으로, RLHF 등이 활용됨
- Reasoning: 다단계 추론 및 복잡한 문제 해결 능력을 향상시키기 위한 기법들을 적용
- Efficiency: 모델의 계산 자원 사용을 최적화하여 성능을 유지하면서도 비용을 절감하는 방법들이 연구되고 있음.
- Integration and Adaptation: 다양한 모달리티(예: 텍스트, 이미지)와의 통합 및 새로운 도메인에의 적응력을 향상시키는 기법들이 개발되고 있음
Post-training 주요 패러다임별 학습 방법론
✔ Fine-tuning
사전학습된 대형 언어 모델(LLM)을 특정 태스크에 적응시키는 핵심적인 과정으로, 목표 지향적인 파라미터 조정을 통해 모델의 능력을 세밀하게 향상시킨다. Fine-tuning에서는 주석이 달린 데이터셋(labeled datasets)이나 작업 특화 데이터셋(task-specific datasets)을 활용하여 성능을 최적화하며, 범용(pre-training)으로 학습된 모델과 특정 도메인 요구사항(domain-specific requirements) 간의 간극을 메우는 역할을 한다.
Method | 개요 |
Supervised Fine-tuning (SFT) |
|
Adaptive Fine-Tuning |
|
Reinforcement Fine-Tuning (ReFT) |
|
✔ Alignment
모델의 출력이 인간의 기대와 선호에 부합하도록 유도하는 과정으로, 특히 안전이 중요한 분야나 사용자와 직접 상호작용하는 응용 프로그램에서 이러한 alignment는 매우 중요하다.
Method | 개요 |
Reinforcement Learning with Human Feedback (RLHF) |
|
Reinforcement Learning with AI Feedback (RLAIF) |
|
Direct Preference Optimization (DPO) |
|
✔ Reasoning을 위한 Post-training
추론(Reasoning)은 대형 언어 모델(LLM)이 다단계 논리, 복잡한 추론, 그리고 복합적인 의사결정이 필요한 작업을 해결할 수 있도록 하는 핵심 능력으로, 추론 능력을 향상하여 장기적인 관점의 의사결정, 논리 증면, 수리 추론 등 도전적인 과제에 대해서도 LLM 능력을 향상시키기 위한 방법이 제안되었다.
Method | 개요 |
Self-Refine for Reasoning |
|
Reinforcement Learning for Reasoning |
|
✔ Efficiency를 위한 Post-training
Post-training 최적화 기법을 기반으로, post-training efficiency는 LLM의 초기 사전 학습 이후 운영 성능을 구체적으로 향상시키는 것을 목표로 한다. 주요 목적은 처리 속도, 메모리 사용량, 자원 소비량과 같은 핵심적인 배포(deployment) 관련 지표를 최적화하여, LLM을 현실 세계의 응용 환경에서 보다 실용적으로 만드는 것이다.
Method | 개요 |
Model Compression |
|
Parameter Efficient Fine-tuning (PEFT) |
|
Knowledge Distillation (KD) |
|
✔ Integration과 Adaptation을 위한 Post-training
모델이 이질적인 데이터 유형들을 원활하게 처리하고, 특수한 도메인에 적응하며, 여러 아키텍처의 강점을 결합할 수 있도록 하여, 복잡하고 다면적인 문제들을 효과적으로 해결할 수 있게 하는 방법들이 있다.
Method | 개요 |
Multi-modal Integration |
|
Domain Adaptation(DA) |
|
Model Merging |
|
주요 CSP사 LLM Training & Evaluation 기능 (25.04, 수정중)
Category | Recipe | AWS Bedrock | Google Vertex AI | Azure AI |
Continual Pre-training | ✅ (link) | |||
Fine-tuning | SFT | ✅ (link) | ✅ (link) | ✅ (link) |
Alignment Tuning | ✅ (DPO) | |||
Efficiency | Distillation | ✅ (link) | ||
Evaluation | LLM-as-a-judge | ✅ (link) |
✅ (link) | ✅ (link) |
Program-base | ✅ (link) | ✅ (link) | ✅ (link) | |
Human Evaluation | ✅ (link) | ✅ (link) | ||
RAG Evaluation - 검색 | ✅ (link) | |||
RAG Evaluation - 전체 | ✅ (link) | |||
Agent 평가 | ✅ (link) | ✅ (link) | ✅ (link) | |
Safety 평가 | ✅ (link) | |||
Guardrail | Hallucination 감지 | ✅ (link) | ✅ (link) | |
입력 주제 제한 | ✅ (link) | ✅ (link) | ||
유해 콘텐츠 필터링 | ✅ (link) | ✅ (link) | ✅ (link) | |
PII 수정 및 개인정보 보호 | ✅ (link) | ✅ (link) |
참고 문서: A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS
'AI' 카테고리의 다른 글
Alignment Tuning Recipe - Direct Preference Optimization (DPO) (0) | 2025.04.30 |
---|---|
[논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning (0) | 2025.02.03 |
언어 모델을 화이트 해킹하자 | ② Human-in-the-Loop (0) | 2024.08.21 |
언어 모델을 화이트 해킹하자 | ① Red-Teaming Large Language Models (1) | 2024.07.16 |
Llama3 한국어 성능 테스트 | Colab에서 Meta-Llama-3 모델 사용해보기🦙 (0) | 2024.07.10 |