본문 바로가기

AI

LLM 성능 향상을 위한 Post-training 방법론 개요

언어 모델의 학습 과정 개요

​언어 모델의 학습 과정은 크게 세 단계로 나눌 수 있다:

① 사전학습 (Pretraining)

  • 대규모의 일반 텍스트 데이터를 사용하여 언어 모델이 언어의 구조와 패턴을 이해하도록 훈련하는 과정. 
  • 이 단계에서는 모델이 문맥을 이해하고 다음 단어를 예측하는 능력을 갖추게 됨

 

② 연속 사전학습 (Continual Pretraining, CPT)

  • 이미 사전학습된 모델을 새로운 도메인이나 언어, 데이터에 적응시키기 위해 추가로 학습시키는 과정
  • 의료, 법률, 특허 등 새로운 분야의 데이터를 추가로 학습하여 해당 도메인의 질문에 더 정확하게 응답하게 하는 사례가 있음

 

③ 후속 학습 (Post-training)

  • 사전학습된 모델의 한계를 해결하기 위해 추가적으로 모델을 학습하는 과정

 

 


언어 모델 Post-training 개요

Post-training의 필요성

사전학습된 LLM은 광범위한 일반 텍스트 데이터를 기반으로 언어의 구조와 패턴을 학습하지만, 한계가 존재한다.​

  ▷ 제한된 추론 능력: 복잡한 문제 해결이나 다단계 추론에서의 성능 저하

  윤리적 불확실성: 편향된 응답이나 부적절한 콘텐츠 생성 가능성

  도메인 특화 성능 부족: 특정 분야(예: 의료, 법률)에서의 정확도 저하​

 

Post-training을 통해 이러한 기존 모델의 한계를 극복하고, 모델의 성능을 개선하여 더 나은 모델을 만들 수 있다.

최근에는 Post-training을 통해 개발된 대규모 추론 모델(Large Reasoning Models, LRMs)이 주목받고 있는데, OpenAI의 o1/o3 모델과 DeepSeek의 R1 모델 등은 이들은 복잡한 수학 문제 해결, 코딩, 논리적 추론 등에서 뛰어난 성능을 보이고 있다.

 

Post-training 주요 패러다임

Post-training은 아래의 다섯 가지 핵심 패러다임을 중심으로 발전해왔다.​

  1. Fine-tuning: 특정 작업에 대한 정확도 향상을 위해 모델을 추가로 학습시키는 과정
  2. Alignment: 모델의 출력을 인간의 가치와 윤리 기준에 맞추는 과정으로, RLHF 등이 활용됨
  3. Reasoning:  다단계 추론 및 복잡한 문제 해결 능력을 향상시키기 위한 기법들을 적용
  4. Efficiency: 모델의 계산 자원 사용을 최적화하여 성능을 유지하면서도 비용을 절감하는 방법들이 연구되고 있음.
  5. Integration and Adaptation: 다양한 모달리티(예: 텍스트, 이미지)와의 통합 및 새로운 도메인에의 적응력을 향상시키는 기법들이 개발되고 있음

<LLM post-training 기술 발전의 역사, 출처: https://arxiv.org/pdf/2503.06072>

 


Post-training 주요 패러다임별 학습 방법론

✔ Fine-tuning

사전학습된 대형 언어 모델(LLM)을 특정 태스크에 적응시키는 핵심적인 과정으로, 목표 지향적인 파라미터 조정을 통해 모델의 능력을 세밀하게 향상시킨다. Fine-tuning에서는 주석이 달린 데이터셋(labeled datasets)이나 작업 특화 데이터셋(task-specific datasets)을 활용하여 성능을 최적화하며, 범용(pre-training)으로 학습된 모델과 특정 도메인 요구사항(domain-specific requirements) 간의 간극을 메우는 역할을 한다.

 

Method 개요
Supervised Fine-tuning
(SFT)
  • 사전학습된 (LLM)을 특정 작업에 맞게 조정하는 방법
  • 태스크별로 라벨링된 데이터셋(task-specific labeled datasets)을 활용
  • 지시형 프롬프트(directive prompts)에 의존하는 Instruction Tuning과는 달리, SFT는 주석 데이터(annotated data)를 사용해 직접 모델 파라미터를 조정함
  • 이를 통해 모델은 보다 정밀하고 문맥에 잘 맞는 출력을 생성하면서도, 넓은 범위의 일반화 능력을 유지할 수 있음
  • SFT는 사전학습을 통해 획득한 방대한 언어 지식과, 특정 응용 작업에서 요구되는 미세한 요구사항 간의 간극을 효과적으로 연결
  • 사전학습된 LLM은 대규모 코퍼스를 통해 일반적인 언어 패턴을 학습했기 때문에, SFT 과정에서는 광범위한 도메인 특화 데이터(domain-specific data)에 대한 의존도를 줄일 수 있음
Adaptive Fine-Tuning
  • 사전학습된 모델의 동작을 수정하여 사용자별 요구를 더 잘 충족시키고, 더 다양한 작업을 처리할 수 있도록 하는 방법
  • 모델의 출력 생성을 안내하기 위해 추가적인 신호(cues)를 도입함으로써, 모델의 응답을 유연하게 맞춤 설정할 수 있는 프레임워크를 제공
  • Instruction tuning, Prompt-based tuning 등의 방법이 여기에 포함됨
  • 이 단계에서는 작업별 지침(task-specific guidance)을 추가하여 대형 언어 모델(LLMs)의 적응성과 활용 범위를 크게 향상함
Reinforcement Fine-Tuning
(ReFT)
  • 강화학습(RL)과 지도학습 기반 파인튜닝(SFT)을 결합하여, 모델이 복잡하고 동적인 문제를 해결하는 능력을 강화하는 고급 기법
  • 전통적인 SFT가 하나의 문제에 대해 보통 하나의 CoT(Chain-of-Thought) annotation만 사용하는 것과 달리, ReFT는 모델이 다양한 유효한 추론 경로를 탐색할 수 있도록 하여, 일반화 능력과 문제 해결 능력을 크게 향상시킴
  • ReFT에서는 먼저 표준 SFT 단계로 시작하여 모델이 주석이 달린 데이터(labeled data)를 통해 기본적인 작업 해결 능력을 학습한 후 강화학습 알고리즘(예:<Proximal Policy Optimization, PPO)을 사용하여 추가적으로 모델을 수정함.
  • 강화 단계에서는 모델이 각 문제에 대해 여러 개의 CoT 주석을 생성하여 다양한 추론 경로를 탐색하고, 생성된 추론 경로는 모델이 예측한 답과 실제 정답을 비교하여 평가되며, 정답에 대해 보상(reward)이 주어지고, 오답에 대해 벌점(penalty)이 부여됨
  • 이러한 반복적 프로세스를 통해 모델은 자신의 정책(policy)을 조정하고, 결국 더욱 효과적인 추론 전략을 학습하게 됨

 

 

Alignment

모델의 출력이 인간의 기대와 선호에 부합하도록 유도하는 과정으로, 특히 안전이 중요한 분야나 사용자와 직접 상호작용하는 응용 프로그램에서 이러한 alignment는 매우 중요하다.

 

Method 개요
Reinforcement Learning with
Human Feedback
(RLHF)
  • SFT는 LLM이 인간의 지시를 따르도록 유도하는 기본적인 기법이나, 순수 지도학습 시나리오에서는 annotated data의 다양성과 품질이 고르지 않을 수 있고, SFT 모델은 인간의 미묘하거나 변화하는 선호를 포착하는 능력에 한계가 있음
  • 이러한 한계를 해결하기 위해 강화학습 기반의 학습 기법들이 제안되었으며, RLHF는 최초로 제안되었음에도 영향력 있는 post-training 접근방법 중 하나로 꼽힘
  • 상세 기술 내용:
    -
    챗GPT는 어떻게 학습되었을까 - Human Feedback Reinforcement Learning (RLHF)
Reinforcement Learning with
AI Feedback
(RLAIF)
  • 사람 대신 LLM이 피드백 signal을 생성하도록 하는 방법론
  • RLHF 대비 더 scalable하고, 비용 효율적
Direct Preference Optimization
(DPO)
  • RLHF는 효과적인 방법이지만, reward model을 구축하고 이를 사용해 LLM을 fine-tuning하는 과정에서 복잡성과 불안정성에 취약할 수 있음
  • DPO는 보다 안정적이고 계산 효율적인 대안으로 제안된 방법으로, 보상 최적화 과정을 단순화하여, 보상 함수와 최적 정책(optimal policy)을 직접 연결
  • 즉, 인간 선호 데이터에 기반하여 보상 최대화 문제를 단일 단계의 정책 학습 문제로 처리함으로써, 보상 모델을 따로 구축하는 복잡성과 Bradley-Terry 모델 같은 통계 모델에 대한 의존성을 피함
  • 상세 기술 내용:
    -
    Alignment Tuning Recipe - Direct Preference Optimization (DPO)

 

 

Reasoning을 위한 Post-training

추론(Reasoning)은 대형 언어 모델(LLM)이 다단계 논리, 복잡한 추론, 그리고 복합적인 의사결정이 필요한 작업을 해결할 수 있도록 하는 핵심 능력으로, 추론 능력을 향상하여 장기적인 관점의 의사결정, 논리 증면, 수리 추론 등 도전적인 과제에 대해서도 LLM 능력을 향상시키기 위한 방법이 제안되었다. 

 

Method 개요
Self-Refine for Reasoning
  • Self-Refine은 텍스트 생성 중 또는 생성 이후에 오류를 반복적으로 찾아내고 수정하는 강력한 메커니즘으로 등장했으며, 이를 통해 모델의 추론 깊이와 전반적인 신뢰성을 크게 향상시킬 수 있음
  • Intrinsic Self-Refine, External Self-Refine, Fine-Tuned Intrinsic Self-Refine, Fine-Tuned External Self-Refine  접근법이 있음
Reinforcement Learning
for Reasoning
  • Self-refine 방식은 텍스트 생성이나 질문답변 등 single-step 태스크에서는 추론 시 성능 향상 효과를 볼 수 있지만, 복잡하고 장기적인 관점의 multi-step logit을 요구하는 추론태스크에서는 효과가 떨어짐
  • 이에 OpenAI에서는 o1 시리즈를 발표하며, 이러한 문제에 대한 강력한 대안으로 RL을 제안함: 보상 기반 피드백(reward-based feedback)을 통해 긴 CoT(Chain-of-Thought)를 다듬어 LLM을 고급 추론 능력에 맞게 훈련

 

 

Efficiency를 위한 Post-training

Post-training 최적화 기법을 기반으로, post-training efficiency는 LLM의 초기 사전 학습 이후 운영 성능을 구체적으로 향상시키는 것을 목표로 한다. 주요 목적은 처리 속도, 메모리 사용량, 자원 소비량과 같은 핵심적인 배포(deployment) 관련 지표를 최적화하여, LLM을 현실 세계의 응용 환경에서 보다 실용적으로 만드는 것이다.

 

Method 개요
Model Compression
  • 가지치기(pruning)나 양자화(quantization) 같은 기법을 활용하여 모델의 전체 연산량을 줄이는 방법 
  • post-training quantization, parameter pruning), low-rank approximation 등의 방법 포함
Parameter Efficient Fine-tuning
(PEFT)
  • LLM의 전체 backbone을 freeze한 채, 새롭게 추가된 소수의 parameter만 튜닝하는 방법
  • additive PEFT, selective PEFT, reparameterized PEFT, hybrid PEFT 방법이 있음
Knowledge Distillation
(KD)
  • 대규모 사전 학습된 교사(teacher) 모델의 지식을 작고 효율적인 학생(student) 모델로 이전하여, 성능 저하 없이 효율성을 향상시키는 것을 목표로 하는 학습 기법
  • 전통적인 hard label보다 훨씬 풍부한 teacher 모델의 세밀한 출력 분포를 활용하여 sturent 모델이 단순히 클래스 예측 결과만 복제하는 것이 아니라, 클래스 간 관계나 teacher 모델에 내재된 미묘한 패턴까지 학습할 수 있도록 하는 방법
  • Supervised learning objectives와 distillation 목적함수 모두를 반영한 복합 손실 함수를 최적화하는 방식으로 진행 

 

 

Integration과 Adaptation을 위한 Post-training

모델이 이질적인 데이터 유형들을 원활하게 처리하고, 특수한 도메인에 적응하며, 여러 아키텍처의 강점을 결합할 수 있도록 하여, 복잡하고 다면적인 문제들을 효과적으로 해결할 수 있게 하는 방법들이 있다.

 

Method 개요
Multi-modal Integration
  • Supervised learning 기반의 fine-tuning은 특정 태스크에 대한 LLM의 숙련도를 높이지만, 멀티모달 능력을 활용하는 데에 있어서 한계가 있기 때문에 정교한 post-training 방법들이 필요함 
  • 이러한 기법들은 LMM이 다양한 데이터 유형을 통합하여 이미지를 기반으로 웹페이지 코드를 생성하는 등의 cross-modal 태스크를 해결할 수 있도록 모델을 고도화
  • 일반적으로 LMM은 modal encoder, 사전 학습된 LLM backbone, 그리고 modal connector로 구성되고, 이러한 아키텍처는 각각의 구성 요소를 fine-tuning하는 post-training의 기반이 되어 강력한 multi-modal integration과 성능 향상이 가능하게 함
Domain Adaptation(DA)
  • Transfer learning 원리에 기반하여 초기 모델을 타겟 도메인 특화 모델로 적응시키는 방법
  • 프로그래밍이나 수학적 추론과 같은 분야에서 LLM의 전문성을 강화함으로써, 도메인 특화 능력을 높이는 동시에 연산 효율성도 향상시키거나, 범용 모델이 도메인 특유의 용어와 추론 체계를 다루는 데 어려움을 겪는 한계를 보완
Model Merging
  • LLM의 학습 및 추론 단계 모두에서 성능과 효율성을 향상시키기 위한 중요한 post-training 기법
  • 특화된 모델들을 하나의 통합된 아키텍처로 결합하여, 대규모 모델 크기와 높은 연산 요구로 인한 문제를 해결하고 광범위한 재학습의 필요성을 피함
  • 모델 병합은 단일 작업(single-task) 모델들을 하나의 다중 작업(multi-task) 모델로 통합하여, 자원 효율적인 멀티태스크 학습 패러다임을 제공

 

 

주요 CSP사 LLM Training & Evaluation 기능 (25.04, 수정중)

Category Recipe AWS Bedrock Google Vertex AI Azure AI 
Continual Pre-training ✅ (link)    
Fine-tuning SFT (link) (link) (link)
Alignment Tuning       (DPO)
Efficiency Distillation ✅ (link)    
Evaluation LLM-as-a-judge ✅ (link)
(link) (link)
  Program-base ✅ (link) (link) (link)
  Human Evaluation ✅ (link)   (link)
  RAG Evaluation - 검색 (link)    
  RAG Evaluation - 전체 ✅ (link)    
  Agent 평가 (link) ✅ (link) (link)
  Safety 평가     ✅ (link)
Guardrail Hallucination 감지 ✅ (link) (link)  
  입력 주제 제한 ✅ (link) (link)  
  유해 콘텐츠 필터링 (link) (link) (link)
  PII 수정 및 개인정보 보호 (link) (link)  

 


참고 문서: A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS