아기여우의 자기계발로그

  • AI
  • 개발
  • 독서
  • 코딩

2025/05/22 1

Model Compression Recipe - Generalized Knowledge Distillation (GKD)

Generalized Knowledge Distillation 개요LLM은 대규모 파라미터를 활용하여 다양한 태스크에서의 가능성을 입증해왔으나, 이러한 규모로 인해 추론 비용 등 모델의 배포 관점에서 장벽이 있다. Knowledge Distillation(KD, 지식 증류)는 비교적 작은 학생(student) 모델을 학습하여 추론 비용과 메모리 사용량을 줄이기 위해 교사 모델을 압축하는 기법이다. Auto-regressive 모델에 대한 지식 증류는 ▲ teacher 모델이 생성한 고정된 아웃풋 시퀀스를 활용하거나 (Kim & Rush, 2016) ▲토큰 단위의 확률 분포를 지정함으로써 teacher 모델이 라벨을 지정할 수 있는 방법(Sanh et al., 2019)을 활용하여 이루어졌다. 그러나 이러..

LLM/LLM Customization 2025.05.22
이전
1
다음
더보기
프로필사진

아기여우의 자기계발로그

독서, 재테크, 언어/ 시사 공부, 코딩 욕심 많은 직장인의 자기계발 일기장

  • 분류 전체보기 (120) N
    • AI (59)
      • Algorithm&Models (41)
      • Deep Learning Basic (3)
      • DL Frameworks (12)
      • Seminar & Conference (2)
      • Others (1)
    • LLM (24) N
      • Algorithm&Models (8)
      • LLM Customization (5) N
      • LLM Evaluation (6)
      • Proprietary LLM & Services (5)
    • Others (31)
      • Books (14)
      • Coding (9)
      • Language (8)

Tag

polm, 자연어생성, OpenAI, nlp, LLM, NLU, 자연어처리, 논문리뷰, Ai, post-training, 5분딥러닝, fine-tuning, 딥러닝, 독서, ChatGPT, 경량화, NLG, English, TensorFlow, 5분시사,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

  • 🌸 WELCOME 🌸

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바