본문 바로가기

Ai

[논문리뷰] SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 논문 링크: https://arxiv.org/pdf/2312.15166.pdf SOLAR 10.7B NLP 분야는 언어 및 사람과의 상호작용에 대한 이해가 강화된 대규모 언어모델의 등장 이후 그 장세가 크게 변화하였다. 성능에 대한 scaling law에 따라 더 큰 모델을 학습해야 하는 부담이 생긴 것이다. 대규모 학습에 대해 언어 모델을 scaling 하기 위해 MoE(Mixture of Experts)와 같은 방법이 제안되기도 하였지만, 이러한 구조는 학습 및 추론 프레임워크에 있어 변경이 필요하기에 활용성에 제약이 생긴다. 효율적이면서 효과적으로 LLM을 scale up하면서 그 간결성(simplicity)을 유지하는 것은 중요한 연구 분야이다. SOLAR에서는 depth up-scaling(DU.. 더보기
[Huggingface] 모델 학습 시 GPU 메모리 사용 알아보기 원문 허깅페이스 - https://huggingface.co/docs/transformers/en/model_memory_anatomy 모델 학습 도중 GPU는 어떤 방식으로 활용되는가 모델 학습 속도와 메모리 활용의 효율성을 증대하기 위한 최적화 기법을 이해하기 위해, ①학습 도중 GPU가 어떤 식으로 활용되며 ②수행하는 작업에 따라 계산 강도가 어떻게 달라지는지 이해할 필요가 있다. Step-by-step 메모리 확인 가이드는 아래 huggingface 가이드에 있는 코드를 따라 해 보면 된다. https://huggingface.co/docs/transformers/en/model_memory_anatomy Pytorch를 통해 모델을 로드하고, 학습하는동안 GPU 사용률을 관찰해 보면 아래와 같이.. 더보기
LLM Evaluation | LLM 기반의 시스템을 어떻게 평가할 수 있을까 지난 포스팅에서 다루었던 것처럼 LLM의 문맥 이해 및 자연어 생성 능력 능력이 향상되었고, fine-tuning API, Plug-in 지원 등이 이루어지면서 다양한 애플리케이션 개발이 가능해졌다. 개인의 창의성과 공부를 위해 LLM을 활용하는 것이라면 정량적인 성능 평가까지는 불필요할 수 있지만, LLM을 활용하여 서비스 가능한 시스템을 운영하기 위해서는 생성형 AI 시스템의 성능을 평가하는 것이 필수적이다. 하지만 생성형 모델을 기반으로 한 시스템에 대한 성능 평가는 기존 NLU 태스크처럼 단순하지 않다. 문장의 카테고리를 분류하거나 유사도를 수치화하는 등 정답 라벨의 정의가 과제와 달리, 생성형 AI 기반의 시스템은 ① 유저의 피드백 혹은 "정답"에 대한 데이터는 매우 제한적으로 발생하거나 심지어.. 더보기
LLM fine-tuning 전략 | PEFT - Parameter Efficient Fine Tuning Table of Contents ● Parameter Efficient Fine-tuning이란? ● 대표적인 PEFT 방법론 6가지 ● LLM에 적용 가능한 PEFT 방법론 3가지 Parameter Efficient Fine-tuning(PEFT)이란? 딥러닝 모델의 크기가 증가함에 따라, 기존과 같이 태스크에 따른 모델 튜닝에 있어 기존과 같이 모든 파라미터를 미세조정하는 full-fine-tuning 방식은 자원 측면에서 점점 불가능해지고 있다. 이에 파라미터 효율적으로 fine-tuning 하는 PEFT 방법이 활발하게 연구되고 있다. PEFT는 다운스트림 작업의 성능을 유지하거나 심지어 향상시키면서 학습에 필요한 계산량, 혹은 모델의 크기를 줄이는 것을 목표로 한다. PEFT는 아래와 같은 장점.. 더보기
논란의 신모델 구글 '제미나이(Gemini)' - 새롭게 생각하는 인공지능의 시작일까 Gemini is built from the ground up for multimodality — reasoning seamlessly across text, images, video, audio, and code. Gemini는 텍스트, 이미지, 비디오, 오디오 및 코드를 자연스럽게 이해하는 multi-modality를 위해 만들어졌습니다 2023년 12월 6일, Google은 멀티모달 모델인 제미나이(Gemini)를 발표하며 범용 모델의 시대에 대한 포부를 밝혔다. 구글 딥마인드는 새로운 세대의 AI 모델에 대한 비전이 있었다. 소프트웨어처럼 똑똑한 것이 아니라 유용하고 직관적인 것처럼 느껴지는 AI, 전문가적인 도우미나 어시스턴트 같은 AI말이다. Gemini는 텍스트, 코드, 오디오, 이미지 및 .. 더보기
[OpenAI DevDay] GPT-4 Turbo, DALL-E 3, Assistants API, ... 놀라운 혁신 발표 https://openai.com/blog/new-models-and-developer-products-announced-at-devday 2023년 11월 6일, AI 연구자로서 설렘이자 두려움인 OpenAI Dev Day에서 새로운 기능과 모델들이 대거 발표되었습니다. 성능은 더 좋아지고, 가격은 낮아지고, 사용은 유연하고 편리해져 가는 OpenAI...! 갈수록 넘사벽이 되어가고 있네요 ㅎㅎㅎㅎ 핵심 feature 요약 >>> GPT-4 Turbo with 128K context - 입출력 길이가 128K로 증가, 가격은 낮아졌다. GPT-4 Turbo with Vision - Assistants API - 개발자가 모델 & 툴을 쉽게 호출할 수 있도록 보조 API 제공 Multimodal Capa.. 더보기
GPT-4 : OpenAI의 '가장 진보된 AI 시스템' 공개 지난 3월 14일, OpenAI가 모델의 scaling에 대한 최첨단 연구의 결과물인 GPT-4을 발표하였다. GPT-4은 이미지와 텍스트를 입력받아 해당 인풋을 바탕으로 텍스트를 출력해낼 수 있는 대규모 멀티모달 모델이다. 공개된 영상에 따르면 GPT-4의 학습은 지난 8월에 끝지만, 모델을 발표하기까지의 6개월간 모델을 더 안전하고, 유용하며, 인간의 가치에 상응하도록 하는 작업을 거쳤다고 한다. 이 과정을 통해 내부적으로 ▲모델의 오용(adversarial usage) ▲원하지 않는 내용(unwanted content) ▲개인정보 이슈(privacy concern) 등에 대한 내부 가이드라인을 세웠다고 한다. " GPT-4은 인류의 삶에 유용하고, 실용적인 보조자로서의 역할을 수행할 것으로 기대한다.. 더보기
챗GPT는 어떻게 학습되었을까 - Human Feedback Reinforcement Learning (RLHF) 주요 출처 및 참고자료: https://huggingface.co/blog/rlhf MOTIVATION 최근 발표된 언어 모델은 사람이 입력한 프롬프트로부터 다양하고 그럴듯한 텍스트를 생성하는 데에 있어 뛰어난 능력을 보였다. 하지만 텍스트를 정의하는 것은 본직적으로 어려운 일인데, 이 기준이 주관적이고 상황에 따라 다르기 때문이다. 예를 들어 이야기를 쓸 때에는 창의성이 필요하고, 정보성 문단은 사실적이어야 하며 코드 스니펫과 같은 것은 실행 가능해야 한다. 이렇게 복잡한 속성들을 담은 loss function을 설계하는 것은 거의 불가능하다. 따라서 대부분의 언어모델은 cross entropy를 사용해 다음 토큰을 예측하는 태스크를 통해 학습한다. 이 loss는 좋은 텍스트를 생성했는지 판단하기에 직.. 더보기