본문 바로가기

LLM

[논문리뷰] SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 논문 링크: https://arxiv.org/pdf/2312.15166.pdf SOLAR 10.7B NLP 분야는 언어 및 사람과의 상호작용에 대한 이해가 강화된 대규모 언어모델의 등장 이후 그 장세가 크게 변화하였다. 성능에 대한 scaling law에 따라 더 큰 모델을 학습해야 하는 부담이 생긴 것이다. 대규모 학습에 대해 언어 모델을 scaling 하기 위해 MoE(Mixture of Experts)와 같은 방법이 제안되기도 하였지만, 이러한 구조는 학습 및 추론 프레임워크에 있어 변경이 필요하기에 활용성에 제약이 생긴다. 효율적이면서 효과적으로 LLM을 scale up하면서 그 간결성(simplicity)을 유지하는 것은 중요한 연구 분야이다. SOLAR에서는 depth up-scaling(DU.. 더보기
LLM Evaluation | LLM 기반의 시스템을 어떻게 평가할 수 있을까 지난 포스팅에서 다루었던 것처럼 LLM의 문맥 이해 및 자연어 생성 능력 능력이 향상되었고, fine-tuning API, Plug-in 지원 등이 이루어지면서 다양한 애플리케이션 개발이 가능해졌다. 개인의 창의성과 공부를 위해 LLM을 활용하는 것이라면 정량적인 성능 평가까지는 불필요할 수 있지만, LLM을 활용하여 서비스 가능한 시스템을 운영하기 위해서는 생성형 AI 시스템의 성능을 평가하는 것이 필수적이다. 하지만 생성형 모델을 기반으로 한 시스템에 대한 성능 평가는 기존 NLU 태스크처럼 단순하지 않다. 문장의 카테고리를 분류하거나 유사도를 수치화하는 등 정답 라벨의 정의가 과제와 달리, 생성형 AI 기반의 시스템은 ① 유저의 피드백 혹은 "정답"에 대한 데이터는 매우 제한적으로 발생하거나 심지어.. 더보기
OpenAI GPT store 공개 - 내가 가진 아이디어로 노코딩 챗봇 개발 & 수익화하기 지난 11월 GPTs 기능이 공개된 후 300만 이상의 커스텀 ChatGPT가 생성되었다고 한다. 이미 많은 빌더들이 자신이 만든 GPTs를 다른 사람들도 쓸 수 있도록 공유하기도 했다. 이에 OpenAI는 1월 10일, ChatGPT Plus, Team, Enterprise 고객을 대상으로 GPT store을 론칭하였다. 현재 DALLE 활용하기, 글쓰기, 연구, 프로그래밍, 교육 등 다양한 분야에서 인기를 끌고 있는 GPTs를 GPT store의 커뮤니티 리더보드를 통해 확인할 수 있다. 예를 들어 아래와 같은 GPTs 어플리케이션이 트렌딩 하고 있다: AllTrails : 맞춤형 트레일 추천 Consensus : 2억 개의 학술 논문에서 결과를 검색하고 결과를 종합 Code Tutor : 코딩 기술.. 더보기
LLM fine-tuning 전략 | PEFT - Parameter Efficient Fine Tuning Table of Contents ● Parameter Efficient Fine-tuning이란? ● 대표적인 PEFT 방법론 6가지 ● LLM에 적용 가능한 PEFT 방법론 3가지 Parameter Efficient Fine-tuning(PEFT)이란? 딥러닝 모델의 크기가 증가함에 따라, 기존과 같이 태스크에 따른 모델 튜닝에 있어 기존과 같이 모든 파라미터를 미세조정하는 full-fine-tuning 방식은 자원 측면에서 점점 불가능해지고 있다. 이에 파라미터 효율적으로 fine-tuning 하는 PEFT 방법이 활발하게 연구되고 있다. PEFT는 다운스트림 작업의 성능을 유지하거나 심지어 향상시키면서 학습에 필요한 계산량, 혹은 모델의 크기를 줄이는 것을 목표로 한다. PEFT는 아래와 같은 장점.. 더보기
논란의 신모델 구글 '제미나이(Gemini)' - 새롭게 생각하는 인공지능의 시작일까 Gemini is built from the ground up for multimodality — reasoning seamlessly across text, images, video, audio, and code. Gemini는 텍스트, 이미지, 비디오, 오디오 및 코드를 자연스럽게 이해하는 multi-modality를 위해 만들어졌습니다 2023년 12월 6일, Google은 멀티모달 모델인 제미나이(Gemini)를 발표하며 범용 모델의 시대에 대한 포부를 밝혔다. 구글 딥마인드는 새로운 세대의 AI 모델에 대한 비전이 있었다. 소프트웨어처럼 똑똑한 것이 아니라 유용하고 직관적인 것처럼 느껴지는 AI, 전문가적인 도우미나 어시스턴트 같은 AI말이다. Gemini는 텍스트, 코드, 오디오, 이미지 및 .. 더보기
ChatGPT Fine-tuning 예시 | 언제, 어떻게 해야 하는가 지난 8월, OpenAI는 ChatGPT Fine-tuning API를 공개하였습니다. 뿐만 아니라 11월 OpenAI Dev Day 행사에서는 GPT-4에 대한 fine-tuning에 대한 실험적인 결과를 오픈하였습니다. 본 포스트에서는 Chat-GPT fine-tuning API 기능을 알아보고 fine-tuning을 통한 모델 개선 실습을 수행해 봅니다. Before >>> After >>> LLM 사용 전략의 기본, Prompt Engineering GPT(Generative Pre-trained Model)은 방대한 양의 문서에 대해 학습되었다. 뿐만 아니라 Instruction tuning 과정을 통해 입력의 지시사항을 따르도록 학습된 ChatGPT, Claude 등의 모델은 프롬프트를 통해 .. 더보기
[OpenAI DevDay] GPT-4 Turbo, DALL-E 3, Assistants API, ... 놀라운 혁신 발표 https://openai.com/blog/new-models-and-developer-products-announced-at-devday 2023년 11월 6일, AI 연구자로서 설렘이자 두려움인 OpenAI Dev Day에서 새로운 기능과 모델들이 대거 발표되었습니다. 성능은 더 좋아지고, 가격은 낮아지고, 사용은 유연하고 편리해져 가는 OpenAI...! 갈수록 넘사벽이 되어가고 있네요 ㅎㅎㅎㅎ 핵심 feature 요약 >>> GPT-4 Turbo with 128K context - 입출력 길이가 128K로 증가, 가격은 낮아졌다. GPT-4 Turbo with Vision - Assistants API - 개발자가 모델 & 툴을 쉽게 호출할 수 있도록 보조 API 제공 Multimodal Capa.. 더보기
LangChain | WebResearchRetriever을 활용하여 RAG (Retrieval Augmented Generation) 구현하기 지난 포스트에서는 LangChain을 활용하여 5세 아이의 단어공부를 도와주는 간단한 어플리케이션 코드를 작성해 보았다. 2023.08.16 - [AI] - LangChain이란? | 파이썬으로 LangChain 시작하기 LangChain이란? | 파이썬으로 LangChain 시작하기 참고문서: https://python.langchain.com/docs/get_started/quickstart.html 실습파일: LangChain이란? LangChain은 언어모델, 특히 대규모 언어모델(LLM)을 활용하여 구동하는 애플리케이션을 개발하기 위한 프레임워크 littlefoxdiary.tistory.com 이처럼 자유롭거나 창의적인 Open-World 질문에 대해서는 대규모 언어모델이 다소 창의적이거나 좋은.. 더보기