본문 바로가기

LLM

언어 모델을 화이트 해킹하자 | ② Human-in-the-Loop 지난 포스트에서 LLM의 원치 않는 행동을 방지하기 위한 Red-teaming의 개념에 대해 알아보았다.이번에는 레드팀에서 가장 중요한 방법 중 하나인, 사람이 개입한 Red-teaming에 대해 구체적으로 알아보자. Human Red-teaming레드팀에서 가장 중요한 부분 중 하나는 인간 평가자가 모델의 응답을 검토하고 편향, 잘못된 정보 또는 공격적인 내용의 예를 식별하는 것이다. 이러한 활동에는 적대적인 시나리오를 시뮬레이션하는 데에 숙련된 사람들 뿐만 아니라 언어학, AI 및 윤리 전문가가 참여한다. 이들의 목표는 LLM이 해롭거나 부적절한 출력을 생성하도록 할 수 있는 잠재적인 취약성과 편견을 밝혀내는 것이다. 일반적인 Red-teaming 절차는 다음과 같다: (1) 범위 정하기조사하려는 L.. 더보기
언어 모델을 화이트 해킹하자 | ① Red-Teaming Large Language Models ⚠ 본 포스트는 언어 모델의 해로운 행동에 대한 내용으로, 모델이 생성한 공격적이거나 불쾌한 내용이 포함되어 있을 수 있습니다.  대량의 텍스트를 학습한 대규모 언어모델(LLM)은 능숙하게 현실적인 콘텐츠를 생성하고, 사람의 지시에 따른다.그러나 이러한 모델은 종종 개인정보를 유출하거나 잘못된 정보, 편견, 혐오 혹은 해로운 콘텐츠를 생성하는 등, 언어모델의 개발/운영자가 원하지 않는 행동을 하게 된다. 예를 들어 GPT-3 모델은 여성의 투표권에 대한 차별적인 텍스트를 생성하기도 했다.  LLM이 원하지 않는 답변을 했다는 것을 발견하게 되면, 우리는 LLM이 그러한 행동을 하지 않도록, 전략을 취할 수 있다.작은 언어모델을 활용하여 LLM의 생성을 가이드하는 GeDi(Generative Discrim.. 더보기
Llama3 한국어 성능 테스트 | Colab에서 Meta-Llama-3 모델 사용해보기🦙 GPT-4에 비견할만한 성능을 가진다는 Meta의 오픈소스 LLM Llama3를 사용해보자! Llama 3 모델 Llama 3 모델 특징8B & 70B 파라미터 규모의 모델으로, MMLU, HumanEval  등 벤치마크 태스크에서 경쟁모델보다 좋은 성능을 보임Decoder-only 트랜스포머 아키텍처를 기본으로 하되, Llama2 대비 큰 향상을 보임토큰 인코딩 효율을 늘리기 위해 128,000개의 vocab size를 가지는 토크나이저 사용Llama2의 데이터셋의 7배 규모에 달하는 15조 토큰의 데이터에 대해 학습30개 이상의 언어에 대한 학습으로 다양한 언어적인 특성을 학습함Post-training 단계에서 Supervised fine-tuning, rejection sampling, Policy.. 더보기
[논문리뷰] SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 논문 링크: https://arxiv.org/pdf/2312.15166.pdf SOLAR 10.7B NLP 분야는 언어 및 사람과의 상호작용에 대한 이해가 강화된 대규모 언어모델의 등장 이후 그 장세가 크게 변화하였다. 성능에 대한 scaling law에 따라 더 큰 모델을 학습해야 하는 부담이 생긴 것이다. 대규모 학습에 대해 언어 모델을 scaling 하기 위해 MoE(Mixture of Experts)와 같은 방법이 제안되기도 하였지만, 이러한 구조는 학습 및 추론 프레임워크에 있어 변경이 필요하기에 활용성에 제약이 생긴다. 효율적이면서 효과적으로 LLM을 scale up하면서 그 간결성(simplicity)을 유지하는 것은 중요한 연구 분야이다. SOLAR에서는 depth up-scaling(DU.. 더보기
LLM Evaluation | LLM 기반의 시스템을 어떻게 평가할 수 있을까 지난 포스팅에서 다루었던 것처럼 LLM의 문맥 이해 및 자연어 생성 능력 능력이 향상되었고, fine-tuning API, Plug-in 지원 등이 이루어지면서 다양한 애플리케이션 개발이 가능해졌다. 개인의 창의성과 공부를 위해 LLM을 활용하는 것이라면 정량적인 성능 평가까지는 불필요할 수 있지만, LLM을 활용하여 서비스 가능한 시스템을 운영하기 위해서는 생성형 AI 시스템의 성능을 평가하는 것이 필수적이다. 하지만 생성형 모델을 기반으로 한 시스템에 대한 성능 평가는 기존 NLU 태스크처럼 단순하지 않다. 문장의 카테고리를 분류하거나 유사도를 수치화하는 등 정답 라벨의 정의가 과제와 달리, 생성형 AI 기반의 시스템은 ① 유저의 피드백 혹은 "정답"에 대한 데이터는 매우 제한적으로 발생하거나 심지어.. 더보기
OpenAI GPT store 공개 - 내가 가진 아이디어로 노코딩 챗봇 개발 & 수익화하기 지난 11월 GPTs 기능이 공개된 후 300만 이상의 커스텀 ChatGPT가 생성되었다고 한다. 이미 많은 빌더들이 자신이 만든 GPTs를 다른 사람들도 쓸 수 있도록 공유하기도 했다. 이에 OpenAI는 1월 10일, ChatGPT Plus, Team, Enterprise 고객을 대상으로 GPT store을 론칭하였다. 현재 DALLE 활용하기, 글쓰기, 연구, 프로그래밍, 교육 등 다양한 분야에서 인기를 끌고 있는 GPTs를 GPT store의 커뮤니티 리더보드를 통해 확인할 수 있다. 예를 들어 아래와 같은 GPTs 어플리케이션이 트렌딩 하고 있다: AllTrails : 맞춤형 트레일 추천 Consensus : 2억 개의 학술 논문에서 결과를 검색하고 결과를 종합 Code Tutor : 코딩 기술.. 더보기
LLM fine-tuning 전략 | PEFT - Parameter Efficient Fine Tuning Table of Contents ● Parameter Efficient Fine-tuning이란? ● 대표적인 PEFT 방법론 6가지 ● LLM에 적용 가능한 PEFT 방법론 3가지 Parameter Efficient Fine-tuning(PEFT)이란? 딥러닝 모델의 크기가 증가함에 따라, 기존과 같이 태스크에 따른 모델 튜닝에 있어 기존과 같이 모든 파라미터를 미세조정하는 full-fine-tuning 방식은 자원 측면에서 점점 불가능해지고 있다. 이에 파라미터 효율적으로 fine-tuning 하는 PEFT 방법이 활발하게 연구되고 있다. PEFT는 다운스트림 작업의 성능을 유지하거나 심지어 향상시키면서 학습에 필요한 계산량, 혹은 모델의 크기를 줄이는 것을 목표로 한다. PEFT는 아래와 같은 장점.. 더보기
논란의 신모델 구글 '제미나이(Gemini)' - 새롭게 생각하는 인공지능의 시작일까 Gemini is built from the ground up for multimodality — reasoning seamlessly across text, images, video, audio, and code. Gemini는 텍스트, 이미지, 비디오, 오디오 및 코드를 자연스럽게 이해하는 multi-modality를 위해 만들어졌습니다 2023년 12월 6일, Google은 멀티모달 모델인 제미나이(Gemini)를 발표하며 범용 모델의 시대에 대한 포부를 밝혔다. 구글 딥마인드는 새로운 세대의 AI 모델에 대한 비전이 있었다. 소프트웨어처럼 똑똑한 것이 아니라 유용하고 직관적인 것처럼 느껴지는 AI, 전문가적인 도우미나 어시스턴트 같은 AI말이다. Gemini는 텍스트, 코드, 오디오, 이미지 및 .. 더보기