본문 바로가기

Ai

언어 모델을 화이트 해킹하자 | ① Red-Teaming Large Language Models ⚠ 본 포스트는 언어 모델의 해로운 행동에 대한 내용으로, 모델이 생성한 공격적이거나 불쾌한 내용이 포함되어 있을 수 있습니다.  대량의 텍스트를 학습한 대규모 언어모델(LLM)은 능숙하게 현실적인 콘텐츠를 생성하고, 사람의 지시에 따른다.그러나 이러한 모델은 종종 개인정보를 유출하거나 잘못된 정보, 편견, 혐오 혹은 해로운 콘텐츠를 생성하는 등, 언어모델의 개발/운영자가 원하지 않는 행동을 하게 된다. 예를 들어 GPT-3 모델은 여성의 투표권에 대한 차별적인 텍스트를 생성하기도 했다.  LLM이 원하지 않는 답변을 했다는 것을 발견하게 되면, 우리는 LLM이 그러한 행동을 하지 않도록, 전략을 취할 수 있다.작은 언어모델을 활용하여 LLM의 생성을 가이드하는 GeDi(Generative Discrim.. 더보기
Llama3 한국어 성능 테스트 | Colab에서 Meta-Llama-3 모델 사용해보기🦙 GPT-4에 비견할만한 성능을 가진다는 Meta의 오픈소스 LLM Llama3를 사용해보자! Llama 3 모델 Llama 3 모델 특징8B & 70B 파라미터 규모의 모델으로, MMLU, HumanEval  등 벤치마크 태스크에서 경쟁모델보다 좋은 성능을 보임Decoder-only 트랜스포머 아키텍처를 기본으로 하되, Llama2 대비 큰 향상을 보임토큰 인코딩 효율을 늘리기 위해 128,000개의 vocab size를 가지는 토크나이저 사용Llama2의 데이터셋의 7배 규모에 달하는 15조 토큰의 데이터에 대해 학습30개 이상의 언어에 대한 학습으로 다양한 언어적인 특성을 학습함Post-training 단계에서 Supervised fine-tuning, rejection sampling, Policy.. 더보기
[논문리뷰] SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 논문 링크: https://arxiv.org/pdf/2312.15166.pdf SOLAR 10.7B NLP 분야는 언어 및 사람과의 상호작용에 대한 이해가 강화된 대규모 언어모델의 등장 이후 그 장세가 크게 변화하였다. 성능에 대한 scaling law에 따라 더 큰 모델을 학습해야 하는 부담이 생긴 것이다. 대규모 학습에 대해 언어 모델을 scaling 하기 위해 MoE(Mixture of Experts)와 같은 방법이 제안되기도 하였지만, 이러한 구조는 학습 및 추론 프레임워크에 있어 변경이 필요하기에 활용성에 제약이 생긴다. 효율적이면서 효과적으로 LLM을 scale up하면서 그 간결성(simplicity)을 유지하는 것은 중요한 연구 분야이다. SOLAR에서는 depth up-scaling(DU.. 더보기
[Huggingface] 모델 학습 시 GPU 메모리 사용 알아보기 원문 허깅페이스 - https://huggingface.co/docs/transformers/en/model_memory_anatomy 모델 학습 도중 GPU는 어떤 방식으로 활용되는가 모델 학습 속도와 메모리 활용의 효율성을 증대하기 위한 최적화 기법을 이해하기 위해, ①학습 도중 GPU가 어떤 식으로 활용되며 ②수행하는 작업에 따라 계산 강도가 어떻게 달라지는지 이해할 필요가 있다. Step-by-step 메모리 확인 가이드는 아래 huggingface 가이드에 있는 코드를 따라 해 보면 된다. https://huggingface.co/docs/transformers/en/model_memory_anatomy Pytorch를 통해 모델을 로드하고, 학습하는동안 GPU 사용률을 관찰해 보면 아래와 같이.. 더보기
LLM Evaluation | LLM 기반의 시스템을 어떻게 평가할 수 있을까 지난 포스팅에서 다루었던 것처럼 LLM의 문맥 이해 및 자연어 생성 능력 능력이 향상되었고, fine-tuning API, Plug-in 지원 등이 이루어지면서 다양한 애플리케이션 개발이 가능해졌다. 개인의 창의성과 공부를 위해 LLM을 활용하는 것이라면 정량적인 성능 평가까지는 불필요할 수 있지만, LLM을 활용하여 서비스 가능한 시스템을 운영하기 위해서는 생성형 AI 시스템의 성능을 평가하는 것이 필수적이다. 하지만 생성형 모델을 기반으로 한 시스템에 대한 성능 평가는 기존 NLU 태스크처럼 단순하지 않다. 문장의 카테고리를 분류하거나 유사도를 수치화하는 등 정답 라벨의 정의가 과제와 달리, 생성형 AI 기반의 시스템은 ① 유저의 피드백 혹은 "정답"에 대한 데이터는 매우 제한적으로 발생하거나 심지어.. 더보기
LLM fine-tuning 전략 | PEFT - Parameter Efficient Fine Tuning Table of Contents ● Parameter Efficient Fine-tuning이란? ● 대표적인 PEFT 방법론 6가지 ● LLM에 적용 가능한 PEFT 방법론 3가지 Parameter Efficient Fine-tuning(PEFT)이란? 딥러닝 모델의 크기가 증가함에 따라, 기존과 같이 태스크에 따른 모델 튜닝에 있어 기존과 같이 모든 파라미터를 미세조정하는 full-fine-tuning 방식은 자원 측면에서 점점 불가능해지고 있다. 이에 파라미터 효율적으로 fine-tuning 하는 PEFT 방법이 활발하게 연구되고 있다. PEFT는 다운스트림 작업의 성능을 유지하거나 심지어 향상시키면서 학습에 필요한 계산량, 혹은 모델의 크기를 줄이는 것을 목표로 한다. PEFT는 아래와 같은 장점.. 더보기
논란의 신모델 구글 '제미나이(Gemini)' - 새롭게 생각하는 인공지능의 시작일까 Gemini is built from the ground up for multimodality — reasoning seamlessly across text, images, video, audio, and code. Gemini는 텍스트, 이미지, 비디오, 오디오 및 코드를 자연스럽게 이해하는 multi-modality를 위해 만들어졌습니다 2023년 12월 6일, Google은 멀티모달 모델인 제미나이(Gemini)를 발표하며 범용 모델의 시대에 대한 포부를 밝혔다. 구글 딥마인드는 새로운 세대의 AI 모델에 대한 비전이 있었다. 소프트웨어처럼 똑똑한 것이 아니라 유용하고 직관적인 것처럼 느껴지는 AI, 전문가적인 도우미나 어시스턴트 같은 AI말이다. Gemini는 텍스트, 코드, 오디오, 이미지 및 .. 더보기
[OpenAI DevDay] GPT-4 Turbo, DALL-E 3, Assistants API, ... 놀라운 혁신 발표 https://openai.com/blog/new-models-and-developer-products-announced-at-devday 2023년 11월 6일, AI 연구자로서 설렘이자 두려움인 OpenAI Dev Day에서 새로운 기능과 모델들이 대거 발표되었습니다. 성능은 더 좋아지고, 가격은 낮아지고, 사용은 유연하고 편리해져 가는 OpenAI...! 갈수록 넘사벽이 되어가고 있네요 ㅎㅎㅎㅎ 핵심 feature 요약 >>> GPT-4 Turbo with 128K context - 입출력 길이가 128K로 증가, 가격은 낮아졌다. GPT-4 Turbo with Vision - Assistants API - 개발자가 모델 & 툴을 쉽게 호출할 수 있도록 보조 API 제공 Multimodal Capa.. 더보기