티스토리

아기여우의 자기계발로그
검색하기

블로그 홈

아기여우의 자기계발로그

littlefoxdiary.tistory.com/m

독서, 재테크, 언어/ 시사 공부, 코딩 욕심 많은 직장인의 자기계발 일기장

구독자
133
방명록 방문하기
공지 🌸 WELCOME 🌸 모두보기

주요 글 목록

  • Model Compression Recipe - Knowledge Distillation (KD) Knowledge Distillation 개요지식 증류 (Knowledge Distillation, KD)는 파라미터 규모가 큰 LLM teacher model의 지식을 소규모 student model에게 전달하여 모델 효율성을 높이면서도 성능을 유지할 수 있도록 하는 Post training 기법이다. KD는 전통적인 hard label보다 더 풍부한 teacher 모델의 출력 분포를 활용한다. 이를 통해 학생 모델은 단순히 클래스 예측뿐 아니라, 클래스 간의 관계나 teacher representation에 내재된 미묘한 패턴까지 복제할 수 있다. 이 과정은 일반적으로 지도 학습 목표함수와 증류 목표함수를 균형 있게 조정하는 복합 손실 함수를 최적화하는 방식으로 이루어진다. 이로써 계산 및 메모리 요.. 공감수 0 댓글수 0 2025. 5. 7.
  • Alignment Tuning Recipe - Direct Preference Optimization (DPO) DPO 학습 개요Alignment tuning은 모델의 출력이 인간의 기대와 선호에 부합하도록 유도하는 과정이다.이중 DPO는 이러한 강화학습 과정에서 보상 최적화 과정을 단순화하여 이러한 문제를 인간 선호 데이터에 기반한 single-stage policy training 문제로 취급하여 모델을 학습한다. DPO 프레임워크는 두 가지 핵심 모델인 reference policy( π_ref )과 target policy ( π_tar )을 기반으로 구축된다. 여기서 reference는 일반적으로 사전 학습 및 감독 학습 기반 미세 조정이 완료된 언어 모델로, 학습 동안 고정된 상태로 유지된다. 반면, target policy는 eference policy 로부터 초기화되며, 선호도 기반 피드백을 통해 .. 공감수 5 댓글수 0 2025. 4. 30.
  • LLM 성능 향상을 위한 Post-training 방법론 개요 언어 모델의 학습 과정 개요​언어 모델의 학습 과정은 크게 세 단계로 나눌 수 있다:① 사전학습 (Pretraining)대규모의 일반 텍스트 데이터를 사용하여 언어 모델이 언어의 구조와 패턴을 이해하도록 훈련하는 과정. 이 단계에서는 모델이 문맥을 이해하고 다음 단어를 예측하는 능력을 갖추게 됨 ② 연속 사전학습 (Continual Pretraining, CPT) 이미 사전학습된 모델을 새로운 도메인이나 언어, 데이터에 적응시키기 위해 추가로 학습시키는 과정 의료, 법률, 특허 등 새로운 분야의 데이터를 추가로 학습하여 해당 도메인의 질문에 더 정확하게 응답하게 하는 사례가 있음 ③ 후속 학습 (Post-training)사전학습된 모델의 한계를 해결하기 위해 추가적으로 모델을 학습하는 과정 언어 모델.. 공감수 3 댓글수 0 2025. 4. 29.
  • [논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning ** Technical Report: https://arxiv.org/pdf/2501.12948DeepSeek-R1✔ 모델이 생각하여 추론하는 방법을 스스로 학습하도록 하기 위한 강화학습과 가독성 증대 및 사람 선호와의 일치를 위한 Fine-tuning 단계를 반복함으로써 OpenAI O1 모델에 비견할만한 모델을 학습했으며, 해당 모델을 오픈소스로 공개 ✔ DeepSeek은 R1 모델을 약 560만 달러 (약 80억 원)의 비용으로 훈련시켰다고 알려져 있으나, 과소 측정 논란이 있음 ✔ 671B 규모의 MoE 아키텍처를 사용하여 계산 효율성을 높이고 리소스 소비를 줄임 ✘ 데이터 Source, 도메인, 강화학습 단계에서 사용한 데이터 규모 등 학습 데이터의 Curation 방법 미공개 ✘ 영어, 중국어.. 공감수 7 댓글수 0 2025. 2. 3.
  • 언어 모델을 화이트 해킹하자 | ② Human-in-the-Loop 지난 포스트에서 LLM의 원치 않는 행동을 방지하기 위한 Red-teaming의 개념에 대해 알아보았다.이번에는 레드팀에서 가장 중요한 방법 중 하나인, 사람이 개입한 Red-teaming에 대해 구체적으로 알아보자. Human Red-teaming레드팀에서 가장 중요한 부분 중 하나는 인간 평가자가 모델의 응답을 검토하고 편향, 잘못된 정보 또는 공격적인 내용의 예를 식별하는 것이다. 이러한 활동에는 적대적인 시나리오를 시뮬레이션하는 데에 숙련된 사람들 뿐만 아니라 언어학, AI 및 윤리 전문가가 참여한다. 이들의 목표는 LLM이 해롭거나 부적절한 출력을 생성하도록 할 수 있는 잠재적인 취약성과 편견을 밝혀내는 것이다. 일반적인 Red-teaming 절차는 다음과 같다: (1) 범위 정하기조사하려는 L.. 공감수 0 댓글수 0 2024. 8. 21.
  • 언어 모델을 화이트 해킹하자 | ① Red-Teaming Large Language Models ⚠ 본 포스트는 언어 모델의 해로운 행동에 대한 내용으로, 모델이 생성한 공격적이거나 불쾌한 내용이 포함되어 있을 수 있습니다.  대량의 텍스트를 학습한 대규모 언어모델(LLM)은 능숙하게 현실적인 콘텐츠를 생성하고, 사람의 지시에 따른다.그러나 이러한 모델은 종종 개인정보를 유출하거나 잘못된 정보, 편견, 혐오 혹은 해로운 콘텐츠를 생성하는 등, 언어모델의 개발/운영자가 원하지 않는 행동을 하게 된다. 예를 들어 GPT-3 모델은 여성의 투표권에 대한 차별적인 텍스트를 생성하기도 했다.  LLM이 원하지 않는 답변을 했다는 것을 발견하게 되면, 우리는 LLM이 그러한 행동을 하지 않도록, 전략을 취할 수 있다.작은 언어모델을 활용하여 LLM의 생성을 가이드하는 GeDi(Generative Discrim.. 공감수 2 댓글수 1 2024. 7. 16.
  • Llama3 한국어 성능 테스트 | Colab에서 Meta-Llama-3 모델 사용해보기🦙 GPT-4에 비견할만한 성능을 가진다는 Meta의 오픈소스 LLM Llama3를 사용해보자! Llama 3 모델 Llama 3 모델 특징8B & 70B 파라미터 규모의 모델으로, MMLU, HumanEval  등 벤치마크 태스크에서 경쟁모델보다 좋은 성능을 보임Decoder-only 트랜스포머 아키텍처를 기본으로 하되, Llama2 대비 큰 향상을 보임토큰 인코딩 효율을 늘리기 위해 128,000개의 vocab size를 가지는 토크나이저 사용Llama2의 데이터셋의 7배 규모에 달하는 15조 토큰의 데이터에 대해 학습30개 이상의 언어에 대한 학습으로 다양한 언어적인 특성을 학습함Post-training 단계에서 Supervised fine-tuning, rejection sampling, Policy.. 공감수 7 댓글수 0 2024. 7. 10.
  • [논문리뷰] SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 논문 링크: https://arxiv.org/pdf/2312.15166.pdf SOLAR 10.7B NLP 분야는 언어 및 사람과의 상호작용에 대한 이해가 강화된 대규모 언어모델의 등장 이후 그 장세가 크게 변화하였다. 성능에 대한 scaling law에 따라 더 큰 모델을 학습해야 하는 부담이 생긴 것이다. 대규모 학습에 대해 언어 모델을 scaling 하기 위해 MoE(Mixture of Experts)와 같은 방법이 제안되기도 하였지만, 이러한 구조는 학습 및 추론 프레임워크에 있어 변경이 필요하기에 활용성에 제약이 생긴다. 효율적이면서 효과적으로 LLM을 scale up하면서 그 간결성(simplicity)을 유지하는 것은 중요한 연구 분야이다. SOLAR에서는 depth up-scaling(DU.. 공감수 3 댓글수 0 2024. 3. 17.
  • [Huggingface] Single GPU에서 효율적인 모델 학습을 하는 방법 원문 허깅페이스 - https://huggingface.co/docs/transformers/en/perf_train_gpu_one 모델 수렴과 GPU메모리를 고려하여 단일 GPU에서 메모리를 최적화하는 방법에 대해 HF에서 정리한 문서이다! 대규모 모델을 학습할 때에는 다음의 두 가지 측면을 고려해야 한다: (1) 데이터 throughput 혹은 학습 시간 (2) 모델 성능 초당 학습 샘플 개수로 측정되는 throughput을 극대화하는 것은 학습 비용을 낮추는 것으로 연결된다. 일반적으로 GPU를 최대한 많이 사용하고, GPU 메모리를 그 한계까지 사용함으로써 이를 달성할 수 있다. 만약 배치사이즈가 GPU 메모리를 초과하면, gradient accumulation과 같은 메모리 최적화 방법을 사용할.. 공감수 7 댓글수 0 2024. 3. 10.
  • [Huggingface] 모델 학습 시 GPU 메모리 사용 알아보기 원문 허깅페이스 - https://huggingface.co/docs/transformers/en/model_memory_anatomy 모델 학습 도중 GPU는 어떤 방식으로 활용되는가 모델 학습 속도와 메모리 활용의 효율성을 증대하기 위한 최적화 기법을 이해하기 위해, ①학습 도중 GPU가 어떤 식으로 활용되며 ②수행하는 작업에 따라 계산 강도가 어떻게 달라지는지 이해할 필요가 있다. Step-by-step 메모리 확인 가이드는 아래 huggingface 가이드에 있는 코드를 따라 해 보면 된다. https://huggingface.co/docs/transformers/en/model_memory_anatomy Pytorch를 통해 모델을 로드하고, 학습하는동안 GPU 사용률을 관찰해 보면 아래와 같이.. 공감수 0 댓글수 2 2024. 3. 8.
  • Open-Ko-LLM | 한국어 대규모 언어모델 리더보드 🚀 Open Ko-LLM Leaderboard 🇰🇷 한국어 대규모 언어모델의 성능을 평가하기 위한 리더보드가 론칭되었다. 영어 리더보드인 Open LLM Leaderboard의 한국 버전으로, 업스테이지에서 평가를 운영하며 NIA에서 데이터셋을 제공하였다. 해당 리더보드에서는 LLM의 추론, 언어이해, 일반상식, Hallucination 방지 능력을 평가하기 위해 다섯 개 벤치마크 데이터에 대한 평가가 진행된다. Open ko-LLM 리더보드 바로가기 >> Open Ko-LLM Leaderboard - a Hugging Face Space by upstage huggingface.co 벤치마크 태스크 Ko-Arc : 추론 능력 ⭕Metric: Accuracy AI2 Reasoning Challenge(A.. 공감수 6 댓글수 0 2024. 2. 16.
  • [논문리뷰] G-Eval: LLM을 사용해 인간의 견해와 보다 일치하는 NLG 평가 시스템 구축하기 지난 포스트에서는 LLM 기반의 시스템을 평가하는 방법에 대해 알아보았다 LLM Evaluation | LLM 기반의 시스템을 어떻게 평가할 수 있을까 지난 포스팅에서 다루었던 것처럼 LLM의 문맥 이해 및 자연어 생성 능력 능력이 향상되었고, fine-tuning API, Plug-in 지원 등이 이루어지면서 다양한 애플리케이션 개발이 가능해졌다. 개인의 창의성 littlefoxdiary.tistory.com LLM 기반의 시스템을 평가하기 위해서는 시스템의 각 구성요소에 대한 평가가 필요한데, 인공지능이 생성한 텍스트의 품질을 평가하기 위해서는 체계적인 Human Evaluation이 가장 확실할 것이다. 그러나 생성된 텍스트의 품질을 사람이 평가하는 것은 시간과 인적 자원 측면에서 cost가 크다... 공감수 10 댓글수 1 2024. 2. 11.
  • LLM Evaluation | LLM 기반의 시스템을 어떻게 평가할 수 있을까 지난 포스팅에서 다루었던 것처럼 LLM의 문맥 이해 및 자연어 생성 능력 능력이 향상되었고, fine-tuning API, Plug-in 지원 등이 이루어지면서 다양한 애플리케이션 개발이 가능해졌다. 개인의 창의성과 공부를 위해 LLM을 활용하는 것이라면 정량적인 성능 평가까지는 불필요할 수 있지만, LLM을 활용하여 서비스 가능한 시스템을 운영하기 위해서는 생성형 AI 시스템의 성능을 평가하는 것이 필수적이다. 하지만 생성형 모델을 기반으로 한 시스템에 대한 성능 평가는 기존 NLU 태스크처럼 단순하지 않다. 문장의 카테고리를 분류하거나 유사도를 수치화하는 등 정답 라벨의 정의가 과제와 달리, 생성형 AI 기반의 시스템은 ① 유저의 피드백 혹은 "정답"에 대한 데이터는 매우 제한적으로 발생하거나 심지어.. 공감수 9 댓글수 5 2024. 1. 16.
  • OpenAI GPT store 공개 - 내가 가진 아이디어로 노코딩 챗봇 개발 & 수익화하기 지난 11월 GPTs 기능이 공개된 후 300만 이상의 커스텀 ChatGPT가 생성되었다고 한다. 이미 많은 빌더들이 자신이 만든 GPTs를 다른 사람들도 쓸 수 있도록 공유하기도 했다. 이에 OpenAI는 1월 10일, ChatGPT Plus, Team, Enterprise 고객을 대상으로 GPT store을 론칭하였다. 현재 DALLE 활용하기, 글쓰기, 연구, 프로그래밍, 교육 등 다양한 분야에서 인기를 끌고 있는 GPTs를 GPT store의 커뮤니티 리더보드를 통해 확인할 수 있다. 예를 들어 아래와 같은 GPTs 어플리케이션이 트렌딩 하고 있다: AllTrails : 맞춤형 트레일 추천 Consensus : 2억 개의 학술 논문에서 결과를 검색하고 결과를 종합 Code Tutor : 코딩 기술.. 공감수 57 댓글수 34 2024. 1. 12.
  • LLM fine-tuning 전략 | PEFT - Parameter Efficient Fine Tuning Table of Contents ● Parameter Efficient Fine-tuning이란? ● 대표적인 PEFT 방법론 6가지 ● LLM에 적용 가능한 PEFT 방법론 3가지 Parameter Efficient Fine-tuning(PEFT)이란? 딥러닝 모델의 크기가 증가함에 따라, 기존과 같이 태스크에 따른 모델 튜닝에 있어 기존과 같이 모든 파라미터를 미세조정하는 full-fine-tuning 방식은 자원 측면에서 점점 불가능해지고 있다. 이에 파라미터 효율적으로 fine-tuning 하는 PEFT 방법이 활발하게 연구되고 있다. PEFT는 다운스트림 작업의 성능을 유지하거나 심지어 향상시키면서 학습에 필요한 계산량, 혹은 모델의 크기를 줄이는 것을 목표로 한다. PEFT는 아래와 같은 장점.. 공감수 8 댓글수 3 2024. 1. 9.
  • 논란의 신모델 구글 '제미나이(Gemini)' - 새롭게 생각하는 인공지능의 시작일까 Gemini is built from the ground up for multimodality — reasoning seamlessly across text, images, video, audio, and code. Gemini는 텍스트, 이미지, 비디오, 오디오 및 코드를 자연스럽게 이해하는 multi-modality를 위해 만들어졌습니다 2023년 12월 6일, Google은 멀티모달 모델인 제미나이(Gemini)를 발표하며 범용 모델의 시대에 대한 포부를 밝혔다. 구글 딥마인드는 새로운 세대의 AI 모델에 대한 비전이 있었다. 소프트웨어처럼 똑똑한 것이 아니라 유용하고 직관적인 것처럼 느껴지는 AI, 전문가적인 도우미나 어시스턴트 같은 AI말이다. Gemini는 텍스트, 코드, 오디오, 이미지 및 .. 공감수 3 댓글수 1 2024. 1. 5.
  • ChatGPT Fine-tuning 예시 | 언제, 어떻게 해야 하는가 지난 8월, OpenAI는 ChatGPT Fine-tuning API를 공개하였습니다. 뿐만 아니라 11월 OpenAI Dev Day 행사에서는 GPT-4에 대한 fine-tuning에 대한 실험적인 결과를 오픈하였습니다. 본 포스트에서는 Chat-GPT fine-tuning API 기능을 알아보고 fine-tuning을 통한 모델 개선 실습을 수행해 봅니다. Before >>> After >>> LLM 사용 전략의 기본, Prompt Engineering GPT(Generative Pre-trained Model)은 방대한 양의 문서에 대해 학습되었다. 뿐만 아니라 Instruction tuning 과정을 통해 입력의 지시사항을 따르도록 학습된 ChatGPT, Claude 등의 모델은 프롬프트를 통해 .. 공감수 43 댓글수 25 2023. 11. 11.
  • [OpenAI DevDay] GPT-4 Turbo, DALL-E 3, Assistants API, ... 놀라운 혁신 발표 https://openai.com/blog/new-models-and-developer-products-announced-at-devday 2023년 11월 6일, AI 연구자로서 설렘이자 두려움인 OpenAI Dev Day에서 새로운 기능과 모델들이 대거 발표되었습니다. 성능은 더 좋아지고, 가격은 낮아지고, 사용은 유연하고 편리해져 가는 OpenAI...! 갈수록 넘사벽이 되어가고 있네요 ㅎㅎㅎㅎ 핵심 feature 요약 >>> GPT-4 Turbo with 128K context - 입출력 길이가 128K로 증가, 가격은 낮아졌다. GPT-4 Turbo with Vision - Assistants API - 개발자가 모델 & 툴을 쉽게 호출할 수 있도록 보조 API 제공 Multimodal Capa.. 공감수 22 댓글수 13 2023. 11. 8.
  • LangChain | WebResearchRetriever을 활용하여 RAG (Retrieval Augmented Generation) 구현하기 지난 포스트에서는 LangChain을 활용하여 5세 아이의 단어공부를 도와주는 간단한 어플리케이션 코드를 작성해 보았다. 2023.08.16 - [AI] - LangChain이란? | 파이썬으로 LangChain 시작하기 LangChain이란? | 파이썬으로 LangChain 시작하기 참고문서: https://python.langchain.com/docs/get_started/quickstart.html 실습파일: LangChain이란? LangChain은 언어모델, 특히 대규모 언어모델(LLM)을 활용하여 구동하는 애플리케이션을 개발하기 위한 프레임워크 littlefoxdiary.tistory.com 이처럼 자유롭거나 창의적인 Open-World 질문에 대해서는 대규모 언어모델이 다소 창의적이거나 좋은.. 공감수 4 댓글수 2 2023. 8. 27.
  • LangChain이란? | 파이썬으로 LangChain 시작하기 참고문서: https://python.langchain.com/docs/get_started/quickstart.html 실습파일: LangChain이란? LangChain은 언어모델, 특히 대규모 언어모델(LLM)을 활용하여 구동하는 애플리케이션을 개발하기 위한 프레임워크로, ● Data-aware: 언어 모델을 다른 데이터 소스와 연결하거나 ● Agentic: 언어 모델이 환경과 상호작용할 수 있도록 하는 애플리케이션 개발을 지원한다. 최근의 Large Language Model(LLM)은 뛰어난 맥락 이해 능력을 보이며, 일반적인 상황에서 인간과 자연스럽게 상호작용하는 것과 같이 행동한다. 하지만 도메인 지식이나 전문성이 필요한 태스크에 대해서는 구체적이고 유효한 답변을 제공하지 않을 수 있다. 예.. 공감수 16 댓글수 3 2023. 8. 16.
  • GPT-4 : OpenAI의 '가장 진보된 AI 시스템' 공개 지난 3월 14일, OpenAI가 모델의 scaling에 대한 최첨단 연구의 결과물인 GPT-4을 발표하였다. GPT-4은 이미지와 텍스트를 입력받아 해당 인풋을 바탕으로 텍스트를 출력해낼 수 있는 대규모 멀티모달 모델이다. 공개된 영상에 따르면 GPT-4의 학습은 지난 8월에 끝지만, 모델을 발표하기까지의 6개월간 모델을 더 안전하고, 유용하며, 인간의 가치에 상응하도록 하는 작업을 거쳤다고 한다. 이 과정을 통해 내부적으로 ▲모델의 오용(adversarial usage) ▲원하지 않는 내용(unwanted content) ▲개인정보 이슈(privacy concern) 등에 대한 내부 가이드라인을 세웠다고 한다. " GPT-4은 인류의 삶에 유용하고, 실용적인 보조자로서의 역할을 수행할 것으로 기대한다.. 공감수 9 댓글수 0 2023. 3. 18.
  • Anthropic의 Constitutional AI: Harmless from AI Feedback | AI 헌법에 따라 행동하는 인공지능 참고 논문 및 자료: - Constitutional AI: Harmlessness from AI Feedback (Anthropic) - Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic) - https://scale.com/blog/chatgpt-vs-claude Motivation: "AI의 행동을 감독하는 데에 AI를 활용하자" 최근 뛰어난 성능으로 큰 관심을 받고 있는 ChatGPT는 모델이 생성한 답변에 대한 사람의 선호 피드백을 활용하여 보다 사람이 선호하는 답변을 하도록 학습한, Reinforcement Learning from Human Feedback을 사용한.. 공감수 5 댓글수 0 2023. 2. 12.
  • 챗GPT는 어떻게 학습되었을까 - Human Feedback Reinforcement Learning (RLHF) 주요 출처 및 참고자료: https://huggingface.co/blog/rlhf MOTIVATION 최근 발표된 언어 모델은 사람이 입력한 프롬프트로부터 다양하고 그럴듯한 텍스트를 생성하는 데에 있어 뛰어난 능력을 보였다. 하지만 텍스트를 정의하는 것은 본직적으로 어려운 일인데, 이 기준이 주관적이고 상황에 따라 다르기 때문이다. 예를 들어 이야기를 쓸 때에는 창의성이 필요하고, 정보성 문단은 사실적이어야 하며 코드 스니펫과 같은 것은 실행 가능해야 한다. 이렇게 복잡한 속성들을 담은 loss function을 설계하는 것은 거의 불가능하다. 따라서 대부분의 언어모델은 cross entropy를 사용해 다음 토큰을 예측하는 태스크를 통해 학습한다. 이 loss는 좋은 텍스트를 생성했는지 판단하기에 직.. 공감수 30 댓글수 8 2023. 1. 29.
  • [생각노트] ChatGPT에 대한 조던 피터슨의 경고를 보고 🦊 Opinion 🦊 ChatGPT가 공개되고 대중을 대상으로 API가 오픈되었을 때, 나는 이 모델은 또 하나의 GPT 시리즈 정도로 생각했다. 아마도 수많은 코퍼스에 대해 아마도 다량의 피드백을 학습했을 이 새로운 모델에게 나는 몇 가지 상식적인 질문과 답하기 곤란한 질문들을 테스트해 보았고, 오픈 AI의 블로그에 소개된 ChatGPT의 가능성에 대한 내용들이 실제로 잘 작동하는 것을 확인하고 수긍했다. ChatGPT의 정성적으로 느껴지는 성능이나 여러 가지 기능에 대해 굉장히 놀랐고 대단하다고 생각했지만 동시에 와 같은 기사들에 대해서는 모델 추론 비용이나 정보의 실시간 업데이트, 설명 가능성(근거 제시)의 부족 등에 대해 생각하며 또 대중에게 공개된 모델 하나가 과대평가되어 인공지능에 대한 기대 .. 공감수 9 댓글수 1 2023. 1. 24.
  • 한국어 (초)거대 공개 언어모델 - Polyglot, KoGPT GPT-3를 필두로 하여 거대 파라미터의 모델에 대규모 코퍼스를 학습한 (초)거대 언어모델은 자연스러운 문장을 생성하거나 다양한 태스크를 적은 학습 데이터로 수행하는 등 뛰어난 가능성을 보였다. 하지만 학습에 막대한 자본이 필요한 거대 언어모델은 AI의 독점화 및 권력화, 그리고 데이터 및 컴퓨팅 파워 격차에 따른 기술 격차 심화를 낳을 것이라는 우려도 존재한다. 빅테크 기업이 아닌 일반 기업이나 연구자가 거대 언어 모델을 다루기는 쉽지 않은 것은 엄연한 사실이다. 이러한 상황에 변화를 가져오기 위해 Huggingface가 중심이 되는 BigScience 프로젝트에서는 를 위해 전 세계 1,000여 명의 AI 연구자들이 힘을 합쳐 다양한 언어를 포괄하는 176B 규모의 언어모델 BLOOM을 확보하여 공개.. 공감수 11 댓글수 0 2022. 12. 26.
  • ChatGPT: 진실되고 보다 이로운 답변을 생성하는, OpenAI의 GPT 시리즈 ChatGPT 🤖 2022년 11월에 공개된 InstructGPT의 자매 모델 ( 참고 : InstructGPT: 인간의 지시에 따른 결과물을 완성해내는 AI) 인간과 대화의 형식으로 상호작용할 수 있는 언어모델 대화를 통해 △이어지는 질문에 답하거나 △답변의 실수를 인정하고, △잘못된 전제 조건을 지적하거나 △부적절한 요구사항을 거절하는 능력을 보임 ✅ 예시 1: 코드 디버깅을 위해 추가 질문을 하는 ChatGPT 사용자 입력: this code is not working like i expect — how do i fix it? (이 코드는 제가 생각한대로 작동하지 않습니다. 어떻게 고쳐야 하나요?) ChatGPT 답변 👉 It’s difficult to say what’s wrong with the.. 공감수 11 댓글수 2 2022. 12. 21.
  • [논문리뷰] DeepMind RETRO - 수 조개의 토큰 DB로부터 정보를 검색해 강화된 언어모델 블로그 : https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens 논문 : https://arxiv.org/abs/2112.04426 Motivation 언어 모델이란 '가장 자연스러운 단어 시퀀스를 찾아내는 모델'로 단어의 시퀀스에 확률을 할당(assign) 하는 일을 하는 모델이다. 그리고 이러한 작업을 학습하기 위해 가장 보편적으로 사용하는 방법은 언어모델이 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 훈련시키는 것이다. 지난 몇 년 동안 컴퓨팅 자원의 발달에 힘입어 언어모델은 더 큰 파라미터를 더 많은 데이터에 대해 학습하는 방향으로 발전해왔다. 2020년 1750.. 공감수 11 댓글수 0 2022. 6. 24.
  • AI alignment - 인공지능과 사람의 <동상동몽> 근래에 자주 보이는 AI 연구 키워드 중 하나가 [ AI alignment ] 이다. alignment [əˈlīnmənt] - 조정, 정렬, 정돈 AI 정렬? 익숙지 않은 개념 탓에 사전적인 의미만 가지고는 AI alignment가 어떤 의미인지 딱 와닿지 않는다. 위키피디아에 AI alignment를 검색해보니 AI alignment에 대해 아주 자세히 정리해놓은 페이지가 있었다. https://en.wikipedia.org/wiki/AI_alignment#Problem_description AI alignment - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Issue of ensuring ben.. 공감수 6 댓글수 2 2022. 4. 17.
  • [논문리뷰] GPT3의 새로워진 버전 - InstructGPT : 인간의 지시에 따른 결과물을 완성해내는 AI InstructGPT : Training language models to follow instructions with human feedback 논문 링크 : https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf 블로그 포스팅 : https://towardsdatascience.com/the-new-version-of-gpt-3-is-much-much-better-53ac95f21cfb GPT-3 설명 : 2020.06.22 - [AI] - [논문리뷰] GPT3 - Language Models are Few-Shot Learners GPT-3가 발표된 후 지난 2년간 GPT-.. 공감수 50 댓글수 3 2022. 4. 3.
  • [논문리뷰] 알파코드 - Competition-Level Code Generation with AlphaCode 딥마인드 블로그 : https://deepmind.com/blog/article/Competitive-programming-with-AlphaCode 논문 : https://arxiv.org/abs/2203.07814 이세돌 9단과의 경기에서 4-1로 승리한 알파고, 36만 개 이상의 단백질 3차원 구조를 예측한 알파폴드를 개발한 딥마인드(DeepMind) 팀이 이번에는 코딩 경진대회 문제를 푸는 코딩하는 AI, 알파코드 (AlphaCode)를 발표했다. 알파코드는 5,000명 이상의 참가자가 참가한 실제 경진대회에서 평균 54%의 상위 순위를 달성했다. 알파코드가 코딩을 학습한 방법은 최근 AI 분야에서 좋은 성능을 보이고 있는 사전학습과 fine-tuning 전략이다. 알파코드는 먼저 깃허브 등에 올.. 공감수 8 댓글수 0 2022. 3. 30.
    문의안내
    • 티스토리
    • 로그인
    • 고객센터

    티스토리는 카카오에서 사랑을 담아 만듭니다.

    © Kakao Corp.