본문 바로가기

AI

[OpenAI DevDay] GPT-4 Turbo, DALL-E 3, Assistants API, ... 놀라운 혁신 발표

https://openai.com/blog/new-models-and-developer-products-announced-at-devday

 

2023년 11월 6일, AI 연구자로서 설렘이자 두려움인 OpenAI Dev Day에서 새로운 기능과 모델들이 대거 발표되었습니다.

성능은 더 좋아지고, 가격은 낮아지고, 사용은 유연하고 편리해져 가는 OpenAI...! 갈수록 넘사벽이 되어가고 있네요 ㅎㅎㅎㅎ

 

핵심 feature 요약 >>>

  • GPT-4 Turbo with 128K context - 입출력 길이가 128K로 증가, 가격은 낮아졌다.
  • GPT-4 Turbo with Vision -
  • Assistants API - 개발자가 모델 & 툴을 쉽게 호출할 수 있도록 보조 API 제공
  • Multimodal Capability - 플랫폼 내 TTS , 이미지 생성 (Dall-E 3) API 등 제공


GPT-4 Turbo with 128K context

gpt-4-1106-preview API를 통해 개쩌는 업데이트된 GPT-4 Turbo를 만나볼 수 있다! 

 

✔ 최신 지식에의 접근

GPT-4 Turbo는 2023년 4월까지의 지식을 학습하였다.

 

✔ 더 길어진 입력 길이

GPT-4 Turbo는 128K의 context를 소화할 수 있는데,

이는 하나의 프롬프트에 영문 기준 300페이지 분량의 내용을 넣을 수 있는 것이다.

 

✔ Function calling 업데이트

Function calling(함수 호출)을 통해 GPT-4를 포함한 시스템이 앱 혹은 외부 API들을 사용할 수 있도록 할 수 있다.

먼저 활용 가능한 API들의 기능을 모델에게 설명하고, 해당 함수를 호출하기 위해 필요한 인자들을 알려준다.

이를 통해 모델은 해당 함수 호출을 위해 필요한 인자들을 JSON 형태로 출력할 수 있다.

 

이번 업데이트에서는 여러 개의 함수를 호출할 수 있도록 보완되었는데,

예를 들어 사용자가 "에어컨 끄고 창문 열어줘"라고 입력했을 때, 필요한 함수 2개 (에어컨 끄기 & 창문 열기)를 호출할 수 있다.

 

✔ Instriction-Following 기능의 강화와 JSON 모드 지원

GPT-4 Turbo는 프롬프트에 있는 지시사항을 더 잘 따르도록 학습되었다.

예를 들어 출력의 형태를 특정 format으로 만드는 (예. 항상 XML 형태로 답변하시오) 등의 지시를 더 잘 따른다.

 

또한 JSON mode를 사용하면 모델이 항상 유효한 JSON을 반환하도록 설정할 수 있다.이는 새로운 API에서 response_format이라는 인자를 통해 조절이 가능하다.

 

✔ Seed 설정 가능

API 파라미터에 seed를 설정함으로써 모델의 출력 결과를 재현할 수 있게 되었다.

 

✔ Log-probability 반환

GPT-4 Turbo 및 GPT-3.5 Turbo에 대해 출력물에 대한 log probabolity를 반환하는 기능을 준비하고 있다.

해당 기능은 검색 자동완성 등의 기능을 구현함에 있어 유용할 것으로 생각된다.

 

✔ GPT-4 Turbo의 기능들은 GPT3.5-Turbo 기능에도 일부 업데이트되었다!

  • 16K context 길이를 기본으로 제공
  • Instruction-following 능력의 향상
  • JSON mode 업데이트
  • Parallel function calling 가능

 

✔ GPT-4 Turbo가 저렴해졌다!

OpenAI 발표에 따르면 GPT-4에 대한 추론 최적화 작업을 진행하였고, 이에 따라 가격을 인하할 수 있었다고 한다.

이에 기존 GPT-4 대비 인풋 비용을 1/3, 출력 가격을 1/2으로 낮추었다.

 

 

 

Assistants API 출시

LLM을 활용한 애플리케이션을 개발함에 있어 agent와 같은 역할을 수행할 수 있는 Assistants API를 공개하였다.

어시스턴트는 특정한 지시사항을 따르거나 추가 지식을 활용하고, 모델 혹은 툴을 호출해 작업을 수행할 수 있는 목적 지향형 AI이다. Assistants API는 코드 인터프리터, 검색 및 function calling을 통해 고퀄리티의 AI 어플리케이션을 간편하게 만들 수 있도록 한다. 

 

✔ 개발 유연성

Assistants API는 사용의 유연성을 위해 디자인되었고, 따라서 자연어 데이터 분석 애플리케이션, 코딩 보조, AI 기반의 여행 계획, DJ, 스마트 캔버스 등등 다양한 유즈케이스에 활용할 수 있다. 

 

✔ 지속적이고 무한히 긴 스레드 지원

해당 API를 활용함으로써 개발자는 스레드 상태 관리의 역할을 OpenAI에 넘기고, 인풋 context window 제약을 해결할 수 있다. Assistants API를 활용하면 현존하는 스레드에 새로운 메시지를 추가하기만 하면 된다.

 

✔ 지원 툴 확장

  • Code Interpreter - Code Interpreter 툴에서는 샌드박스 실행환경에서 Python 코드를 작성 및 실행하고, 그래프나 차트를 생성하며 다양한 데이터와 포맷의 파일을 처리할 수 있다. 이를 통해 코드를 반복적으로 수행할 수 있고, 어시스턴트는 어려운 코드나 수학 문제를 해결할 수 있다. 
  • Retrieval - 도메인 특화 지식이나 사용자가 제공한 문서와 같이 모델 외부의 지식을 활용해 어시스턴트의 지식을 증강할 수 있다. 개발자는 문서 chunking, 문서 임베딩, 검색엔진 인덱싱 과정을 직접 수행할 필요가 없으며, 해당 툴은 ChatGPT에 지식 검색 기술을 구축한 경험을 바탕으로 최적화되어 있다.
  • Function Calling - 사용자가 정의한 함수를 호출하고, 해당 함수의 응답을 메시지에 녹여낼 수 있다.

 

Assistants API 사용 예시

 

 

새로운 modality들의 합류

✔ GPT-4 Turbo with Vision

GPT-4 Turbo는 이미지들을 Chat Completions API의 인풋으로 활용할 수 있다.

이에 이미지 캡셔닝, real-world 이미지 분석, 도표가 포함된 문서의 해석 등의 애플리케이션에 활용이 가능하다.

해당 API는 gpt-4-vision-preview를 통해 먼저 사용해 볼 수 있으며, stable 버전에서 비전 인식 기능을 메인 기능으로 출시 예정이라고 한다. 

 

✔ DALL-E 3

ChatGPT Plus 이용자 및 기업 고객 대상으로 선공개된 DALL-E 3를 dall-e-3 API로 사용할 수 있게 되었다.

이미 스냅(Snap), 코카콜라(Coca-Cola), 셔터스톡(Shutterstock)과 같은 회사들에서 DALL·E 3를 활용하여 고객/ 캠페인을 위한 이미지와 디자인을 제작하여 사용한 바 있다. 해당 API는 어플리케이션에서 해당 기능이 오용되는 것을 방지하기 위해 내장된 moderation 기능을 포함하고 있다.

 

출처: https://synthedia.substack.com/

 

 

✔ TTS

OpenAI에 TTS API가 6가지 스타일의 버전으로 공개되었다.  

OpenAI Blog에 가면 해당 TTS 결과 샘플을 들어볼 수 있는데, 숨소리마저 느껴질 정도로 자연스럽다.

 

 

 

 

What's coming NEXT?

✔ GPT-4 fine-tuning experimental access

OpenAI는 GPT-4 fine-tuning을 위한 실험적인 프로그램을 준비 중에 있다고 한다. 

내부 실험 결과에 따르면 GPT-4를 fine-tuning 함으로써 얻는 결과가 GPT-3.5 fine-tuning을 통해 얻을 수 있는 성능 향상보다 월등히 좋아지기 위해서는 더 많은 작업이 필요하다고 한다. 

 

✔ Custom Model

Fine-tuning 이상의 맞춤화를 위해 도메인 특화 데이터가 풍부한 도메인(수십억 토큰 이상)에 대해 맞춤형 모델 프로그램 기회를 제공하려고 하고 있다고 한다.

 


 

일반 도메인에서 월등한 성능으로 전 세계 사람들의 이목을 사로잡고,

전세계 사람들의 테스트 데이터를 발판 삼아 모델을 강화한 다음

결국 기업 특화 모델로 비즈니스까지 독점하려는 OpenAI의 횡보... 

 

볼수록 대단함을 넘어서 두려운 느낌까지 듭니다.

 

LLM 성능에 있어서 따라잡지 못하게 되리라는 것은 알고 있었지만,

Assistants API의 발표로 인해 오케스트레이션과 같이 소기업(?) 들이 붙어서 할만한 먹거리들마저

OpenAI가 장악해 버릴 수도 있겠다는 생각이 드네요 흠흠,,,,🦊