본문 바로가기

AI

GPT-4 : OpenAI의 '가장 진보된 AI 시스템' 공개

지난 3월 14일, OpenAI가 모델의 scaling에 대한 최첨단 연구의 결과물인 GPT-4을 발표하였다.

GPT-4은 이미지와 텍스트를 입력받아 해당 인풋을 바탕으로 텍스트를 출력해낼 수 있는 대규모 멀티모달 모델이다. 

 

공개된 영상에 따르면 GPT-4의 학습은 지난 8월에 끝지만, 모델을 발표하기까지의 6개월간 모델을 더 안전하고, 유용하며, 인간의 가치에 상응하도록 하는 작업을 거쳤다고 한다. 이 과정을 통해 내부적으로 ▲모델의 오용(adversarial usage) ▲원하지 않는 내용(unwanted content) ▲개인정보 이슈(privacy concern) 등에 대한 내부 가이드라인을 세웠다고 한다. 

 

 

" GPT-4은 인류의 삶에 유용하고, 실용적인 보조자로서의 역할을 수행할 것으로 기대한다. 

이는 우리의 일상에 가능한 한 많은 가치를 더하는 일이다. "

 

 

OpenAI 일 그만해.....

 


목차 

 


ChatGPT와는 어떤 점이 달라졌는가

 

  ChatGPT GPT-4
단어 개수 3,000 25,000 (x8배)
멀티모달 능력
(Multi-modal)
X 이미지에 대한 이해 가능
- 사진을 이해하고, 그에 대한 추론이 가능함
가격 정책 $0.002 / 1K tokens 8K context model : 
  - prompt $0.03 / 1K tokens
  - completion $0.06 / 1K tokens
32K context model :
  - prompt $0.06 / 1K tokens
  - completion $0.12 / 1K tokens

👉 ChatGPT 대비 10배 이상 비싼 가격 책정
👉 프롬프트와 모델 생성에 대해 다른 가격 정책을 적용
(프롬프트에 더 많은 정보를 넣을 수 있도록 한 것으로 생각)

주요 특징

Creativity: 창의성

 

 

 

GPT-4은 그 어느때보다도 창의적이고 협력 가능한 능력을 보여준다. 해당 모델은 작곡이나 각본 작성과 같은 창의력이나 기술을 요구하는 작문 활동을 수행할 수 있고, 사용자와 상호작용하며 점진적으로 작성한 내용을 수정해 나갈 수 있다. 또한 사용자의 작문 스타일을 학습할 수도 있다. 

 

 

 

 

 

 

Visual Input: 이미지에 대한 이해

 

GPT-4은 이미지를 인풋으로 받아 캡션을 생성하거나 분류, 분석 작업을 수행할 수 있다.

 

(예) 오른쪽 질문에 대해 GPT-4는 아래와 같이 답했다:

 

이런 재료들로 당신이 만들 수 있는 것들은 아주 많습니다! 예를 들면 다음과 같은 것들이 있습니다:

- 팬케이크나 와플

- 크레페

- 프렌치 토스트

- 오믈렛이나 프리타타

- 키슈 (Quiche)

- 커스타드 혹은 푸딩

- 케이크나 컵케이크

- 머핀이, 브레드 쿠키 혹은 비스킷

 

이것들은 일부 예시들이지만, 만들 수 있는 요리는 무궁무진합니다!

 

 

Longer Context: 더 긴 문맥에 대한 이해

 

GPT-4은 25,000개가 넘는 단어를 다룰 수 있기 때문에 긴 문서에 대한 작성이 가능하고 더 오랫동안 대화가 가능하며 문서 검색이나 분석이 가능하다.

 

 

(*) 언어모델의 지식은 사전학습 코퍼스를 수집한 시점에 머물러있지만, 이와 같이 질문에 대해 관련된 문서를 검색한 후 함께 프롬프트로 활용하면 Bing Search에서와 같이 최신 지식에 대해서도 답변이 가능하다.

 

 

 

 

 

 

 

 

 


ChatGPT와의 정성적/정량적인 비교

 

추론 능력에 있어 ChatGPT보다 뛰어난 능력을 보인다

 

(예) Input (한국어 번역)

앤드류는 오전 11시부터 오후 3시까지, 조앤은 정오부터 오후 2시까지, 그리고 오후 3시 30분부터 5시까지 시간이 있습니다. 한나는 정오에 30분간, 그리고 오후 4시부터 6시까지 시간이 있습니다. 앤드류, 한나, 조앤이 30분간 회의를 하고자 한다면, 회의 시작 시간으로는 어떤 선택지가 있나요?

 

ChatGPT GPT-4

Here
is a list of their availability:
- Andrew: 11 am to 3 pm
- Joanne: noon to 2 pm, and 3:30 pm to 5 pm
- Hannah: noon to 12:30 pm, and 4 pm to 6 pm

Based on their availability, there is a 30-minute window where all three of them are available, which is from 4 pm to 4:30 pm. So, the meeting can be scheduled at 4 pm.

Andrew: 11 am - 3 pm
Joanne: 12 pm - 2 pm, 3:30 pm - 5 pm
Hannah: 12 pm - 12:30 pm, 4 pm - 6 pm

Common availability for a 30-minute meeting: 12 pm - 12:30 pm

아래와 같은 빈 시간이 있습니다 :
- 앤드류: 11 am - 3 pm

- 조앤 : 정오 - 2 pm 그리고 3:30 pm - 5 pm
- 한나 : 정오 - 12:30 pm 그리고 4pm - 6pm

이러한 공백 시간에 따르면, 4pm부터 4:30 pm까지 3명이 모두 사용할 수 있는 공백이 있습니다. 따라서 회의는 오후 4시에 잡힐 수 있습니다. 

- 앤드류: 11 am - 3 pm
- 조앤 : 12 pm - 2 pm, 3:30 pm - 5 pm
- 한나 : 12 pm - 12:30 pm, 4pm - 6pm

30분 회의가 가능한 공통적인 시간: 12 pm- 12:30 pm

 

 

GPT-4은 ChatGPT보다 좋은 시험 성적을 거두었다

ChatGPT 역시 미국의 변호사 시험이나 MBA 시험을 통과한 것으로 알려져 있는데, 사실상 기준을 가까스로 통과한 수준이었다. 하지만 GPT-4의 경우 변호사 시험의 경우 상위 10% 수준으로 우수한 성적으로 통과하였으며 생물 올림피아드의 경우 이미지를 함께 인식할 수 있는 모델로 상위 1%의 성적을 거두었다.

 

Uniform Bar Exam

: 전국 변호사 시험 위원회(NCBE)가 만든 표준화된 변호사 시험.
변호사 자격증을 취득하기 전에 모든 변호사가 갖춰야 할 지식과 기술을 테스트하기 위한 시험이다.
Biology Olympiad

: 생물학 올림피아드
ChatGPT : 10th percentile
GPT-4 : 90th percentile
ChatGPT : 31th percentile
GPT-4 (with vision) : 99th percentile

 

이밖에도 최근에 시행된 올림피아드나 AP, SAT 시험에 대해서도 시험에 대한 특별한 모델 학습 없이도 좋은 성적을 거두었다. 

특히 미국의 대학 입학 자격시험인 SAT에서 읽기의 경우 상위 7%, 수학은 상위 11%에 드는 수준으로 높은 성적을 거두었다. 

 

 

모델 벤치마크에서 뛰어난 성능

GPT-4은 머신러닝 모델에 대한 전통적인 벤치마크에 대해서도 다른 언어모델 대비 뛰어난 성적을 거두었고, MMLU, HellaSwag, ARC, WinoGrande, HumanEval 등의 태스크에서 기존 SOTA를 상회하는 성적을 거두었다. 

 

GPT-4가 우수한 성적을 거둔 태스크는 전문/학술 주제에 대한 다지선다 문제나 일반 상식부터 시작해서 Python 코딩 영역까지, 그 활용 분야가 다양하고 폭넓다.

 

 

 

개선된 다국어 성능

뿐만 아니라 MMLU(57가지 주제에 대한 다지선다 태스크) 데이터를 Azure 번역기를 사용하여 다양한 언어로 번역한 뒤 해당 언어를 사용하여 시험을 응시하도록 하였는데, GPT-4은 26개 국어 중 24개 언어에 대해 GPT-3.5나 다른 대규모 언어모델(Chinchilla, PaLM)의 영어권 성적을 뛰어넘는 성적을 보였다. 이런 결과는 언어에는 흔히 <low-resource> 언어로 알려진 라트비아어, 웨일스 언어, 스와힐리어를 포함한다. 아래의 도표를 보면 한국어에 대해서도 GPT-4의 MMLU 성적은 77.0% 정확도로, GPT-3.5(Instruct-GPT)가 영어로 MMLU를 추론하였을 때의 성적인 70.1점보다도 높은 성적임을 확인할 수 있다.

 

 

 

안전성의 강화

GPT-4의 alignment와 safety 측면을 위해 OpenAI는 6개월간의 연구 기간을 가졌다고 한다.

그 결과 내부적으로 평가해 보았을 때 GPT-4는 ChatGPT에 비해

 

  • 허용되지 않은 콘텐츠에 대한 요청에 응답할 가능성이 82% 낮고
  • 사실적인 응답을 생성할 가능성이 40% 더 높다

 


무엇이 GPT-4를 강력하게 만들었는가

알려진 것

  1. 사람의 피드백을 통한 학습: OpenAI는 GPT-4를 개선하기 위해 ChatGPT 사용자가 제출한 피드백을 포함하여 더 많은 인간 피드백을 통합하여 활용했다. 또한 50명 이상의 전문가와 협력하여 AI 안전 및 보안을 포함한 영역에서 초기 피드백을 수집하여 모델을 강화하였다.
  2. 실제 세상에서의 활용으로부터 지속적인 개선: ChatGPT가 이목을 끌며, 전 세계 사용자들의 사용 패턴으로부터 OpenAI는 다양한 교훈을 수집했을 것으로 생각된다. OpenAI는 이러한 실사용으로부터 얻은 lesson-learned를 적용하여 GPT-4의 safety에 대한 연구와 모니터링 시스템에 반영했다고 한다. 그리고 GPT-4가 사용됨에 따라 시스템을 정기적으로 업데이트하고 개선할 예정이라고 했다.
  3. GPT-4를 활용한 안전성 연구: GPT-4의 진보된 추론 능력과 지시사항에 따라 행동하는 능력을 활용하여 안전성 확보에 대한 연구를 가속화할 수 있었다. GPT-4를 사용하여 모델 fine-tuning을 위한 학습 데이터를 생성하고 이를 활용해 모델을 학습하고 평가하며 모니터링하는 분류기를 만드는 과정을 반복하였다.

 

알려지지 않은 것

  1. 모델 파라미터 수: GPT-4에 사용한 모델의 파라미터 수는 공개되지 않았다. 100조 개의 파라미터를 사용한 GPT-4가 발표될 것이라는 소문이 있기도 했지만, OpenAI는 파라미터 개수에 대한 공식 입장을 발표하지 않았다.
    (ChatGPT가 1750 파라미터의 GPT-3.5 기반으로 구축된 모델인 것을 감안할 때 GPT-4은 비슷한 파라미터 규모에 피드백을 통한 강화학습을 엄청나게 진행하였거나, 이미지 인식을 위한 추가 파라미터가 수천억 개 수준으로 추가되지 않았을까, 생각해 본다.)
  2. 멀티모달 인풋에 대한 모델 구조: GPT-4가 이미지를 어떤 방식으로 입력받아 처리하는지, 모델 구조에 대해서도 현시점으로는 블랙박스인 상황이다.  

GPT-4 비즈니스 유즈케이스

  • Duolingo : Duolingo는 제2외국어 학습을 위한 애플리케이션이다. 5천만 명이 넘는 사용자들이 매월 Duolingo를 사용하고 있으며, 이 애플리케이션은 100가지가 넘는 교육과정에 대해 40개의 언어를 지원하고 있다. GPT-4은 이 애플리케이션에서 더 깊은 대화가 가능하도록 <역할극>과 <AI 대화 상대> 기능을 지원하고 있다.  
  • Be My Eyes : Be My Eyes는 2억 5000만 명이 넘는 시각 장애인, 혹은 저시력자를 위한 기술을 개발하고 있다. 이 스타트업 업체에서는 제품을 확인하거나 공항에서 길을 찾는 등의 일상생활에 대해 시각장애인이나 저시력자를 도울 수 있는 자원봉사자들을 연결해 준다. 여기서 Be My Eyes는 GPT-4의 이미지 인풋 능력을 활용하여 사람 자원봉사자 수준에 해당하는 문장을 생성하고 상황을 이해하는 가상 봉사자(Virtual Volunteer)를 개발하고 있다. 
  • Stripe : Stripe는 GPT-4를 사용해 사용자 경험을 간소화하고 사기 행위를 방지하고자 한다.
  • Morgan Stanley : Morgan Stanley 자산 관리사는 방대한 지식 시스템을 관리하기 위해 GPT-4를 활용한다. 작년부터 모건 스탠리는 GPT의 임베딩 및 검색 기능(GPT-3로 시작해 현재는 GPT-4를 활용하고 있음)으로 지적 자본을 활용하는 방법을 모색하기 시작했다. 이 모델은 자산 관리 콘텐츠에 대한 포괄적인 검색을 수행하고 "모건 스탠리 자산 관리의 축적된 지식을 효과적으로 활용"하는 임직원용 챗봇을 지원한다. 
  • Khan Academy : Khan Academy는 어디서나 누구에게나 무료로 세계적 수준의 교육을 제공한다는 사명을 가진 비영리 단체로, 모든 연령대의 학생들에게 수학, 과학, 인문학에 대한 수천 개의 수업을 제공한다. 하지만 학생마다 특성이 다르기 때문에 때로는 step-by-step 도움을 제공할 필요가 있다. 오늘날 Khan Academy에서는 파일럿 프로그램을 통해 GPT-4를 활용한 교육의 가능성을 모색하고 있다.
  • Government of Iceland : 아이슬란드는 언어를 보존하기 위해 GPT-4를 활용한다. 오늘날, 아이슬란드의 37만 시민이 영어 등 제2외국어를 사용하는 가운데 모국어인 아이슬란드어가 사실상 소멸될 수 있다는 우려가 증가하고 있다고 한다. 이에 아이슬란드 정부는 오늘날 새롭게 등장하는 개념에 대해 다른 언어들로부터 "대여한 단어"를 채택하는 대신, 아이슬란드어 고유 용어를 만들어내자는 언어 계획 부서를 운용하고 있다. 예를 들어, <컴퓨터>는 아이슬란드어로 "숫자 예언자"라는 뜻을 지니는 <튈바>라고 부르는 식이다. 이러한 노력을 통해 아이슬란드 고유의 특성이나 고대 노르드어 어원을 보존할 수 있는데, 여기에 OpenAI와 협력하여 GPT-4를 아이슬란드어 보존에 대한 노력에 사용하려고 하고 있다. 

 


참고 문서