본문 바로가기

AI

인공지능의 시대, 튜링 테스트를 넘어선 새로운 비전이 필요하다

The Turing Test is obsolete. It's time to build a new barometer for AI

... written by Rohit Prasad, head scientist of Alexa at Amazon

 

 

** 원본 출처: Fast Company

** 아래 포스팅은 원본 칼럼을 번역 & 일부 요약한 내용입니다.


컴퓨터 과학의 아버지 앨런 튜링이 튜링 테스트에 대한 개념을 제안한 <기계는 생각할 수 있는가, Can machines think?>가 출간된 지 71년이 지났다. 이 테스트의 목표는 기계가 사람과 구분할 수 없는 만큼의 대화를 진행해할 수 있는지를 판단하는 것이다. 튜링은 2000년에는 인간은 기계와 인간을 구분하는 이 태스크에 있어 70% 미만의 정답률을 달성할 것이라고 예견했다.

 

<튜링 테스트 개요>

하지만 예견된 시점에서 20년이 지난 오늘날까지도, 이 테스트를 통과한 인공지능은 없다.

 

칼럼의 저자인 로히트 프라사드 아마존 연구소 알렉사 부사장은 이 테스트가 AI 연구자의 연구에 자극점이 되기에 유용하지 못하다고 주장한다. 오늘날 AI는 핸드폰, 자동차, 집 등 어디에나 존재하며, 사람들은 기계와 소통하는 행위가 유용하고, 원활하면서도 투명할 것을 요구한다. 즉, 기계과 인간과 구별하기 어려워야 한다는 컨셉이 진부해진 것이다. 

 

 

[ 튜링 테스트라는 상상은 진부하다 ]

튜링테스트는 제안된 이래로 연구자들의 도전 대상이었고, 2014년에는 유진 구스트만이라는 챗봇이 최초로 튜링 테스트를 통과했다며 큰 주목을 받기도 했다. 하지만 판정단의 30%를 속여야 통과라는 기준 자체도 임의적이고, 이외에도 이 챗봇의 대답은 모순이 많았다는 비판이 있다. 

 

그럼에도 불구하고 튜링테스트는 여전히 모종의 <최고의 가치>로 인정받는 듯하며, 최근 발표된 최고 성능의 언어모델인 GPT-3에 대해서도 모델이 튜링 테스트를 통과할 수 있는지 여부에 대해 쓴 기사가 헤드라인을 장식하기도 했다. 많은 사람들이 아마존의 AI스피커 알렉사에 대해 "알렉사는 언제 튜링 테스트를 통과할 수 있을 것이냐"라는 질문을 던지기도 한다. 하지만 과연 알렉사의 지능을 측정하는 방법으로 이 테스트가 적합할까?

 

이 질문에 답하기 위해 튜링이 이 이론을 제기한 1950년으로 돌아가 보자. 당시는 최초의 상용 컴퓨터에 대한 판매조차 시작되지 않은 시절로, AI라는 분야가 적립되지 않았다. (AI는 1956년에 제안된 개념이다.) 오늘날 우리가 사용하는 휴대폰은 인류를 최초로 달에 데려다 준 아폴로 11호보다 10만 배 높은 컴퓨팅 성능을 가지고 있고, 클라우드 컴퓨팅과 같은 기술과 결합하면 어마어마한 양의 데이터를 단지 몇 초 만에 처리할 수가 있다. 

 

 

튜링이 상상했던 기계 지능에 대한 비전은 여전히 인상적이지만, AI의 진보에 있어 한계점이 존재한다. 

첫째, 튜링테스트는 AI가 가지는 <기계다운> 장점들 - 빠른 계산과 정보 검색 등의 가치를 평가절하한다. 

  • 예컨대 기계는 튜링 테스트를 통과하기 위해 "9384 x 134는 뭐야?" "개성공단에서 서울까지 거리는 얼마지?"와 같은 질문에 대해 "모르겠네요"라는 대답을 하는 것이 가장 합리적일지 모른다.
  • 하지만 오늘날 기계는 효율적이다. AI는 위의 질문에 대해 즉각적으로 대답할 수 있다. 이러한 기술이 <인간답지 못할>지라도  말이다.

둘째, AI는 듣고, 보고, 세상을 느끼는 감각을 진화하고 있는데 반해 튜링테스트는 여전히 텍스트로 대화하는 시절에 머물러있다.

 

오늘날 AI는 이런 능력을 통해 일상적인 일들을 효율적으로 처리하는데 도움을 준다. 우리가 AI스피커에게 "거실 불 꺼"라고 말을 건다면, AI는 해당 업무를 수행하고 "네, 완료되었어요"라는 시그널만 주면 된다. 심지어 스피커를 사용해 아이에게 책을 읽어주거나 어떤 주제에 대해 이야기를 하는 상황이라 할지라도, 대화하는 대상이 사람인지 스피커인지 구분이 되지 않는 상황을 원치는 않을 것이다. 사실 사용자를 인간과 구분할 수 없을 정도로 <속이는> 것은 위험하다. 로봇이 가짜 뉴스를 퍼뜨리고 다니는 상황을 원하는 것이 아니라면 말이다. 

 

 

[ 의미있는 AI 도전 과제란 ]

이제는 AI를 인간과 구별할 수 없도록 만드는 데에 집착하는 대신, 이제는 인간 지능을 돕고, 포괄적이며 공평한 의미에서 일상생활을 개선하는 데에 도움이 되는 AI를 만드는 것을 목표로 해야 한다. 즉, AI가 <인간의 지능과 유사한 속성> - 일반 상식, 자기지도학습, 언어적 유창성 등- 을 가지도록 하면서도 <기계다운 효율성> - 빠른 검색, 메모리 활용, 태스크 수행 - 을 결합하도록 해야 한다. 결과적으로는 다양한 태스크를 학습하고 수행하며, 새로운 환경에 적응하는, 그리고 이러한 능력이 일반적인 사람보다 뛰어난 AI를 만드는 것을 목표로 설정해야 한다. 

 

이렇게 초점을 맞추고 나면, AI 연구자가 중요하게 생각해야 할 것이 무엇인지가 보인다. 감각적인 이해, 대화, 넓고 깊은 지식, 효율적인 학습, 의사결정에 대한 추론, 불필요한 바이어스나 편견을 제거하는 것, 공정성 등이다. 이러한 기술이 진부했는가는 다양한 방법으로 측정할 수 있다.

  • 첫 번째 방법은 도전 과제를 그를 구성하는 과제들로 쪼개어 보는 것이다. 예를 들어 캐글의 "요약 추론 챌린지"에서는 AI가 이전에 보지 못했던 태스크에 대해 추론 태스크를 푸는 과제를 진행하고 있다.
  • 두 번째는 사람과 컴퓨터가 상호작용하는 대규모의 실제 세상에 대한 챌린지(real world challence)이다. 예를 들어 알렉사 프라이즈 소셜봇 챌린지는 대학생을 대상으로 대화형 AI 과제를 진행하고 있다. 

알렉사 프라이즈는 2016년에 시작되었는데, 경쟁력 있는 <소셜 봇>이라는 것을 어떻게 평가할 수 있을지에 대해 심도 있는 토론 과정을 거쳤었다. 소셜 봇은 마치 사람과 같아서, 튜링 테스트와 같은 테스트를 할 것이라고 설득해야 하는가? 아니면 AI가 학습을 하고, 오락을 제공하거나 그저 인사를 건네는 역할로 자연스럽게 대화할 가치가 있도록 만들기 위해 노력하고 있는 것일까?

 

결국 알렉사 프라이즈는 소셜봇이 20분 동안 오락, 스포츠, 정치, 기술을 아우르는 다양한 주제에 대해 인간과 조리인고 적극적으로 대화하도록 하는 시나리오를 선택했다. 개발부터 최종 단계에 이르기까지 고객은 <해당 소셜 봇과 다시 대화하고 싶은지>라는 기준에 따라 점수를 매기도록 하였다. 최종 대회에서는 독립적은 사람 평가자들이 봇의 일관성과 자연스러움을 5점 척도로 평가하였다. 그리고 20분 동안 사람과 대화하여 평균 4점 이상의 평가를 얻은 소셜 봇은 이 과제를 성취한 것으로 간주하였다. 아직 이 도전적인 과제에 성공한 봇은 없지만, 이러한 평가 방법은 AI가 딥러닝 기반의 뉴럴 모델의 힘을 사용해 인간과 같은 대화 능력을 가질 수 있도록 개발하는 것을 촉진한다. 이 평가방법에서는 AI가 유머를 구사하고, 적절한 공감 능력을 표현할 수 있음에 초점을 둔다. 단순히 <사람인 척>하는 것을 넘어서 말이다. 

 

 

알렉사같은 AI를 우리의 일상에서 사용하는 것은, AI의 진보를 측정할 수 있는 또 다른 기회이다. 이러한 AI 서비스는 알람을 맞추는 것과 같이 간단한 태스크부터 시작해서 주말 계획을 세우는 것 같은 복잡한 태스크에 이르기까지, 다양한 일상 태스크를 수행하기 위해 인간과 같은 대화 능력을 활용한다.

 

이는 대화형 AI를 넘어 "Ambient AI", 즉 필요할 때는 인간의 명령을 수행하고, 그들에게 필요한 것을 예상하며, 필요하지 않을 때는 보이지 않는 곳으로 사라지는 "주변형 AI"로 진화하도록 하는 것을 시사한다. 예를 들어 알렉사는 유리가 깨지는 소리를 감지하면, 인간에게 조취를 취할 수 있도록 경고를 준다. 취침 시간을 미리 설정해두면, 해당 시간에 전등이 켜져 있는 곳이 있다면 불을 끌 것을 제안하기도 한다. 

 

뿐만 아니라 AI는 더 많은 태스크들에 대해 전문성을 갖추도록 해야 하는데, 이는 각각의 태스크별로 학습을 하는 것이 아니라 일반화된 학습 능력을 갖추는 것을 의미한다. 따라서 AI에 있어 향후에는 대화를 넘어 선제적으로 사람을 지원할 수 있는가를 테스트하는 것이 가치있는 주제가 될 것이다.  

 

 

이 칼럼의 내용은 튜링이 가지고 있던 비전을 폄하하고자 함이 아니다. 튜링이 제안한 "이미테이션 게임"은 사고 실험으로 제안된 것이지, 실용성 있는 AI를 시험하기 위한 궁극의 테스트로 고안된 것이 아니다. 그럼에도 불구하고, 이제는 튜링 테스트를 넘어서 앨런 튜링이 가지고 있던 대담한 비전에 영감을 받아 인간을 돕는 AI 연구 개발에 박차를 가할 때이다. 

 


AI가 <인간답기>보다는 <AI>다워야 한다는 의견에 굉장히 공감이 된다. AI는 자원을 활용할 수 있는 최선의 능력을 발휘하여 인간 생활에 편의를 제공하고, 사람이 하는 일을 대체하기보다는 새로운 업무/영역을 창조하는 데에 기여해야 하며, 이로써 사람의 가장 인간다운 지점과 AI의 가장 효율적인 지점의 융합이 생활 수준 전반의 향상에 기여할 수 있는 연구를 하고싶다.