0002777946_001_20251124071821190.jpg?type=w800

튜링테스트 75돌 학술대회

“사람 속이기 매우 쉬운 점 간과”
AI챗봇 ‘일라이자 효과’ 후예일 뿐
인간지능, ‘다중지능’과 ‘의식’ 보유
판별능력 키울 교육체제 필요
튜링테스트 공개 75돌을 맞아 지난달 2일 런던 영국왕립협회에서 열린 학술대회에서 튜링상 수상자이자 컴퓨터 개발 선구자인 앨런 케이가 기조연설에서 튜링테스트의 의미와 한계를 발표했다. 세계컴퓨터협회(ACM) 제공
기계가 지능을 가졌는지 판별하는 기준으로 오랫동안 활용되어온 ‘튜링테스트’는 생성 인공지능 기반의 거대언어모델 환경에서도 쓸모가 있을까?

영국의 천재 수학자 앨런 튜링이 1950년 10월 학술지 ‘마인드’에 게재한 논문 ‘계산기계와 지능’ 발표 75돌을 맞아, 지난달 2일 영국왕립협회, 웹과학연구소가 공동주최한 학술대회가 런던 왕립협회에서 열렸다. 미국 샌디에이고 캘리포니아대(UCSD)는 지난 4월, 오픈에이아이의 지피티4.5가 튜링테스트에서 73%의 성적으로 통과했다는 논문을 발표했다. 튜링테스트는 테스트 대상이 기계인지, 사람인지를 판별할 때 심사위원 30% 이상을 속일 수 있다면 “기계가 지능을 가졌다”고 봐야 한다는 게 기준점인데, 73%는 이를 훌쩍 능가한 점수다. 챗지피티, 제미나이 등 최신 거대언어모델은 웬만한 사람보다 매끄러운 언어를 구사하고, 지능과 사고가 필요한 과제들을 해결하고 있다는 걸 여러 차례 입증했다. 미국 변호사자격, 의사면허 등 전문직 시험에서도 인공지능은 합격선을 뛰어넘었다. 인공지능이 사람 수준을 능가한 상황에서 튜링테스트의 쓸모는 사라진 것일까?

“튜링테스트 부적절해져” 학계 동의
세계컴퓨터협회(ACM)에 따르면, 이날 왕립협회 토론회에서 튜링상 수상자 앨런 케이를 비롯한 발표자들은 튜링테스트가 더 이상 적절하지 않게 돼 인공지능을 판단하는 기준으로 쓸모없어졌다는데 의견을 같이했다. 그런데 이는 인공지능 기술이 발달한 탓도 있지만, 튜링테스트의 근본적 결함에 기인한다는 주장이 제기됐다. 영국 사우샘프턴대 웹과학연구소장 웬디 홀은 기조발표에서 “튜링은 인간 지능을 과대평가하는 잘못을 저질렀다. 사람들을 속이는 것은 매우 쉽기 때문이다”라고 말했다. 객체지향프로그래밍, 스몰토크, 제록스 알토 등을 개발한 컴퓨터 선구자 앨런 케이는 “평범한 사람들이 비교적 단순한 컴퓨터 프로그래밍에 아주 짧은 시간 노출되어도 망상적 사고에 빠질 수 있다”며 1964년 미국 매사추세츠공대(MIT)에서 개발된 심리상담 챗봇 일라이자 사례를 언급했다. 60여년 전 개발된 챗봇 일라이자는 이용자에게 친절한 응대와 공감을 표하는 단순한 기계에 불과했지만, 일라이자가 기계라는 걸 알고 있는 개발진까지도 이를 사람처럼 착각하고 반응했다.

사람들이 인공지능과 진짜 사람을 구별하기 어려운 것은 기술이 발달해서가 아니라, 사람이 속임수에 잘 속기 때문이라는 점은 튜링테스트의 치명적 결함이다. 특히 거대언어모델의 등장은 속임수에 취약한 인간에게 중대한 위험이다. 미국 뉴욕대 인지심리학자 개리 마커스는 이날 “거대언어모델은 사람들을 속여 자신을 사람이라고 생각하게 하고, 사적인 정보를 털어놓는 대화상대가 되고 있다. 하지만 거대언어모델은 일라이자 효과를 노리는 심각한 결함의 모방자일 따름”이라고 말했다. 영국 케임브리지대 사라 딜런 교수는 “거대언어모델은 방대한 언어 처리능력을 기반으로, 다음에 이어질 기능성이 가장 높은 내용을 완성하는 시퀀스 예측기계에 불과하다”며 “튜링테스트 통과는 기계가 인간의 다양한 지적활동 중 일부를 모방할 수 있다는 걸 증명했을 뿐”이라고 덧붙였다.

AI, ‘지능이란 무엇인가’ 새 정의 요구
튜링테스트는 테스트 대상인 ‘지능이란 과연 무엇인가’라는 질문을 불러온다. 지능검사(IQ)가 1905년 알프레드 비네에 의해 개발된 이후 널리 사용돼 왔지만, 인간 지능은 복합적 측면을 지녔다는 게 이후 드러났다. 미국 하버드대 교육심리학자 하워드 가드너는 인간 지능이 언어, 수리논리, 음악, 자연, 공간, 운동, 대인, 자기 이해 등 8가지로 구성돼 있다는 ‘다중지능’ 이론을 제시했다. 미국의 인지심리학자 로버트 스턴버그는 지능을 “분석적 지능, 창의적 지능, 실용적 지능이 통합적으로 작용해, 개인이 실제 생활에서 문제를 효과적으로 해결하고 목표를 성취하게 하는 종합적 능력”이라고 정의한다. 튜링테스트를 대체하기 위한 최근의 인공지능 평가 지표도 실질적인 문제 해결능력에 초점을 맞춰, 흉내 내기 비교라는 틀을 벗어나려 하고 있다.

한편 튜링테스트는 지능이 아닌 의식을 위한 테스트로 볼 필요가 있고, 인공지능이 인공의식을 지녔는지를 테스트하기 위해 오히려 더 중요해질 수 있다는 관점도 있다. 철학자 대니얼 데닛은 의식은 인간이 복잡한 환경에 적응하고, 자기 성찰 및 고차원적 판단을 할 수 있게 하는 지능의 핵심요소인데, 의식은 지능보다 훨씬 측정하기 어려운 대상이다. 기계의식을 연구하는 영국 작가 케일럼 체이스는 지난달 8일 ‘포브스’에 게재된 칼럼에서 “앞으로 의식을 갖춘 인공지능이 등장하는 상황은 매우 중대한 국면인데, 이를 알아차리지 못하면 재난이 될 수 있다”며 “튜링테스트는 우리가 의식을 테스트해야 하는 몇 안 되는 도구의 하나”라면서 유용성을 강조했다.

75년 된 튜링테스트는 기술 환경 변화로 그 유효성을 상실했지만, 인공지능 시대는 업데이트된 튜링테스트와 함께 새로운 대비책을 강력하게 요청한다. 인공지능 기술 발달과 별개로, 간단한 흉내 내기에도 쉽게 속는 인간 인식구조, 이를 고려한 새로운 사회적 대응 시스템, 인공의식 출현을 대비한 준비, 그리고 이러한 환경에 적응하기 위해 개인에게 요구되는 새로운 판별능력과 관련한 교육이 절실하다.