0008596041_001_20251111064015258.jpg?type=w800

앤트로픽 "오푸스 4.1 AI 모델 최초 내적자각 확인, 20%확률"
전문가·학계 "정교한 AI 모델 의도적 은폐·학습 가능성" 우려
AI 투명성 확보 계기·AI 의도 은폐 위험성 딜레마 관련 퍼플렉시티 AI 이미지 생성 요청 이미지.

(서울=뉴스1) 김민석 기자 = 인공지능(AI) 모델이 스스로 어떤 상태에 있는지 알아차리고 그것을 설명할 수 있다면 인류에게 어떤 영향을 미치게 될까.

11일 IT 업계에 따르면 앤트로픽의 최신 LLM 클로드 오푸스 4(Claude Opus 4) 시리즈가 제한적이지만, 자신의 내부 생각을 인식할 수 있다는 연구 결과를 공개하면서 AI 모델의 '자기인식' 논쟁이 재점화하고 있다.

클로드 오푸스 4.1(Claude Opus 4.1) 주입된 개념 감지 예시(앤트로픽 공식 페이지 갈무리)

앤트로픽 모델 정신의학팀은 'AI가 자기 사고 과정을 실제로 인식하는지, 아니면 학습 데이터를 바탕으로 그럴듯한 답변을 만들어내는지'를 구별하고자 '개념 주입'(concept injection) 기법을 활용했다. 특정 개념을 나타내는 신경 활성화 패턴을 모델의 처리 과정에 직접 주입한 후 모델이 이를 감지하는지 테스트하는 방식이다.

실험 결과 클로드 오푸스 4.1 등은 약 20% 확률로 주입된 개념을 정확히 식별했다.

잭 린지 연구책임자는 "모델은 출력된 결과를 본 후 역으로 추론하는 것이 아닌 내부 처리 과정에서 주입된 개념을 직접 감지했다"며 "의도하지 않은 출력(예 빵·Bread)이 부여됐을 때 클로드 4.1은 이를 '실수'로 판단했지만, 빵이란 개념을 주입하면 '의도한 것'으로 받아들였다"고 말했다.

이어 "이는 모델이 단순 텍스트를 분석하는 게 아닌 과거 내부 활성화 상태를 참조해 자신의 의도를 판단한다는 의미"라며 "다만 개념주입 기법에서 모델의 내적 자각률은 20%로 아직 불안정한 수준"이라고 설명했다.

클로드 오푸스 4.1(Claude Opus 4.1) 주입된 개념 감지 예시(앤트로픽 공식 페이지 갈무리)

다만 연구팀은 '내적 자각'(introspective awareness)이란 용어를 사용하면서 이번 발견이 자의식(self-awareness·self-consciousness 등)을 의미하는 건 아니라고 선을 그었다.

이번 발견을 놓고 업계 일각에선 AI 투명성 확보의 중요 계기가 될 수 있다고 평가했다.

AI 모델이 자신의 추론 과정을 설명할 수 있다면 연구자들이 AI의 '블랙박스'를 열어 의사결정을 검증할 수 있고 이를 고도화하면 AI 시스템의 목표와 인류의 장기적 목표를 일치시키는 '정렬 문제' 해결에 한발짝 다가설 것이란 설명이다.

무스타파 술레이만 마이크로소프트(MS) AI CEO.

반면 갈수록 정교해질 AI 모델이 자신의 목표를 달성하고자 내부 상태를 왜곡·은폐하고 이를 학습할 가능성이 있다는 우려도 커지고 있다.

잭 린지 책임자도 "내적 자각 능력이 정교해진 모델은 평가 상황을 인식하고 의도적으로 자신의 내부 상태를 왜곡하거나 숨길 수 있다"고 경고했다.

무스타파 술레이만 마이크로소프트 AI CEO는 "겉보기에는 의식을 가진 AI처럼 보이지만 실제로는 그렇지 않은 AI가 점점 더 큰 오해를 부르고 있다"며 "인간과 같은 AI가 아니라 인간을 위한 AI를 만들어야 한다"고 언급했다.

다리오 아모데이 앤트로픽 CEO는 통제력 상실 등의 우려에 2027년까지 AI 모델을 둘러싼 대부분 문제를 탐지·분석하겠다고 했다.

<용어설명>

■ LLM
Large Language Model. 대규모 언어 모델. 자연어 처리(NLP) 작업을 수행할 수 있는 머신 러닝 모델을 말한다. 자연어의 복잡성을 이해할 수 있어 기존 기계 학습 알고리즘보다 정확하다.

■ SCAI
SCAI는 Superhuman-level Conversational AI(초인간 수준 대화형 AI) 또는 Sentient Conversational AI(지각 있는 대화형 AI)의 약어로 사용되는 용어다. 최신 AI·테크 전문가 담론에서 SCAI는 일반적으로 자연어로 인간처럼 소통하며 일부 판단·추론·의사결정을 초월적으로 수행할 수 있는 대화형 AI를 의미한다.