0008614761_001_20251120070025177.jpg?type=w800

키미K2씽킹 주요벤치마크 1위 등극에 美빅테크 '이건 못참지'
GPT 5.1·그록4.1·제미나이3 쏟아져 격전…美中 격차는 축소
키미-K2-씽킹'(Kimi-K2-Thinking)

(서울=뉴스1) 김민석 기자 = 중국 인공지능(AI) 스타트업 문샷AI가 최근 공개한 오픈소스 추론 LLM 모델 '키미-K2-씽킹'(Kimi-K2-Thinking)이 올해 초 '딥시크 모먼트'를 떠오르게 할 정도로 AI 성능 경쟁을 격화시키고 있다.

20일 IT 업계에 따르면 문샷AI는 이달 6일 키미 K2 씽킹을 공개하며 오픈AI의 'GPT-5'와 앤트로픽의 '클로드 소넷 4.5' 등 선두 모델을 여러 벤치마크에서 능가했다고 주장했다.

실제로 출시 당시 키미 K2 씽킹은 특정 분야에서 인간 전문가의 수행능력과 얼마나 근접한지 평가하는 HLE(인간 수준 평가) 테스트서 44.9점을 받아 △오픈AI GPT-5(41.7점) △클로드 소넷 4.5(32점) △딥시크 V3.2(20.3점) 등보다 앞섰다.

웹 검색 능력을 평가하는 '브라우즈콤프'서도 키미 K2 씽킹이 60.2점으로 △GPT-5(54.9점) △클로드 소넷 4.5(24.1점) △V3.2(40.1점)보다 점수가 높았다. 다만 코딩 능력을 평가하는 SWE 벤치마크에서는 GPT-5와 소넷 4.5에 미치지 못했다.

CNBC는 이 모델의 훈련 비용은 460만 달러(약 67억 원)에 불과했다고 추정하며 비용 효율성도 부각했다. 다만 문샷AI는 공식적인 수치가 아니라고 부인했다.

ⓒ News1 김지영 디자이너

업계에선 딥시크와 알리바바그룹의 '큐원(Qwen) 시리즈'에 이어 중국 AI 모델의 약진이 또 한번 확인됐다는 평가가 나왔다.

오픈AI는 키미 K2 씽킹 출시 일주일만인 이달 13일 GPT-5의 업그레이드 버전인 'GPT-5.1'을 공개했다. 오픈AI는 GPT-5.1이 수학·코딩 벤치마크에서 유의미한 성능 향상을 확인했다고 설명했다.

오픈AI는 여러 이용자가 동시에 챗GPT와 대화하며 협업할 수 있는 '그룹 채팅' 기능을 한국·일본·대만·뉴질랜드 등 일부 국가에 시범도입했다.

그록 4.1(Grok 4.1)

일론 머스크의 xAI도 17일(현지시간) '그록 4.1'(Grok 4.1)을 공개하며 맞불을 놨다.

그록 4.1은 즉각적인 응답을 제공하는 '그록 4.1'(코드명:tensor)과 심층적 사고를 지원하는 '그록 4.1 씽킹'(quasarflux)으로 구성됐다. 두 모델은 여러 벤치마크에서 오픈AI·앤트로픽·구글 등 경쟁 모델들을 제치고 잠시 동안 1~2위권에 올랐다.

FILE PHOTO: Illustration shows Gemini logo ⓒ 로이터=뉴스1

그록 4.1 출시 직후 이번엔 구글이 차세대 AI 모델 '제미나이3'(Gemini3)를 출시하며 세계 최고 수준 성능의 모델이라고 강조했다. 제미나이3는 제미나이2.5 공개 이후 약 8개월 만에 선보인 최신 버전이다.

제미나이3는 인간 최후의 시험(Humanity's Last Exam·HLE) 벤치마크에서 37.4점을 기록했다. 이는 GPT-5.1과 클로드 소넷 4.5를 앞서는 수치다.​

구글은 연구용 확장 버전 '제미나이3 딥싱크'(DeepSync)'도 조만간 공개할 예정이다.

미국 현지에선 제미나이3 출시에 그록 4.1은 출시하자마자 관심에서 멀어지는 상황에 놓였다는 평가가 나오고 있다.

한편 미·중 AI 모델 성능 격차는 실제로 빠르게 좁혀지고 있다. 스탠퍼드대 인간중심AI연구소(HAI) 보고서에 따르면 2024년 1월 중국과 미국 최상위 모델 간 성능 격차는 103점이었지만 올해 2월엔 23점으로 축소됐다. MMLU 벤치마크에서는 2023년 20%포인트 차이가 2024년 말 0.3%포인트로 급감했다.

딥시크는 18일(현지시간) 학술전문지 네이처에 동료심사를 거친 논문을 통해 R1의 훈련 비용이 29만4000달러(약 4억 원)라고 처음 밝혔다. 오픈AI가 2023년 "1억 달러 이상"이라고 밝힌 기초 모델 훈련 비용과 비교하면 약 0.3%(300분의 1 수준)이다.

<용어설명>

■ MMLU
MMLU-Pro는 대규모언어모델(LLM)의 성능을 평가하기 위해 개발된 최신 멀티태스크 언어 이해 벤치마크다. 기존 MMLU 대비 한층 더 어려운 추론 중심 문제와 현실적인 오답 선택지가 대폭 추가돼 모델의 진짜 지적 능력을 엄격하게 테스트한다.