AKR20251116051700017_01_i_P4_20251117061314922.jpg?type=w800

다수 벤치마크서 챗GPT 5.0보다 높은 점수
낮은 훈련비 주장에도 데이터 공개 부족은 한계


키미 홈페이지 [kimi.com 홈페이지 캡처]

(서울=연합뉴스) 나확진 기자 = 알리바바와 텐센트가 투자한 중국 인공지능(AI) 기업 문샷AI가 최근 내놓은 오픈소스 대형언어모델(LLM) '키미 K2 씽킹(Kimi-K2-Thinking)'이 글로벌 업계의 시선을 끌고 있다.

공개 직후 주요 국제 벤치마크에서 챗GPT 5.0과 앤트로픽의 '클로드 소네트 4.5'를 제친 결과가 잇달아 나오면서, 저비용·고효율 모델의 재부상을 알리는 것 아니냐는 분석도 나온다.

'키미 K2 씽킹'이 주목받는 이유는 성능뿐만이 아니다. 모델 훈련비가 올해 초 '딥시크(V3)'를 공개하며 시장을 뒤흔든 중국 대표 LLM 딥시크보다도 낮은 것으로 알려지면서, 오픈소스 모델이 다시 프론티어 모델과 어깨를 나란히 할 수 있다는 기대감이 커지고 있다.

추론·검색에서 GPT5 앞서…벤치마크 수치로 드러난 성능 문샷AI는 지난 6일 홈페이지를 통해 키미 K2 씽킹을 공식 공개했다.

지난 7월 '키미 K2'를 발표한 뒤 넉 달 만에 업그레이드 버전을 다시 내놓은 것으로, 문샷AI가 지난해부터 강조해온 '효율 최적화 모델' 전략이 본격적으로 속도를 내는 모습이다.

국내 이용자도 키미 사이트에 접속하면 곧바로 사용해볼 수 있다. 대화형 모델 기반이라 챗GPT와 사용 방식은 비슷하며 한국어 처리에서도 큰 불편은 없는 것으로 보인다.

공개된 성능 지표를 보면 상승 폭은 더 눈에 띈다.

다양한 분야의 추론·창의적 사고 능력을 평가하는 HLE 테스트에서 '키미 K2 씽킹'은 '도구 사용 모드' 기준 44.9점을 기록했다. 같은 조건에서 챗GPT 5.0은 41.7점, 클로드 소네트 4.5는 32.0점, 딥시크 V3.2는 20.3점이었다.

웹 검색 능력을 평가하는 '브라우즈콤프'에서도 K2 씽킹은 60.2점으로 챗GPT 5.0(54.9점)과 클로드 소네트 4.5(24.1점)를 앞섰다. 최신 정보를 얼마나 잘 수집하는지를 평가하는 'Seal-0' 테스트에서도 두 모델보다 높은 점수를 기록했다고 문샷AI는 밝혔다.

다만 모든 영역에서 우위에 선 것은 아니다.

코딩 능력을 평가하는 SWE 벤치마크에서는 여전히 챗GPT 5.0과 클로드 소네트 4.5에 못 미치는 점수를 받았다.

기술 업계에서도 "추론과 검색에 최적화된 모델"이라는 평가와 함께 "범용성 면에서는 아직 판단을 더 유보해야 한다"는 신중론이 병존한다.

문샷AI 홈페이지[홈페이지 캡처]

성과 대비 비용 '주목'…실제 활용은 아직 미지수 문샷AI의 훈련비용도 화제를 모았다.

CNBC는 소식통을 인용해 키미 K2 씽킹의 훈련 비용이 460만 달러(약 67억 원) 수준이라고 전했다. 이는 수십억 달러 규모로 추정되는 오픈AI의 모델 훈련 비용은 물론 딥시크가 밝힌 560만 달러보다도 적은 금액이다.

다만 전문가들은 "해당 비용이 전체 연구개발비인지 특정 학습 라운드 비용인지 명확하지 않다"며 "훈련비만 놓고 모델 효율성을 단정하기는 어렵다"고 지적한다.

그럼에도 업계에서는 키미 K2 씽킹이 제시한 '성능 대비 효율'이라는 메시지에 주목하는 분위기다.

중국 AI의 약진이 다시 한번 확인됐다는 해석도 있다.

반면 일부에서는 "벤치마크 성능이 실제 사용자 만족도나 서비스 품질과 반드시 비례하는 것은 아니다"라며 "K2 씽킹이 글로벌 AI 지형을 바꿀 모델인지 판단하려면 시간이 더 필요하다"고 평가했다.

국내 전문가들은 키미 K2 씽킹이 보여준 벤치마크 결과는 주목할 필요가 있다고 밝혔다.

김근교 NC AI 글로벌사업실장은 연합뉴스와 통화에서 "키미 K2 씽킹은 오픈소스 모델이라 자유롭게 내려받아 활용할 수 있는 모델임에도 공신력 있는 벤치마크 테스트에서도 폐쇄형 프론티어 모델들과 어깨를 나란히 하는 수준의 성능과 높은 효율성을 보여 업계에서도 주목받고 있다"고 말했다.

김 실장은 "추론이나 검색 능력에서 성능이 높고 그에 드는 비용이 아주 적다는 점에서 올해 초 딥시크 모델 공개와 비슷한 상황"이라며 "다만 딥시크 때 중국 AI에 대한 인식에 큰 충격이 있었기에 현재는 그 정도의 이슈화는 되지 않는 것 같다"고 덧붙였다.

그러면서 "그동안 오픈AI나 구글 제미나이가 가장 앞서가고 중국 등 '오픈 소스' 진영이 따라가는 상황이었는데, 이제 곧 발표될 제미나이 새 버전 등에서 압도적 성능을 보여주지 못한다면 그동안 전개된 양상과는 다른 상황으로 흘러갈 수도 있다고 본다"고 말했다.

또 다른 국내 AI 업계 관계자도 "미국이 중국에 대해 GPU(그래픽 처리장치) 통제를 하는 상황에서 이 같은 성능이 나왔다는 건 엄청난 것"이라며 "우리 업계도 키미 K2 씽킹에 대해 연구해 볼 필요가 있다"고 말했다.

다만, 아직 키미 K2 씽킹에 대해 어떤 판단을 내리기에는 이르다는 의견도 있다.

박찬준 숭실대 소프트웨어학부 교수는 "벤치마크 성능이 꼭 사용자들의 만족성과 사용성과 비례하진 않는다"라며 "공개된 내용만으로는 아직 AI 업계 지형을 바꿀 정도로 엄청난 효율이 있다고 단정하기는 좀 어려워 보인다"라고 말했다.

rao@yna.co.kr