0002210115_001_20251120070011377.JPG?type=w800

[스냅드래곤X딥다이브] 우펜드라 쿨카르니 부사장 "AI가 운영체제가 되는 순간"
우펜드라 쿨카르니 퀄컴 제품 매니지먼트 부사장은 12일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 AI가 PC 내부에서 어떻게 작동하는지를 설명하면서 PC 아키텍처 자체가 NPU를 중심으로 다시 짜여야 한다고 강조했다.


[샌디에이고(미국)=디지털데일리 김문기기자] AI가 곧 운영체제(OS)가 되는 에이전틱 AI PC 시대.

우펜드라 쿨카르니 퀄컴 제품 매니지먼트 부사장은 12일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 AI가 PC 내부에서 어떻게 작동하는지를 설명하면서 PC 아키텍처 자체가 NPU를 중심으로 다시 짜여야 한다고 강조했다.

쿨카르니 부사장은 먼저 PC에서 AI가 차지하는 비중이 이미 과거의 ‘특정 순간 호출되는 기능’이 아니라는 점을 강조했다. 현재 AI는 OS 내부에서 상시로 돌아가며, 사용자가 명확하게 인식하지 못하는 부분까지 관여하고 있다.

마이크로소프트의 ‘리콜(Recall)’ 기능은 이런 변화를 상징적으로 보여준다는 것. 화면에 표시되는 모든 정보를 실시간으로 분석하고, 텍스트를 추출하며, 이를 다시 벡터화해 장기적으로 축적하는 기능이다. 단순해 보이지만 구성 자체가 무겁다. 고해상도 이미지 입력, OCR, 임베딩 생성, 로컬 데이터베이스 업데이트가 24시간 수행되며, 시간이 지날수록 사용자의 ‘지식 그래프’가 성장한다.

쿨카르니 부사장은 “겉으로는 단순해 보이지만 뒤에서는 무거운 AI 파이프라인이 계속 돈다”고 설명했다. 이 말은 결국 CPU나 GPU 같은 기존 엔진으로는 이런 작업을 지속적으로 유지하기 어렵다는 뜻이다.

우펜드라 쿨카르니 퀄컴 제품 매니지먼트 부사장은 12일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 AI가 PC 내부에서 어떻게 작동하는지를 설명하면서 PC 아키텍처 자체가 NPU를 중심으로 다시 짜여야 한다고 강조했다.


CPU는 분기와 제어에 최적화돼 있고, GPU는 많은 연산이 가능하지만 에너지와 발열에서 불리하다. PC가 하루 종일 AI를 켜고 그 위에서 일반 앱과 그래픽 작업까지 모두 동시에 수행해야 한다면, 연산량이 아니라 지속 가능한 전력 효율이 더 중요해진다.

이 지점에서 NPU라는 구조가 의미를 갖는다. 쿨카르니 부사장은 이 점을 설명하기 위해 CPU·GPU·NPU의 역할을 다시 나열했다. PC AI의 규모가 커질수록 이 차이는 오히려 더 핵심적인 기준이 된다. 동일한 TOPS라도 GPU는 지속 시나리오에서 성능 유지가 어렵고, NPU는 구조적으로 낮은 전력에서 같은 수준의 연산을 반복할 수 있다.

우펜드라 쿨카르니 퀄컴 제품 매니지먼트 부사장은 12일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 AI가 PC 내부에서 어떻게 작동하는지를 설명하면서 PC 아키텍처 자체가 NPU를 중심으로 다시 짜여야 한다고 강조했다.


이번 발표에서 공개된 프로시온 AI(Procyon AI) 벤치마크가 이를 보여주는 지표다. 퀄컴에 따르면 비슷한 TOPS를 가진 GPU보다 NPU가 3~4배 높은 성능/W를 기록했다. 숫자만 보면 단순 비교지만, PC라는 물리적 조건을 고려하면 차이는 훨씬 크다.

우펜드라 쿨카르니 퀄컴 제품 매니지먼트 부사장은 12일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 AI가 PC 내부에서 어떻게 작동하는지를 설명하면서 PC 아키텍처 자체가 NPU를 중심으로 다시 짜여야 한다고 강조했다.


그는 PC에서 활용되는 AI가 세 단계로 진화하고 있다고 말했다. 이미지 인식 중심의 ‘퍼셉티브 AI’, 생성 모델의 확산으로 만들어진 ‘제너레이티브 AI’, 앞으로 중심이 될 ‘에이전틱 AI’다.

에이전틱 AI는 목표 단위로 작업을 처리하는 방식이다. 여러 개의 모델이 협력하고, 작업을 스스로 분해하고, 전체 맥락을 이해하며, 장기 메모리를 유지한다. 사용자의 입력을 즉시 처리하는 단일 모델 구조가 아니라, 복수의 모델이 협업하는 방식이 기본이 된다.

쿨카르니 부사장은 이런 환경에서 필요한 연산량을 ‘지속 가능한 150~300TOPS 수준’으로 제시했다. 단일 모델을 빠르게 돌리는 일이 아니라, 여러 모델이 동시에 돌아가며 PC의 전체 흐름을 만들어야 하기 때문이다.

우펜드라 쿨카르니 퀄컴 제품 매니지먼트 부사장은 12일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 AI가 PC 내부에서 어떻게 작동하는지를 설명하면서 PC 아키텍처 자체가 NPU를 중심으로 다시 짜여야 한다고 강조했다.


이 지점에서 퀄컴은 단순 하드웨어를 넘어 전체 소프트웨어 스택을 재구성하는 전략을 택했다. 쿨카르니 부사장은 “빠른 NPU를 넣는 것만으로 AI PC가 만들어지는 것이 아니다”라고 말했다.

OS, API, 런타임, 프레임워크, 드라이버가 모두 동일한 성능을 내도록 구조를 통일해야 한다는 주장이다. 윈도우(Windows) ML과 퀄컴 AI 엔진 다이렉트를 예로 들며, 어느 경로를 통해서든 개발자와 사용자가 동일한 성능을 경험해야 생태계가 성장할 수 있다고 설명했다. 다른 업체들이 고성능을 자체 API에만 풀어두는 것과 달리, 퀄컴은 모든 API 경로에서 동일한 성능을 제공하는 방식을 채택했다.

AI 이네이블먼트(AI Enablement) 실효성을 보여주는 데모도 이어졌다. 가장 직관적인 부분은 13페이지짜리 문서를 LLM으로 요약하는 시연이다. 스냅드래곤 X2 엘리트는 입력과 동시에 첫 토큰을 생성했지만, X 엘리트는 약 7~8초를 기다린 후에야 첫 응답이 나왔다. 모델이 작을수록 이런 차이는 더 크게 드러난다.

쿨카르니 부사장은 이를 단순한 연산 차이가 아니라 “오프로딩·드라이버·런타임 최적화의 차이”라고 설명했다. NPU가 빨라지면 병목이 엔진 내부가 아니라 외부에 생긴다는 뜻이다. 때문에 퀄컴은 소프트웨어 전층을 함께 최적화하는 접근을 강조하고 있다.

그는 또 하나의 장면을 보여줬다. 스마트폰에 “문서 요약해줘”라고 요청하면, PC가 백그라운드에서 문서를 분석해 요약하고, 결과를 다시 스마트폰으로 돌려주는 방식이다. 로컬–모바일–클라우드로 이어지는 에이전틱 AI의 실제 흐름을 보여주는 사례다. 앞으로 PC AI가 단일 디바이스 내부에 머물지 않고 크로스 디바이스 중심으로 진화할 가능성을 보여주는 데모이기도 하다.

우펜드라 쿨카르니 퀄컴 제품 매니지먼트 부사장은 12일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 AI가 PC 내부에서 어떻게 작동하는지를 설명하면서 PC 아키텍처 자체가 NPU를 중심으로 다시 짜여야 한다고 강조했다.


결과적으로 그는 AI PC는 더 빠른 연산 유닛을 넣는 경쟁으로 가는 것이 아니라, 낮은 전력에서 지속적으로 AI가 동작할 수 있는 구조를 먼저 확보해야 한다고 강조했다.