[스냅드래곤X딥다이브] 프라딥·알베르토 “오라이온은 100가지 혁신의 집합체”
프라딥 카나파티필라이(Pradeep Kanapathipillai) CPU 아키텍트이자 엔지니어링 부사장과 컴퓨트 소프트웨어 전략을 총괄하는 알베르토 마르티네즈(Alberto Martinez) 부사장은 11일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 CPU 설계 원리, 보안 아키텍처, 마이크로소프트 협업, 메모리 모델 등 다양한 기술적 질문에 직접 답했다.
[샌디에이고(미국)=디지털데일리 김문기기자] “이번 스냅드래곤 X2는 싱글스레드 성능과 멀티스레드 효율을 모두 달성하는 것을 목표로 했기 때문에, 별도의 저전력 전용 코어 없이도 충분한 효율성을 확보했다.”
“프라임(Prime)과 퍼포먼스(Performance) 코어의 조합이 이미 높은 동적 범위(dynamic range)를 제공한다. 다시 말해 전력 효율과 성능 간 균형을 이미 구조적으로 확보했기 때문에, 별도의 코어 세분화는 불필요했다.”
퀄컴이 스냅드래곤 X2 엘리트(Snapdragon X2 Elite)에 탑재된 오라이온(Orion) CPU의 설계 방향과 기술 세부사항을 묻는 질의응답에서 엔지니어 중심의 철학을 분명히 했다.
프라딥 카나파티필라이(Pradeep Kanapathipillai) CPU 아키텍트이자 엔지니어링 부사장과 컴퓨트 소프트웨어 전략을 총괄하는 알베르토 마르티네즈(Alberto Martinez) 부사장은 11일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 CPU 설계 원리, 보안 아키텍처, 마이크로소프트 협업, 메모리 모델 등 다양한 기술적 질문에 직접 답했다.
프라딥 카나파티필라이(Pradeep Kanapathipillai) CPU 아키텍트이자 엔지니어링 부사장과 컴퓨트 소프트웨어 전략을 총괄하는 알베르토 마르티네즈(Alberto Martinez) 부사장은 11일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 CPU 설계 원리, 보안 아키텍처, 마이크로소프트 협업, 메모리 모델 등 다양한 기술적 질문에 직접 답했다.
◆ ISA 내 완전 통합형 구조
우선, L2 캐시의 대역폭에 대해 “공개된 수치보다 높다”며 “클러스터당 4개의 파이프를 통해 코어와 패브릭 간 요청이 병렬로 처리되며, 파이프당 최소 64바이트(bps) 수준의 대역폭을 갖는다”고 설명했다.
캐시 레이턴시 지연에 대한 질문에서는 설계상의 불가피성을 인정했다. “1세대 대비 L2 캐시 용량이 커지면서 구조적 지연이 늘어났다. 이는 캐시 규모와 클러스터당 코어 수의 증가에 따른 자연스러운 결과”라는 것이 프라딥의 설명이었다.
하드웨어 난수 생성기(Random Number Generator, RNG)에 대해 카나파티필라이 부사장은 “RNG는 단순한 의사난수(pseudo-random)가 아니라 엔트로피 소스(entropy source)를 기반으로 동작한다”며 “재시드(reseeding)도 지원해 난수 품질을 유지하며, 클러스터당 하나씩 배치된 구조는 보안적으로도 문제가 없다”고 말했다.
엔트로피와 암호화 메커니즘이 결합된 구조를 통해 64비트 난수 생성을 하드웨어 수준에서 보장한다는 설명이다.
RNG(난수 생성기)의 비트 지원 범위와 관련해서도 카나파티필라이 부사장은 “현재 64비트까지만 지원한다. 16비트나 32비트는 내부 명령 구조상 구현되어 있지 않다”고 답했다.
이어 브랜치 타깃 버퍼(Branch Target Buffer, BTB)에 대해 “BTB는 단일 사이클(single-cycle) 예측기로, 다음 명령어 그룹의 프로그램 카운터(PC)를 예측하는 역할을 한다”며 “이에 따라 전체 명령 페치(fetch) 파이프라인의 효율성이 크게 향상된다”고 덧붙였다.
ISA(명령어 집합 구조)의 경우 그는 “ARMv9 기반의 SVE2(Scalable Vector Extension 2)와 SME(Scalable Matrix Extension)를 모두 지원한다”라며 “SVE2는 SVE1을 포함하므로, 이번 세대는 완전한 ISA 호환성을 제공한다”고 설명했다.
매트릭스 엔진의 작동 방식에 대한 질문이 이어졌다. ‘비동기(asynchronous)인지 동기(synchronous)인지’ 여부와 관련해 카나파티필라이 부사장은 “매트릭스 엔진은 별도의 클록 도메인에서 작동하지만, CPU와 완전한 일관성(coherency)을 유지한다”며 “CPU 명령과 동일한 메모리 일관성 모델 아래에서 작동하기 때문에, 일반 코프로세서처럼 메모리 동기화를 고민할 필요가 없다”고 말했다.
마르티네즈 부사장도 여기에 “이는 전통적인 코프로세서 모델이 아닌, ISA 내 완전 통합형 구조”라며 “결국 CPU 명령의 연장선에서 매트릭스 연산이 처리되는 셈”이라고 설명했다.
특히 AI 가속과 관련해 ‘애플 M5의 신경망 엔진과 비교해 매트릭스 엔진의 성능이 어떠한가’라는 질문에 “정확한 수치는 공개할 수 없지만, 비교적 우수한 수준일 것”이라고 자신하기도 했다.
프라딥 카나파티필라이(Pradeep Kanapathipillai) CPU 아키텍트이자 엔지니어링 부사장과 컴퓨트 소프트웨어 전략을 총괄하는 알베르토 마르티네즈(Alberto Martinez) 부사장은 11일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 CPU 설계 원리, 보안 아키텍처, 마이크로소프트 협업, 메모리 모델 등 다양한 기술적 질문에 직접 답했다.
◆ 반응성과 성능 위한 IPC 확장
IPC(사이클당 명령어 처리수)에 대해 일반 워크로드의 IPC는 2~4 수준에 머무르지만, 프라임 코어는 더 높은 동시 실행성을 갖추도록 설계됐다며 결국 반응성과 성능 모두를 위해 IPC를 확장한 것이라는 설명이다.
CPU 다이 구조와 관련해 세 번째 클러스터의 배치가 후속으로 추가된 것처럼 보인다는 지적에 질문에 카나파티필라이 부사장은 “물리적 배치는 CPU-DRAM 지연(latency)을 최소화하기 위한 결정”이라며 “L2 및 시스템 캐시 계층 구조의 효율성을 극대화하기 위해 최적의 위치를 선택했다”고 말했다.
이 밖에도 프라딥은 TDP 스케일링과 코어 다이 사이즈에 관한 질문에 “동일 실리콘으로 10W급 공랭형 노트북부터 30W급 고성능 시스템까지 대응할 수 있다”며 “이는 전력 한계 관리 아키텍처(Power Limit Management Architecture)가 유연하게 설계됐기 때문”이라고 밝혔다.
반면 코어별 면적(die size) 차이에 대해서는 “구체적인 수치는 공개할 수 없다”고 선을 그었다.
메모리 태깅 확장(Memory Tagging Extension, MTE)과 개발자 도구 연계에 대한 질문도 나왔다. 그는 “런타임 검증과 개발 보조용 두 방향 모두로 설계되어 있으며, 점진적으로 소프트웨어 통합이 진행 중”이라고 설명했다.
◆ MS와 긴밀한 협력 결과
운영체제 최적화 측면에 대한 질문도 나왔다. ‘마이크로소프트와의 협업 범위’에 대해 카나파티필라이 부사장은 “가상화(virtualization), 시스템 호출(system call), 워크로드 최적화 등 윈도우 플랫폼의 주요 기능들을 모두 설계 단계에서 반영했다”고 말했다.
또한 마르티네즈 부사장은 “나 역시 마이크로소프트 출신으로, 시뮬레이터 개발팀과 긴밀하게 협력했다”며 “특히 x86 에뮬레이터 프리즘(Prism) 최적화를 위해 스레딩(threading)과 시퀀싱(sequencing)에 대한 긴밀한 조율이 있었다”고 덧붙였다.
그는 “마이크로소프트뿐 아니라 리눅스·크롬OS 팀들과도 같은 수준의 협업을 이어가고 있다”고 강조했다.
x86 에뮬레이션 최적화를 위한 메모리 모델에 대해서는 “CPU가 완전한 순차적 일관성(Total Store Order, TSO)을 직접 지원하진 않지만, 명령 변환 과정에서 Load-Acquire와 Store-Release를 조합하면 x86 스타일의 일관성을 재현할 수 있다”고 설명했다.
두 사람은 긴 세션을 마무리하며 “이번 오라이온 CPU는 성능 지표보다 더 중요한, 아키텍처적 일관성과 확장성을 보여주는 사례”라며 “이는 단순한 수치 경쟁이 아니라, 장기적인 컴퓨팅 플랫폼 혁신의 일부”라고 강조했다.
[샌디에이고(미국)=디지털데일리 김문기기자] “이번 스냅드래곤 X2는 싱글스레드 성능과 멀티스레드 효율을 모두 달성하는 것을 목표로 했기 때문에, 별도의 저전력 전용 코어 없이도 충분한 효율성을 확보했다.”
“프라임(Prime)과 퍼포먼스(Performance) 코어의 조합이 이미 높은 동적 범위(dynamic range)를 제공한다. 다시 말해 전력 효율과 성능 간 균형을 이미 구조적으로 확보했기 때문에, 별도의 코어 세분화는 불필요했다.”
퀄컴이 스냅드래곤 X2 엘리트(Snapdragon X2 Elite)에 탑재된 오라이온(Orion) CPU의 설계 방향과 기술 세부사항을 묻는 질의응답에서 엔지니어 중심의 철학을 분명히 했다.
프라딥 카나파티필라이(Pradeep Kanapathipillai) CPU 아키텍트이자 엔지니어링 부사장과 컴퓨트 소프트웨어 전략을 총괄하는 알베르토 마르티네즈(Alberto Martinez) 부사장은 11일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’에서 CPU 설계 원리, 보안 아키텍처, 마이크로소프트 협업, 메모리 모델 등 다양한 기술적 질문에 직접 답했다.
◆ ISA 내 완전 통합형 구조
우선, L2 캐시의 대역폭에 대해 “공개된 수치보다 높다”며 “클러스터당 4개의 파이프를 통해 코어와 패브릭 간 요청이 병렬로 처리되며, 파이프당 최소 64바이트(bps) 수준의 대역폭을 갖는다”고 설명했다.
캐시 레이턴시 지연에 대한 질문에서는 설계상의 불가피성을 인정했다. “1세대 대비 L2 캐시 용량이 커지면서 구조적 지연이 늘어났다. 이는 캐시 규모와 클러스터당 코어 수의 증가에 따른 자연스러운 결과”라는 것이 프라딥의 설명이었다.
하드웨어 난수 생성기(Random Number Generator, RNG)에 대해 카나파티필라이 부사장은 “RNG는 단순한 의사난수(pseudo-random)가 아니라 엔트로피 소스(entropy source)를 기반으로 동작한다”며 “재시드(reseeding)도 지원해 난수 품질을 유지하며, 클러스터당 하나씩 배치된 구조는 보안적으로도 문제가 없다”고 말했다.
엔트로피와 암호화 메커니즘이 결합된 구조를 통해 64비트 난수 생성을 하드웨어 수준에서 보장한다는 설명이다.
RNG(난수 생성기)의 비트 지원 범위와 관련해서도 카나파티필라이 부사장은 “현재 64비트까지만 지원한다. 16비트나 32비트는 내부 명령 구조상 구현되어 있지 않다”고 답했다.
이어 브랜치 타깃 버퍼(Branch Target Buffer, BTB)에 대해 “BTB는 단일 사이클(single-cycle) 예측기로, 다음 명령어 그룹의 프로그램 카운터(PC)를 예측하는 역할을 한다”며 “이에 따라 전체 명령 페치(fetch) 파이프라인의 효율성이 크게 향상된다”고 덧붙였다.
ISA(명령어 집합 구조)의 경우 그는 “ARMv9 기반의 SVE2(Scalable Vector Extension 2)와 SME(Scalable Matrix Extension)를 모두 지원한다”라며 “SVE2는 SVE1을 포함하므로, 이번 세대는 완전한 ISA 호환성을 제공한다”고 설명했다.
매트릭스 엔진의 작동 방식에 대한 질문이 이어졌다. ‘비동기(asynchronous)인지 동기(synchronous)인지’ 여부와 관련해 카나파티필라이 부사장은 “매트릭스 엔진은 별도의 클록 도메인에서 작동하지만, CPU와 완전한 일관성(coherency)을 유지한다”며 “CPU 명령과 동일한 메모리 일관성 모델 아래에서 작동하기 때문에, 일반 코프로세서처럼 메모리 동기화를 고민할 필요가 없다”고 말했다.
마르티네즈 부사장도 여기에 “이는 전통적인 코프로세서 모델이 아닌, ISA 내 완전 통합형 구조”라며 “결국 CPU 명령의 연장선에서 매트릭스 연산이 처리되는 셈”이라고 설명했다.
특히 AI 가속과 관련해 ‘애플 M5의 신경망 엔진과 비교해 매트릭스 엔진의 성능이 어떠한가’라는 질문에 “정확한 수치는 공개할 수 없지만, 비교적 우수한 수준일 것”이라고 자신하기도 했다.
◆ 반응성과 성능 위한 IPC 확장
IPC(사이클당 명령어 처리수)에 대해 일반 워크로드의 IPC는 2~4 수준에 머무르지만, 프라임 코어는 더 높은 동시 실행성을 갖추도록 설계됐다며 결국 반응성과 성능 모두를 위해 IPC를 확장한 것이라는 설명이다.
CPU 다이 구조와 관련해 세 번째 클러스터의 배치가 후속으로 추가된 것처럼 보인다는 지적에 질문에 카나파티필라이 부사장은 “물리적 배치는 CPU-DRAM 지연(latency)을 최소화하기 위한 결정”이라며 “L2 및 시스템 캐시 계층 구조의 효율성을 극대화하기 위해 최적의 위치를 선택했다”고 말했다.
이 밖에도 프라딥은 TDP 스케일링과 코어 다이 사이즈에 관한 질문에 “동일 실리콘으로 10W급 공랭형 노트북부터 30W급 고성능 시스템까지 대응할 수 있다”며 “이는 전력 한계 관리 아키텍처(Power Limit Management Architecture)가 유연하게 설계됐기 때문”이라고 밝혔다.
반면 코어별 면적(die size) 차이에 대해서는 “구체적인 수치는 공개할 수 없다”고 선을 그었다.
메모리 태깅 확장(Memory Tagging Extension, MTE)과 개발자 도구 연계에 대한 질문도 나왔다. 그는 “런타임 검증과 개발 보조용 두 방향 모두로 설계되어 있으며, 점진적으로 소프트웨어 통합이 진행 중”이라고 설명했다.
◆ MS와 긴밀한 협력 결과
운영체제 최적화 측면에 대한 질문도 나왔다. ‘마이크로소프트와의 협업 범위’에 대해 카나파티필라이 부사장은 “가상화(virtualization), 시스템 호출(system call), 워크로드 최적화 등 윈도우 플랫폼의 주요 기능들을 모두 설계 단계에서 반영했다”고 말했다.
또한 마르티네즈 부사장은 “나 역시 마이크로소프트 출신으로, 시뮬레이터 개발팀과 긴밀하게 협력했다”며 “특히 x86 에뮬레이터 프리즘(Prism) 최적화를 위해 스레딩(threading)과 시퀀싱(sequencing)에 대한 긴밀한 조율이 있었다”고 덧붙였다.
그는 “마이크로소프트뿐 아니라 리눅스·크롬OS 팀들과도 같은 수준의 협업을 이어가고 있다”고 강조했다.
x86 에뮬레이션 최적화를 위한 메모리 모델에 대해서는 “CPU가 완전한 순차적 일관성(Total Store Order, TSO)을 직접 지원하진 않지만, 명령 변환 과정에서 Load-Acquire와 Store-Release를 조합하면 x86 스타일의 일관성을 재현할 수 있다”고 설명했다.
두 사람은 긴 세션을 마무리하며 “이번 오라이온 CPU는 성능 지표보다 더 중요한, 아키텍처적 일관성과 확장성을 보여주는 사례”라며 “이는 단순한 수치 경쟁이 아니라, 장기적인 컴퓨팅 플랫폼 혁신의 일부”라고 강조했다.
댓글목록
등록된 댓글이 없습니다.