개발자 황명훈 공식블로그

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

0002210109_001_20251120003107539.JPG?type=w800

[스냅드래곤X딥다이브] 프라딥 카나파티필라이 부사장, 18코어·44MB 캐시·행렬 가속기로 구조 혁신

프라딥 카나파티필라이(Pradeep Kanapathipillai) 퀄컴 엔지니어링 부사장은 11일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’ 첫날 CPU 아키텍처에 대해 설명하고 있다

[샌디에이고(미국)=디지털데일리 김문기기자] 퀄컴이 자사 설계의 오라이온(Orion) CPU를 중심으로 한 스냅드래곤 X2 엘리트(Snapdragon X2 Elite)의 세부 구조를 공개했다.

프라딥 카나파티필라이(Pradeep Kanapathipillai) 퀄컴 엔지니어링 부사장은 11일(현지시간) 미국 샌디에이고 파라다이스 포인트 리조트에서 개최된 ‘스냅드래곤 X 시리즈 아키텍처 딥다이브 2025’ 첫날 CPU 아키텍처 세션에서 무대에 올라 “이번 세대는 단순한 성능 향상이 아니라, 마이크로아키텍처 수준에서 완전히 새로 설계된 CPU”라고 강조했다.

◆ 세번째 커스텀 CPU…오라이온 '도약'

그는 오라이온을 “퀄컴이 직접 설계한 세 번째 세대 커스텀 CPU이자, 성능과 전력 효율 측면에서 명확한 세대 도약을 이룬 제품”이라고 정의했다.

이번 구조는 총 18개의 코어로 구성되며, 이를 세 개의 클러스터로 나누는 방식이다. 두 개의 프라임 클러스터(Prime Cluster)에는 각각 6개의 고성능 코어가, 하나의 퍼포먼스 클러스터(Performance Cluster)에는 6개의 효율 코어가 배치된다. 각 클러스터는 고유한 L2 캐시를 공유하며, 프라임 클러스터는 16MB, 퍼포먼스 클러스터는 12MB로 구성돼 전체 L2 용량은 44MB에 이른다.

그는 “클러스터당 하나씩, 총 세 개의 매트릭스 엔진(Matrix Engine)을 배치했다”며 “CPU가 자체적으로 행렬 연산을 가속할 수 있도록 설계된 것은 이번 세대가 처음”이라고 밝혔다.

이 매트릭스 엔진은 클러스터 내 모든 코어가 공유하지만, 논리적으로는 다중 스레드(Multithreaded) 구조로 병렬 접근이 가능하다.

카나파티필라이 부사장은 “8×8 형태의 계산 셀로 구성된 행렬 엔진이 프라임 클러스터에, 4×8 형태의 엔진이 퍼포먼스 클러스터에 탑재됐다”고 설명했다. 각각은 64비트 정밀도와 FP32, FP16 연산을 모두 지원하며, 별도의 클록 도메인으로 운영돼 전력 효율을 높였다.

핵심은 아키텍처 전반의 병렬성 강화다. 카나파티필라이 부사장은 “명령어 디코드 폭을 9단(9-wide)으로 확장했고, 초당 16개의 명령어를 페치(fetch)할 수 있다”며, “브랜치 예측(Branch Prediction) 구조도 4단계로 분리해 단일 사이클 예측 버퍼, 조건 분기 예측기, 간접 분기 예측기, 리턴 주소 스택을 별도로 설계했다”고 설명했다.

이어, 특히 “분기 예측 실패 시 복구(latency)를 13사이클 이내로 줄였다”며, 초고속 클록에서도 예측 실패로 인한 지연이 최소화됐다고 덧붙였다.

◆ 멀티코어 환경 개선

로드·스토어 유닛도 대폭 강화됐다. 오라이온의 L1 데이터 캐시는 96KB, 명령 캐시는 128KB로 각각 6웨이 세트 어소시에이티브(6-way set associative) 구조를 취한다. 모든 캐시는 완전 일관(Coherent) 상태로 유지되며, ‘MESI(Modified, Exclusive, Shared, Invalid)’ 프로토콜을 따른다.

이는 멀티코어 환경에서의 데이터 일관성을 보장하면서도 지연을 최소화하기 위한 조치다. 최소 여섯 개의 프리페처(prefetcher)가 CPU 내부에 배치돼, 명령어와 데이터, 변환 테이블(TLB) 접근을 사전 예측한다.

카나파티필라이 부사장은 “새로운 L2 캐시는 L1과 동일한 클록 도메인에서 작동하도록 설계돼, 클러스터 내 평균 L1 미스 레이턴시를 대폭 낮췄다”고 말했다.

이 캐시는 CPU뿐 아니라 같은 클러스터 내 매트릭스 엔진에도 연결되어 있으며 20개 이상의 동시 트랜잭션을 처리할 수 있는 구조다. 캐시 파티셔닝과 모니터링 기능을 도입해 스레드 간 자원 경쟁을 방지한 점도 이번 세대의 특징이다.

이번 오라이온 CPU에는 새로운 보안 아키텍처도 탑재됐다. 신뢰 구역을 구분하는 트러스트존(TrustZone) 구조와 함께, 제어 흐름 무결성(Control Flow Integrity) 기능, 브랜치 타깃 ID(BTI), 포인터 인증(Pointer Authentication), 그리고 하드웨어 난수 생성기(Random Number Generator)가 각 클러스터마다 배치됐다.

카나파티필라이 부사장은 “최근 공개된 스펙터(Spectre)나 멜트다운(Meltdown) 같은 사이드 채널 공격을 하드웨어 수준에서 차단하기 위해, 예측기(prediction structure) 등 주요 마이크로구조 내부를 암호화해 보호했다”고 밝혔다.

또 메모리 태깅 확장(Memory Tagging Extension, MTE)을 도입해 소프트웨어의 메모리 접근 오류를 감지할 수 있게 했다.

◆ 고성능을 지속가능케 하는 설계

카나파티필라이 부사장은 “이번 CPU는 단일 스레드 성능에서 전 세대 대비 39% 향상, 동일 전력 대비 에너지 효율에서 43% 개선됐다”며 “이 수치는 우리가 직접 설계한 마이크로아키텍처가 얼마나 깊게 진화했는지를 보여주는 지표”라고 강조했다.

단일 코어 기준으로 최대 5GHz, 다중 코어 구동 시 4.4GHz까지 동작한다. 그는 “이제는 고성능과 저전력 중 하나를 선택할 필요가 없다. 두 가지를 동시에 제공하는 것이 퀄컴이 추구하는 방향”이라고 덧붙였다.

마지막으로 그는 퍼포먼스 클러스터의 존재 이유에 대해 설명했다. 그는“대부분의 일반 애플리케이션은 최고 IPC(Instructions per Cycle)를 요구하지 않는다. 그렇기에 효율 중심의 코어가 필요하다”며, 퍼포먼스 클러스터는 얕은 파이프라인과 축소된 캐시 구조를 통해 전력 효율을 극대화했다고 설명했다.

즉 프라임 코어는 고부하 연산과 AI 연산을 위한 정점 역할을, 퍼포먼스 코어는 백그라운드와 멀티태스킹을 담당하는 구조다.

마지막으로 카나파티필라이 부사장은 “오라이온 CPU는 PC용 프로세서의 새로운 기준선을 제시했다. 우리는 고성능을 단순히 높이는 대신, 고성능을 지속가능하게 만드는 방향으로 설계했다”고 마무리했다.

개발자 황명훈 공식블로그

feat. 취미로 개발하는 블로그사이트

64,229

CSBOARD 공식사이트

서울특별시 날씨

관련링크

댓글목록