개발 IT 게시판

제목[발표] 엔비디아는 AMD 및 인텔과 경쟁하기 위해 출시된 새로운 88코어 Vera CPU의 세부 정보를 공개2026-01-01 05:59
작성자 Level 1
기사 원문 - https://www.tomshardware.com/pc-components/gpus/nvidia-unveils-details-of-new-88-core-vera-cpus-positioned-to-compete-with-amd-and-intel-new-vera-cpu-rack-features-256-liquid-cooled-chips-that-deliver-up-to-a-6x-gain-in-cpu-throughput
 
   
엔비디아는 캘리포니아주 산호세에서 열린 GTC 2026에서 새로운 88코어 Vera 데이터센터 CPU에 대한 자세한 내용을 발표했습니다. 이 CPU는 표준 CPU 대비 50% 향상된 성능을 제공하며, 올림푸스 코어의 IPC(프로세스당 처리량)가 1.5배 증가하고 혁신적인 고대역폭 설계를 통해 시장에서 가장 빠른 단일 스레드 성능을 구현한다고 엔비디아는 밝혔습니다. 또한, CPU 중심 워크로드에 최적화된 256개의 수랭식 CPU를 하나의 랙에 통합한 새로운 Vera CPU 랙 아키텍처도 공개했습니다. 이 아키텍처는 CPU 처리량을 6배 향상시키고 AI 에이전트 워크로드에서 두 배의 성능을 제공한다고 주장합니다.

베라 CPU의 발전과 이를 활용한 랙 스케일 시스템 구축은 엔비디아가 CPU 직접 판매 시장에 진출하여 전통적인 CPU 시장에서 인텔과 AMD의 경쟁자로 자리매김했음을 의미합니다. 이는 세계 최대 하이퍼스케일러들이 사용하는 다양한 맞춤형 Arm 프로세서와의 경쟁은 말할 것도 없습니다. 이러한 움직임은 엔비디아가 메타(Meta)에 여러 세대의 엔비디아 CPU 전용 시스템을 자사 인프라에 도입하겠다고 발표한 이후에 나온 것으로, 완전히 놀라운 일은 아닙니다. 엔비디아는 또한 베라 루빈 플랫폼(이전에 자세히 다룬 바 있음)과 같은 GPU 중심 시스템에도 CPU를 계속 사용할 예정입니다.

엔비디아는 2022년 GTC에서 1세대 Grace CPU를 처음 공개하며 , 이 시리즈의 지속적인 발전을 통해 궁극적으로 더 넓은 CPU 시장에서 경쟁할 수 있는 위치에 서게 될 것임을 예고했습니다. 새로운 프로세서는 AI 중심 용도와 범용 용도 모두를 겨냥하며, 특히 AI 중심 용도에 중점을 두고 있습니다. 엔비디아가 기능과 목표 시장을 확장함에 따라, AI 데이터 센터 시장에서 소켓 확보를 위해 경쟁하는 AMD와 인텔에게 강력한 경쟁자가 될 것입니다. 이 칩들은 현재 본격적인 생산에 들어갔으며, 올해 하반기부터 엔비디아 파트너사들에게 제공될 예정입니다. 이제 새로운 칩과 랙 스케일 아키텍처를 자세히 살펴보겠습니다.

엔비디아는 베라 CPU를 설계할 때 하이퍼스케일 클라우드 CPU의 높은 코어 수와 게임 CPU의 뛰어난 단일 스레드 성능, 모바일 칩의 전력 효율성을 결합하여 여러 장점을 최대한 활용하고자 했습니다. 궁극적인 목표는 파이썬 실행, SQL 쿼리, 코드 컴파일과 같은 에이전트 기반 AI, 학습 및 추론 워크로드에서 GPU 기반 작업을 가속화하는 것입니다.

종합적으로 엔비디아는 x86 경쟁 제품 대비 샌드박스당 성능이 1.5배, 코어당 메모리 대역폭이 3배, 효율성이 2배 향상되었다고 주장합니다. 이러한 목표를 달성하기 위해 엔비디아는 1세대 Grace의 72개 코어에서 88개 코어와 176개 스레드를 갖춘 CPU를 설계했습니다. 또한 엔비디아는 이 코어들이 사이클당 명령어 처리량(IPC)에서 1.5배 향상되었다고 주장하는데, 이는 다른 경쟁 아키텍처들이 세대마다 한 자릿수 또는 10% 초반대의 증가율을 보이는 것과 비교하면 엄청난 세대적 도약입니다. 이전 세대 Grace에서는 시판되는 Arm Neoverse 코어를 사용했지만, Vera에 탑재된 새로운 Olympus 코어는 '엔비디아 설계'라고 명시하여 레퍼런스 디자인에 맞춤형 수정을 가했음을 시사합니다.

Arm v9.2-A Olympus 코어는 공간 멀티스레딩 기능을 제공합니다. 이 기능은 실행 장치, 캐시, 레지스터 파일과 같은 핵심 요소들을 동일한 코어에서 실행되는 다른 스레드와 시간 분할하지 않고 물리적으로 격리합니다. 이는 스레드들이 리소스를 번갈아 사용하는 일반적인 시간 분할 방식과는 대조적입니다. 공간 멀티스레딩은 실행 요소가 유휴 상태일 때 다른 스레드로부터 명령어를 가져와 사용함으로써 명령어 수준 병렬 처리(ILP), 처리량 및 성능 예측 가능성을 향상시키고, 궁극적으로 코어의 최대 활용을 보장합니다.

사실상, 이는 두 스레드가 단일 코어에서 완전히 동시에 실행될 수 있도록 해줍니다. 반면 표준 SMT 구현에서는 스레드들이 단일 코어에서 번갈아가며 실행됩니다. 당연히 이는 멀티테넌시 환경에 큰 이점이 될 것입니다.

엔비디아 GTC 2026
엔비디아는 88개의 코어를 모두 단일 도메인에 배치하여, 현재 고코어 x86 경쟁 제품들과는 달리 지연을 유발하는 NUMA 특성이 전혀 없습니다. 이는 지연 시간, 예측 가능성, 대역폭, 프로그래밍 용이성 측면에서 매우 중요한 의미를 갖습니다. 엔비디아는 각 코어에 적절한 지연 시간을 유지하면서 이러한 성과를 달성한 구체적인 방법을 공개하지 않았지만, 이 칩에는 Arm의 Grace 에 사용된 Arm Neoverse 코어의 CMN-700 코히런트 메시 네트워크를 기반으로 구축된 메시 토폴로지인 차세대 엔비디아 확장형 코히어런스 패브릭(SCF)이 적용되었습니다 . Arm은 최근 설계에서 더욱 발전된 Neoverse CMN S3 메시를 사용하고 있으며, Vera 역시 이 설계 또는 그 변형을 채택했을 가능성이 높습니다.

메시 네트워크는 코어 전체에 인상적인 메모리 처리량을 제공할 수 있으며, 특정 코어가 다른 코어보다 더 많은 대역폭을 요구할 때는 더욱 뛰어난 처리량을 제공합니다. Grace는 메시 네트워크에 546GB/s의 메모리 처리량을 지원하여 코어당 평균 7.6GB/s의 처리량을 제공했습니다. Vera는 1.5TB의 SOCAMM LPPDDR5 모듈(용량 3배 증가)을 통해 이를 두 배 이상 늘려 1.2TB/s의 대역폭을 제공하며, 이는 최대 부하 조건에서 코어당 평균 13.6GB/s에 해당합니다. 특히, 이 아키텍처는 메시 네트워크 전체에 걸쳐 부하 조건이 일정하지 않은 경우에도 단일 코어에 최대 80GB/s의 처리량을 지원할 수 있어 대역폭을 많이 요구하는 스레드에 상당한 성능 향상을 제공합니다.

실행 경로는 10개 명령어를 처리하는 명령어 디코딩 장치, 사이클당 두 번의 분기 예측을 지원하는 신경망 분기 예측기, 사용자 정의 그래프 데이터베이스 분석 프리페치 엔진, 그리고 PyTorch에 최적화된 명령어 버퍼를 포함합니다.

이 칩은 기밀 컴퓨팅(Confidential Computing)을 완벽하게 지원하며, 이는 Grace 아키텍처 대비 크게 향상된 기능으로 CPU와 GPU 도메인을 완전히 보호할 수 있습니다. 또한, 이 CPU는 최대 1.8TB/s의 처리량을 제공하는 NVLink-C2C 다이 간 인터페이스를 탑재하여 Grace의 900GB/s 인터커넥트보다 두 배, PCIe 6.0보다 7배 빠른 속도를 자랑합니다. 더불어 2개의 프로세서(2P) 구성도 지원합니다.

전반적으로 Vera는 PCIe 6.0 및 CXL 3.1 지원을 포함하여 최신 데이터 센터 프로세서에서 기대되는 모든 기술을 지원하지만, 대역폭과 지연 시간에 초점을 맞춘 컴퓨팅 설계 덕분에 AI 워크플로우에 사용하기에 매우 적합합니다.

엔비디아 GTC 2026
Grace는 이미 세계에서 가장 빠른 AI 슈퍼컴퓨터를 포함하여 많은 Nvidia GPU+CPU 시스템 의 핵심 구성 요소 역할을 해왔 지만, Nvidia의 확장된 목표는 Vera를 활용하여 더 널리 배포할 수 있는 순수 CPU 랙을 구축하는 것입니다.

베라 CPU 랙은 256개의 수랭식 베라 CPU와 74개의 블루필드-4 DPU, 그리고 커넥트X 슈퍼NIC 네트워킹을 통해 이러한 목표를 달성합니다. 이 랙은 최대 400TB의 LPDDR5 메모리와 300TB/s의 총 메모리 처리량을 자랑합니다. 엔비디아에 따르면, 이 메모리는 45,056개의 스레드를 지원하며, 최대 22,500개의 CPU 환경이 독립적으로 동시에 실행될 수 있습니다.

엔비디아는 스크립팅, 컴파일, 데이터 분석, 그래프 분석 및 HPC 워크로드 등 다양한 작업 부하에서 Grace 대비 1.8배에서 2.2배의 성능 향상을 보여주는 벤치마크 결과를 공개했습니다.

당연히 최근 CPU 전용 시스템 개발을 위해 엔비디아와 파트너십을 발표한 메타(Meta)에 이 시스템이 도입될 것으로 예상되지만, 엔비디아는 오라클, 코어위브, 네비우스, 알리바바 등 하이퍼스케일러에도 베라 CPU 랙 시스템을 제공할 예정이라고 밝혔습니다.

델 , HPE, 레노버, 슈퍼마이크로, 폭스콘 등 업계 거물들을 포함한 다양한 OEM 및 ODM 업체들이 광범위한 시장을 대상으로 다양한 용도에 맞는 싱글 및 듀얼 소켓 서버를 공급할 예정입니다 . 또한, 베라 CPU는 엔비디아 HGX NVL8 시스템에도 사용될 것입니다.

무엇보다 중요한 것은 이 랙들이 엔비디아의 광범위한 베라 루빈 플랫폼의 핵심 구성 요소 역할을 한다는 점입니다. 이 플랫폼은 루빈 GPU, 랙 규모 상호 연결을 위한 NVLink6 스위치, 네트워킹용 ConnectX-9 SuperNIC, Bluefield 4 DPU, Spectrum-X 102.4T 코패키지 광 스위치, 그리고 엔비디아의 Groq 3 LPU를 포함하여 총 7개의 칩으로 구성됩니다.

Vera CPU는 현재 본격적인 생산에 들어갔으며, 올해 하반기부터 배송이 시작될 예정입니다.



위로 스크롤