개발 IT 게시판


제목	[발표] 에이전트형 AI에는 랙 규모의 CPU 성능이 필요합니다. AMD EPYC가 이를 제공합니다2026-01-01 07:43
작성자	Bector
기사 원문 - https://www.amd.com/en/blogs/2026/agentic-ai-needs-rack-scale-cpu-performance-amd-epyc.html 　 에이전트형 AI는 인프라의 형태를 바꾸고 있습니다. 기업들이 개별적인 AI 실험에서 벗어나 실제 운영 환경에 적용 가능한 에이전트형 시스템으로 전환함에 따라, 이를 지원하는 CPU 인프라가 매우 중요해지고 있습니다. 오케스트레이션 서비스, 데이터베이스, 웹 프런트엔드, 캐시, 미들웨어, API, 컨트롤 플레인 서비스 등 모든 구성 요소는 실제 랙 용량 및 열 관리 제약 조건 내에서 효율적으로 확장되어야 합니다. 고객은 벤치마크 수치만을 보고 시스템을 구축하는 것이 아니라, 전력, 냉각, 설치 공간, 소프트웨어 호환성, 운영 준비 상태 등 여러 제약 조건을 고려하여 랙을 구축합니다. 이러한 관점에서 평가해 보면 AMD EPYC™ 프로세서는 랙 규모에서 확실한 리더십을 보여줍니다. 모델링된 100kW 랙 시나리오에서 AMD EPYC™ 9965는 NVIDIA Vera 기준 프로세서보다 랙 수준 처리량이 약 2.37배, Intel Xeon 6980P보다 약 1.6배 높습니다. 차세대 AMD EPYC "Venice"는 Vera와의 비교를 3.30배까지 확장할 것으로 예상됩니다.<sup> 1</sup> 더욱 중요한 것은, 이는 고객이 미래 아키텍처를 기다릴 필요 없이 표준 x86 플랫폼에서 지금 바로 구축할 수 있는 인프라라는 점입니다. 에이전트형 AI에는 CPU 성능이 뛰어난 인프라가 필요합니다. AI 구축을 GPU 중심으로만 보는 것은 쉽습니다. 하지만 실제 운영 환경에서 사용되는 에이전트 시스템은 단순히 모델 추론만 하는 것이 아니라, 광범위하고 지속적으로 실행되는 서비스 환경입니다. 모든 에이전트는 오케스트레이션 로직, 트랜잭션 데이터베이스, 웹 및 API 엔드포인트, 키-값 저장소, 인메모리 캐시, 그리고 시스템 전반에 걸쳐 작업을 조율하고 상태를 유지하며 요청을 중개하는 미들웨어에 의존합니다. 이러한 서비스는 대부분 CPU에 의존하며, 단일 모델의 크기가 아니라 동시에 실행되는 에이전트 수에 따라 확장됩니다. 에이전트 기반 배포가 실제 운영 환경으로 전환됨에 따라 이를 지원하는 인프라의 규모도 함께 증가합니다. 이러한 서비스를 호스팅하는 프로세서 플랫폼은 기업이 실제로 실행할 수 있는 에이전트 수와 그 비용을 결정하는 주요 요인이 됩니다. 이 단계에서는 가속기의 최대 성능이 아니라 범용 CPU 용량이 한계를 결정하게 됩니다. 랙 레벨 성능이 적절한 측정 기준인 이유 부품 벤치마크는 칩의 성능을 설명할 뿐, 고객이 실제로 구축할 수 있는 용량을 설명하는 것은 아닙니다. 데이터 센터는 랙 단위로 구성되며, 랙은 고정된 전력 및 열 예산, 제한된 바닥 공간, 소프트웨어 호환성 요구 사항, 그리고 운영 준비 상태에 따라 제약을 받습니다. 실제 용량을 결정하는 것은 "소켓 하나의 속도가 얼마나 빠른가"가 아니라 "100kW 랙에 얼마나 많은 유용한 작업을 수용할 수 있는가"입니다. 이 분석에서는 이러한 관점을 사용합니다. 모든 구성은 2P(2프로세서) 플랫폼 기반의 100kW 랙을 기준으로 정규화되었으므로, 비교는 개별 프로세서의 최대 부하 동작이 아닌 실제 서비스 용량을 반영합니다. 고밀도 구성은 랙당 서비스 용량 증가로 직결됩니다. 이는 자본 효율성, 공간 활용도 및 운영 간소화를 향상시키는 핵심 요소입니다. AMD EPYC 랙 레벨 성능 리더십 평가 대상 워크로드 전반(범용 컴퓨팅, 서버 측 Java, 웹 서버, 키-값, 인메모리 캐싱 및 관계형 데이터베이스)에서 AMD EPYC는 랙 레벨 모델링 결과에서 압도적인 우위를 보였습니다. AMD EPYC 9965("Turin", 192코어)는 NVIDIA Vera(88코어 "Olympus") 대비 정규화된 기하 평균 성능이 2.37배 우수하며, Intel Xeon 6980P("Granite Rapids-AP", 128코어)는 NVIDIA Vera 대비 1.46배 우수한 성능을 기록했습니다. AMD EPYC "Venice"(256코어)가 출시되면 AMD의 우위는 3.30배까지 확대될 것입니다. 이러한 성능 향상은 특정 벤치마크 결과에만 의존하는 것이 아니라 전체 워크로드에 걸쳐 일관되게 나타납니다. 패턴은 일관적입니다. 고정된 전력 범위 내에서 코어 밀도가 높아질수록 전체 서비스 처리량도 함께 증가합니다. 에이전트 시스템을 둘러싼 트랜잭션, 웹 서버 및 미들웨어 계층의 경우, 이는 랙당 훨씬 더 높은 동시성과 응답성을 의미하며, 궁극적으로 환경이 감당할 수 있는 에이전트 수를 결정하는 요소입니다. 오늘날의 운송 밀도, 독점적인 약속이 아닙니다. 랙 밀도는 핵심 지표로 자리 잡았으며, 이는 당연한 결과입니다. 랙 밀도는 배포 가능한 가치를 직접적으로 보여주는 지표이며, AMD의 현재 솔루션이 두각을 나타내는 부분이기도 합니다. Dell PowerEdge IR7000 또는 이와 유사한 수랭식 랙에 AMD EPYC "Turin"을 배포하면 현재 랙당 27,000개 이상의 CPU 코어를 지원합니다 . 차세대 AMD EPYC "Venice"는 동일한 랙 클래스에서 36,000개 이상의 코어를 지원하도록 설계되었습니다 . 샌드박스와 CPU 코어는 직접적인 동일 개념은 아니지만, 랙 규모 컴퓨팅 밀도의 방향을 보여주는 지표로서 분명한 차이를 보입니다. 미래 지향적인 밀도로 여겨지던 기준은 이미 현재 사용 가능한 표준 인프라를 통해 충족되고 있습니다. 이러한 AMD 배포는 표준 액체 냉각 데이터 센터 장비와 기업에서 이미 운영하고 있는 x86 소프트웨어 생태계에서 실행되므로 새로운 랙 아키텍처가 필요하지 않습니다. 따라서 소프트웨어 연속성을 유지하고 마이그레이션 마찰을 줄이며 제품 출시 시간을 단축할 수 있습니다. 방법론 및 작업량 세부 정보 이 워크로드 제품군은 기존 벤치마크를 대리 지표로 사용하여 에이전트형 AI 서비스 환경과 가장 관련성이 높은 인프라 차원을 포괄합니다. 범용 컴퓨팅: SPEC CPU 2017 정수율 서버 측 Java: SPECjbb2015에서 파생된 워크로드로, 처리량 및 지연 시간에 민감한 비즈니스 로직 실행을 측정합니다. 웹 서버: WRK 도구를 사용하는 NGINX 환경에서 지속적인 동시 요청 부하 조건으로 실행 키-값 저장소: 고속 인메모리 연산을 위한 redis-benchmark 인메모리 캐싱/분석: memcached와 memtier_benchmark 사용 관계형 데이터베이스: MySQL 기반의 TPC-C 기반 OLTP 프록시인 TPROC-C 이 모델 세트는 전체 엔드투엔드 에이전트 파이프라인을 모델링하는 것이 아니라, 해당 파이프라인이 의존하는 인프라 계층을 분리하여 모델링합니다. 비교는 2P 플랫폼을 사용하는 100kW 기준 용량의 랙 레벨에서 수행되며, 시스템 전력 및 랙당 노드 수는 NVIDIA Vera를 기준으로 정규화됩니다. "Venice" 및 Vera 수치는 모델링 및 예상 구성을 반영하므로, 결과는 명시된 랙 전력 제약 조건 내에서의 추정치로 제시됩니다. 단일 스레드 성능 랙 수준의 성능과 에너지 효율성 외에도, 일부 워크로드에서는 코어당 성능이 여전히 중요한 고려 사항입니다. AMD는 데이터베이스, 분석, 시뮬레이션, 멀티 GPU 서버 환경에서의 호스트 프로세싱과 같은 고성능 워크로드에서 이 지표를 꾸준히 선도해 왔습니다. AMD의 64코어 "Venice" CPU는 88코어 Vera 프로세서 대비 코어당 성능이 27% 향상된 것으로 예상됩니다. 코어 수가 더 많은 96코어 "Venice" CPU조차도 88코어 Vera 프로세서보다 코어당 성능이 11% 더 높을 것으로 전망됩니다. 결론: 배포 가능한 성능이 승리한다 에이전트형 AI 인프라는 개별 구성 요소의 성능 기준이 아닌 랙 단위로 계획되어야 합니다. 이러한 관점에서 결론은 명확합니다. AMD EPYC는 높은 CPU 처리량, x86 소프트웨어 연속성, 그리고 표준화된 방식으로 AI를 지원하는 고밀도 인프라를 구축할 수 있는 경로를 제공합니다. 게다가 이러한 기능은 현재 시판 중인 플랫폼에서 바로 사용할 수 있습니다. 프로덕션 환경에서 에이전트형 AI를 구현하려는 기업에게 있어, 이러한 고밀도, 호환성, 그리고 간편한 배포 방식의 조합은 성능을 실질적인 용량으로 전환하는 핵심 요소입니다.

이전	[루머] RTX 50 SUPER, 빠르면 2027초 출시?	Bector	2026-06-08
다음	[발표] 엔비디아, ‘컨트롤 레조넌트’ 등 최신 게임에 DLSS 적용 확대	Bector	2026-01-01