기사 원문 -
https://www.amd.com/en/blogs/2026/amd-delivers-breakthrough-mlperf-inference-6-0-results.html AMD MLPerf 추론 6.0: 새로운 기능과 그 중요성
AMD는 MLPerf Inference 6.0 제출 자료에서 단순히 더 빠른 GPU를 사용하여 기존 벤치마크를 재실행한 것이 아닙니다. 처음으로 시도되는 워크로드를 확장하고, 멀티노드 규모에서 초당 100만 토큰 임계값을 돌파했으며, 파트너들이 더 넓은 생태계에서 이러한 결과를 재현할 수 있음을 보여주었습니다.
이러한 조합이 중요한 이유는 고객들이 더 이상 추론 플랫폼을 단 하나의 지표로만 평가하지 않기 때문입니다. 고객들은 경쟁력 있는 단일 노드 성능, 효율적인 확장성, 새로운 모델의 빠른 도입, 파트너 시스템 전반에 걸친 재현 가능한 결과, 그리고 소프트웨어 스택이 이러한 요구 사항을 충족할 수 있다는 확신을 원합니다. MLPerf Inference 6.0을 통해 우리는 이 모든 것을 하나의 제출물로 보여줄 수 있었습니다.
더욱 중요한 것은 이러한 결과가 단지 예외적인 사례가 아니라는 점을 입증했다는 것입니다. AMD가 제출한 수치와 매우 유사한 결과를 보인 광범위한 파트너 생태계의 4가지 AMD Instinct™ GPU 유형 테스트와 최초의 3개 GPU 이기종 MLPerf 테스트를 통해 AMD 하드웨어와 AMD ROCm™ 소프트웨어가 서로 다른 지역의 시스템 간에도 의미 있는 추론 처리량을 조율할 수 있음을 보여주었습니다.
AMD Instinct MI355X GPU: 추론을 위해 처음부터 설계되었습니다
AMD Instinct™ MI355X GPU는 3nm 공정의 AMD CDNA™ 4 아키텍처를 기반으로 제작되었으며, 1850억 개의 트랜지스터를 탑재하고 FP4 및 FP6를 지원하며 최대 288GB의 HBM3E 메모리를 갖추고 있습니다.


최대 10페타플롭스의 FP4 및 FP6 성능, 단일 GPU에서 최대 5200억 개의 파라미터를 가진 모델 지원, 그리고 공랭식 및 수랭식 구성 모두에서 사용 가능한 업계 표준 UBB8 노드를 갖춘 AMD Instinct MI355X GPU는 단순한 속도 이상의 가치를 제공하도록 설계되었습니다. 하나의 플랫폼에서 대규모 모델 처리 능력과 뛰어난 배포 준비성을 모두 제공합니다.
AMD MLPerf Inference 6.0 제출의 주요 순간들
AMD의 MLPerf Inference 6.0 결과는 단순한 검증을 넘어 성능, 모델 적용 범위, 확장성 및 재현성 전반에 걸쳐 의미 있는 진전을 보여줍니다. 특히 다음과 같은 몇 가지 획기적인 성과가 눈에 띕니다.
1. AMD, MLPerf 추론에서 초당 100만 토큰 장벽 돌파
이번 라운드의 가장 큰 성과 중 하나는 AMD가 MLPerf 추론 벤치마크에서 처음으로 초당 100만 토큰을 돌파했다는 점입니다. AMD는 Llama 2 70B의 서버 및 오프라인 벤치마크 모두에서, 그리고 GPT-OSS-120B의 오프라인 벤치마크에서도 이 임계값을 넘어섰으며, 이 모든 것은 AMD Instinct MI355X GPU를 사용한 멀티노드 환경에서 달성되었습니다.
업계에서는 점점 더 클러스터 규모에서 추론 성능을 평가하고 있으며, 총 처리량과 서비스 제공 시간(Time-to-Service)을 통해 인프라 배포 준비 상태를 판단하고 있습니다. 초당 100만 토큰 이상을 처리하는 것은 프로덕션 수준의 추론 처리량을 입증하는 것입니다.

고객에게 있어 이러한 성과는 분명한 이점을 가져다줍니다.
- 대규모 사용자 집단과 대형 모델을 지원하기 위한 더 높은 총 처리량.
- AMD Instinct MI355X GPU가 단일 서버를 넘어 여러 환경에 배포될 때에도 성능을 유지할 수 있다는 명확한 증거입니다.
- GPT-OSS와 같은 최초 워크로드도 신속하게 활성화할 수 있으며, 의미 있는 프로덕션 출력으로 확장될 수 있음을 검증합니다.
- 차세대 멀티노드 및 랙 규모 추론 배포를 위한 더욱 견고한 기반.
2. AMD Instinct MI355X GPU는 이전 세대 대비 확실한 세대 도약을 제공합니다.
AMD는 Llama 2 70B 서버에서도 세대 간 성능 향상을 크게 입증했습니다. AMD Instinct MI355X GPU는 초당 100,282개의 토큰을 처리하여 이전에 제출된 AMD Instinct™ MI325X GPU 결과보다 3.1배 높은 처리량을 보여주었습니다.
이는 6개월 만에 이뤄낸 의미 있는 도약이며, AMD CDNA 4 아키텍처, 높은 컴퓨팅 밀도, FP4 및 FP6 지원, 대용량 HBM3E 메모리, 그리고 최신 대규모 언어 모델 추론에 최적화된 AMD ROCm™ 소프트웨어 등 풀 스택의 강력한 성능을 반영합니다.
3. Llama 2 70B는 단일 노드에서 광범위한 경쟁력을 보여줍니다.
MLPerf에서 가장 널리 알려진 대규모 언어 모델 벤치마크인 Llama 2 70B에서 AMD Instinct MI355X 플랫폼은 NVIDIA B200 및 B300 GPU 모두와 매우 경쟁력 있는 단일 노드 성능을 보여주었습니다. B200과의 비교에서 AMD Instinct MI355X 플랫폼은 오프라인 벤치마크에서 동률을 기록했고, 서버 벤치마크에서는 97%, 인터랙티브 벤치마크에서는 119%의 성능을 달성했습니다. B300 단일 노드와의 비교에서는 서버 벤치마크에서 93%, 오프라인 벤치마크에서 92%, 인터랙티브 벤치마크에서 104%의 성능을 보였습니다.
특히 중요한 것은 결과의 폭넓은 적용 범위입니다. 이는 단일 시나리오에 국한된 이야기가 아닙니다. AMD는 오프라인 배치 처리량, 서버 지속 처리량, 인터랙티브 응답성 등 다양한 측면에서 경쟁력을 보여줍니다.
4. GPT-OSS-120B는 빠른 최초 모델 초기화를 시연합니다.
GPT-OSS-120B는 이번 Inference 6.0 제출에서 가장 흥미로운 부분 중 하나인데, 그 이유는 MLPerf에서 처음으로 실행된 워크로드이기 때문입니다. 모델을 처음 활성화하는 것은 어려운 일입니다. 모델을 초기화하고, 최적화하고, 정확도를 검증한 다음, MLPerf 시간 내에 경쟁력 있는 성능을 달성해야 합니다.

이러한 복잡성에도 불구하고 AMD Instinct MI355X 플랫폼은 B200 오프라인 성능의 111%, NVIDIA B200 서버 단일 노드 성능의 115%를 달성했습니다. NVIDIA B300 단일 노드와 비교했을 때는 오프라인에서 91%, 서버에서 82%의 경쟁력 있는 성능을 보여주었습니다.
5. WAN-2.2-T2V는 AMD 기술을 완전히 새로운 텍스트-비디오 추론 영역으로 확장합니다.
MLPerf Inference 6.0을 통해 AMD는 대규모 언어 모델(LLM)을 넘어 텍스트-비디오 생성 분야로 영역을 확장하여 WAN-2.2-T2V 벤치마크에 처음으로 데이터를 제출했습니다. 이 벤치마크는 오프라인과 단일 스트림 두 가지 테스트로 구성됩니다. 이번 제출에서는 단일 스트림 시나리오에 집중했기 때문에 오프라인과 단일 스트림 모두를 제출해야 하는 클로즈드 부문이 아닌 오픈 부문에 제출했습니다. 하지만 단일 스트림 테스트 결과는 클로즈드 부문 제출 요건을 충족하므로 클로즈드 부문의 점수와 직접 비교할 수 있습니다.
그럼에도 불구하고, AMD가 완전히 새로운 워크로드 범주에 처음으로 도전한 결과로서는 매우 인상적입니다. AMD Instinct MI355X 플랫폼은 싱글 스트림 테스트에서 NVIDIA B200 싱글 노드 성능의 93%, NVIDIA B300 싱글 노드 성능의 87%를 달성했습니다. 마감일 이후 추가 튜닝을 통해 싱글 스트림 성능은 B200의 108%까지 향상되어 B300과 동등한 수준에 도달했으며, 비공식 오프라인 테스트 결과에서는 B200의 111%, B300의 88%를 기록했습니다. 마감일 이후의 수치는 공식 MLPerf 제출 자료에 포함되지 않았고 MLCommons의 검증도 거치지 않았지만, 튜닝 시간을 늘리자 성능이 얼마나 빠르게 향상되었는지 분명히 보여줍니다.


고객에게 있어 이 결과의 중요성은 단순히 백분율 수치 이상의 의미를 지닙니다. 이는 AMD가 LLM에서 더욱 새로운 멀티모달 및 생성형 비디오 워크로드까지 모델 적용 범위를 확장하고 있으며, 경쟁력 있는 초기 성능을 제공하고 있음을 보여줍니다.
이는 생성형 AI가 정체되어 있지 않기 때문에 중요합니다. 고객이 배포하고자 하는 모델은 더욱 광범위해지고, 다중 모드화되고, 전문화되고 있으며, AMD는 이러한 변화에 발맞춰 나갈 수 있음을 보여주고 있습니다.
6. 멀티노드 추론은 효율적인 확장성을 보여줍니다.
모델 규모가 커지고 배포 요구 사항이 까다로워짐에 따라 멀티노드 추론에 대한 관심이 높아지고 있으며, 업계에서는 AMD Helios 솔루션과 같은 랙 규모 시스템을 위한 기반을 마련하고 있습니다. 저희의 MLPerf Inference 6.0 제출 결과는 AMD Instinct MI355X가 이러한 변화에 대비되어 있음을 보여줍니다.
Llama 2 70B에서 노드 수를 1개에서 11개로 늘렸을 때, 이상적인 선형 확장성에 매우 근접한 성능을 유지했습니다.

11개 노드와 87개의 AMD Instinct MI355X GPU를 사용하여 오프라인 모드에서 초당 1,042,110개, 서버 모드에서 초당 1,016,380개, 인터랙티브 모드에서 초당 785,522개의 토큰을 처리했습니다. 확장 효율성은 오프라인, 서버, 인터랙티브 모드에서 각각 93%와 98%에 달했습니다. 오프라인 확장이 일반적인 방식이지만, 서버와 인터랙티브 모드는 클러스터 규모가 커짐에 따라 지연 시간 요구 사항을 유지해야 하므로 더욱 어렵습니다. 따라서 이러한 결과는 특히 주목할 만합니다.
이는 추론 기술이 AMD Helios 및 향후 랙 규모 배포로 나아가는 데 필요한 바로 그런 디딤돌입니다.
GPT-OSS-120B 멀티노드 테스트 결과가 계속해서 나오고 있습니다. 이번 테스트는 저희의 첫 번째 GPT-OSS 멀티노드 제출이었기에 더욱 의미가 큽니다. 핵심은 모델을 활성화할 수 있는지 여부뿐만 아니라 실제 클러스터에서 효율적으로 확장할 수 있는지 여부였습니다. 12개의 노드와 94개의 AMD Instinct MI355X GPU를 사용하여 오프라인 모드에서 초당 1,031,070개의 토큰, 서버 모드에서 초당 900,054개의 토큰을 처리했습니다. 더욱 중요한 것은 오프라인 모드에서 92%, 서버 모드에서 93%의 효율성을 유지하며 이상적인 12배 확장성에 근접했다는 점입니다. 이로써 GPT-OSS는 멀티노드 규모에서 초당 100만 토큰을 돌파한 두 번째 모델이 되었습니다.

고객에게 있어 이러한 규모 확장의 결과는 중요한 입증 자료를 제공합니다.
- 예측 가능한 멀티노드 확장을 통해 워크로드와 모델 크기가 증가함에 따라 효율성을 잃지 않고 추론 클러스터를 확장할 수 있습니다.
- 서버 규모의 뛰어난 효율성은 높은 처리량의 배치 처리뿐 아니라 실시간 추론에 대한 신뢰도를 높여줍니다.
- 확장 효율성이 향상되면 GPU 활용률이 높아져 토큰당 비용을 낮추고 인프라 투자를 극대화할 수 있습니다.
- 검증된 멀티노드 성능은 고객에게 파일럿 배포에서 프로덕션 규모의 AI 인프라로의 더욱 강력한 전환 경로를 제공합니다.
파트너 제출물 전반에 걸친 생태계 규모 및 재현성
AMD가 MLPerf Inference 6.0 제출에서 거둔 또 다른 주요 성과는 생태계의 성장세입니다. 이번 라운드에서는 Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro, Red Hat 등 9개 파트너사가 AMD Instinct 하드웨어 관련 자료를 제출하여 최다 파트너사 기록을 세웠습니다.
제출된 제품들은 MI300X, MI325X, MI350X, MI355X 등 4가지 AMD Instinct GPU 유형을 포괄했습니다. 이는 AMD 생태계가 하나의 플래그십 구성에만 국한되지 않고 OEM, ODM, 클라우드 플랫폼 등 다양한 세대와 배포 모델을 아우른다는 것을 보여줍니다.

이러한 재현성은 특히 강력한 증거입니다. AMD Instinct MI355X GPU에서 파트너사의 결과는 AMD가 제출한 결과와 4% 이내의 차이를 보였으며, 처음 실행하는 워크로드에서도 1% 이내의 차이를 보인 경우가 있었습니다. 이는 이러한 수치가 실험실 환경에서의 일시적인 오류가 아니라, 예측 가능한 AMD 하드웨어와 AMD ROCm™ 소프트웨어 덕분에 실제 파트너사 시스템에서도 재현 가능하다는 것을 강력하게 시사합니다.
고객에게 있어 이는 단순한 선택의 폭 이상의 의미를 지닙니다. AMD가 시연한 성능이 더 넓은 생태계 전반에서 재현될 수 있다는 확신을 의미하며, 이를 통해 배포 위험을 줄이고 제품 출시 시간을 단축할 수 있습니다.
최초의 3-GPU 이기종 시스템 제출을 통해 지리적 위치에 관계없이 유연한 추론 기능을 입증했습니다.
가장 주목할 만한 결과 중 하나는 AMD Instinct GPU 세 가지 유형(MI300X, MI325X, MI355X)을 사용하여 구축한 최초의 이기종 MLPerf 제출물입니다. Dell과 MangoBoost가 제출한 이 구성은 Llama 2 70B 서버에서 초당 141,521 토큰, Llama 2 70B 오프라인에서 초당 151,843 토큰을 처리했습니다.

특히 중요한 점은 지리적 위치입니다. AMD Instinct MI355X 플랫폼은 미국에 있는 델 연구소에 있었고, Instinct MI300X 및 MI325X 플랫폼은 한국에 있었습니다. 이는 단순히 세대가 다른 추론 시스템의 성능을 비교하는 것을 넘어, 서로 다른 지역에 있는 시스템 간의 오케스트레이션이 가능하다는 것을 입증하는 사례이기도 합니다.
고객에게 있어 그 가치는 명백합니다.
- 기존 AMD Instinct GPU 구축 환경은 완전히 제거하고 교체하는 대신 확장할 수 있습니다.
- 다양한 세대의 하드웨어를 지능적으로 구성하여 활용률과 처리량을 유지할 수 있습니다.
- AMD ROCm 소프트웨어는 비균일 환경을 더욱 실용적이고 예측 가능하며 비용 효율적으로 만드는 데 도움을 줍니다.
- AMD는 일회성 제품 교체 주기가 아닌, 유연하고 미래 지향적인 인프라 구축을 위한 로드맵을 제시하고 있습니다.
AMD ROCm 소프트웨어가 성능, 확장성 및 모델 활성화를 향상시키는 방법
AMD MLPerf Inference 6.0 제출의 모든 주요 결과는 AMD ROCm 소프트웨어라는 하나의 공통점으로 연결됩니다. 이 소프트웨어는 AMD Instinct MI355X 하드웨어를 경쟁력 있는 단일 GPU 추론, 클러스터 규모의 처리량, 이기종 오케스트레이션 및 최초 모델 초기화를 위한 배포 가능한 플랫폼으로 전환했습니다.
제출된 자료에서 AMD ROCm 소프트웨어는 효율적인 FP4 실행, 멀티노드 확장을 위한 최적화된 GPU 간 통신, 이기종 추론을 위한 동적 워크로드 분산, 그리고 Llama, WAN 및 GPT-OSS와 같은 모델의 초기 출시 준비를 지원했습니다.

AMD ROCm 소프트웨어는 고객에게 다음과 같은 여러 가지 실질적인 이점을 제공합니다.
- 최신 생성형 AI 데이터 유형 및 추론 커널에 최적화된 모델 성능.
- 효율적인 통신 및 오케스트레이션을 통한 원활한 멀티노드 확장.
- AMD Instinct GPU 세대에 걸친 이기종 워크로드 분산.
- 새로운 모델과 새로운 워크로드 범주에 대한 준비 속도를 높입니다.
바로 이러한 이유로 ROCm 소프트웨어는 AMD의 성공에 매우 중요한 역할을 합니다. ROCm 소프트웨어는 단순히 AMD가 벤치마크에서 뛰어난 결과를 내도록 돕는 데 그치지 않고, Instinct 제품군 전체에 걸쳐 성능, 확장성, 유연성 및 재현성을 가능하게 합니다.
Annual Cadence는 AMD Instinct MI400 시리즈 및 Helios 랙 스케일 솔루션 출시를 위해 지속적으로 노력하고 있습니다.
이러한 결과의 더 넓은 맥락은 바로 성장세입니다. AMD는 Instinct GPU를 매년 꾸준히 출시하고 있으며, 이러한 일관성이 중요합니다. AMD Instinct MI300X GPU는 2023년에 생성형 AI 분야에서 강력한 입지를 구축했습니다. AMD Instinct MI325X GPU는 2024년에 향상된 연산 능력과 HBM3E를 통해 그 기반을 더욱 강화했습니다. 그리고 2025년에는 MI355X GPU를 포함한 AMD Instinct MI350 시리즈가 새로운 AI 데이터 유형, 더 큰 모델 용량, 그리고 이번 보고서에서 보여준 추론 성능 향상을 통해 플랫폼을 한 단계 더 발전시켰습니다.

AMD는 2026년에 차세대 AMD CDNA™ 5 아키텍처 기반의 AMD Instinct™ MI400 시리즈 GPU로 업그레이드하여, 랙 스케일 AI의 차세대 시대를 위한 기반을 마련하고 AMD Helios 랙 스케일 솔루션을 위한 토대를 구축할 계획입니다. 이를 통해 고객은 AMD가 단순히 현재 뛰어난 성능을 제공하는 데 그치지 않고, 모델 규모, 워크로드 다양성 및 프로덕션 배포 요구 사항에 맞춰 확장 가능한 장기적인 추론 플랫폼을 구축하고 있다는 확신을 가질 수 있습니다.
최종 결론
AMD의 MLPerf Inference 6.0 제출은 AMD와 AMD의 생성형 AI 분야에 있어 중요한 진전을 의미합니다. AMD Instinct MI355X GPU는 완전히 새로운 워크로드에서 매우 경쟁력 있는 단일 노드 성능, 놀라운 효율성을 자랑하는 멀티 노드 확장 성능, GPT-OSS-120B 및 Wan-2.2-t2v 모델 부팅 성공, 그리고 클러스터 규모에서 초당 100만 개 이상의 토큰 처리라는 이정표를 달성했습니다.
이 모든 것의 중심에는 AMD ROCm 소프트웨어와 체계적인 연간 로드맵이 있습니다. AMD Instinct MI300X GPU부터 MI325X GPU, 그리고 AMD Instinct MI355X GPU를 탑재한 MI350 시리즈에 이르기까지, AMD는 빠르게 움직이며 모델 지원을 확장하고 미래의 랙 규모 AI 배포에 필요한 소프트웨어 및 시스템 기반을 구축하고 있습니다. AMD Instinct™ MI400 시리즈로 구동되는 AMD Helios 랙 규모 솔루션과 향후 출시될 AMD Instinct™ 제품군을 고려할 때, MLPerf Inference 6.0은 AMD가 생성형 AI 추론 전환에 참여하는 데 그치지 않고, 실제 운영 환경에 적합한 생성형 AI 인프라의 모습을 정의하는 데 앞장서고 있다는 분명한 메시지를 전달합니다.
이러한 결과의 기술적 배경에 대해 더 자세히 알고 싶은 독자들을 위해 AMD ROCm 블로그에 두 개의 새로운 게시물이 MLPerf Inference v6.0 제출에 대한 추가 정보를 제공합니다. " AMD Instinct™ GPU MLPerf Inference v6.0 제출 "에서는 이러한 결과를 뒷받침하는 하드웨어 및 소프트웨어 작업에 대해 자세히 살펴보고, " AMD MLPerf Inference v6.0 제출 결과 재현 "에서는 AMD Instinct 하드웨어에서 벤치마크를 재현하는 방법을 안내하여 AI 추론 분야에서 개방성, 투명성 및 재현성에 대한 AMD의 노력을 다시 한번 강조합니다.