개발 IT 게시판

제목[발표] HPE, 엔비디아와 협력해 차세대 AI 팩토리 및 슈퍼컴퓨팅 혁신 발표1970-01-01 00:00
작성자 Level 1
기사 원문 - https://www.hpe.com/kr/ko/solutions/artificial-intelligence/nvidia-collaboration.html
 

HPE는 대규모 AI 팩토리와 슈퍼컴퓨터를 위한 HPE 기반 엔비디아 AI 컴퓨팅 포트폴리오(NVIDIA AI Computing Portfolio by HPE)의 주요 혁신사항을 발표했다. 이번 혁신은 고객이 AI를 보다 효율적으로 확장 및 배포하고, 인사이트 도출 시간을 단축할 수 있도록 지원하는 데 중점을 두었다. 엔비디아와 협력하여 구축된 이번 풀스택 AI 솔루션은 컴퓨트, GPU, 네트워킹, 액체 냉각, 소프트웨어 및 서비스가 긴밀하게 통합되어 대규모 환경 및 소버린 환경에 최적화되었다. 아르곤 국립 연구소(Argonne National Laboratory), 독일 슈투트가르트 고성능 컴퓨팅 센터(HLRS), 허드슨 리버 트레이딩(HRT), 한국과학기술정보연구원(KISTI) 등 선도적인 연구 기관 및 AI 지향 기업들이 혁신 가속화를 위해 HPE의 AI 인프라와 엔비디아 기반 AI 팩토리를 채택했다.

HPE, 업계 최고의 슈퍼컴퓨팅 플랫폼에 엔비디아 AI 솔루션 적용

연구소, 국가 기관 및 대기업들은 기존의 고성능컴퓨팅(HPC) 워크로드를 강화하기 위해 AI를 빠르게 도입하고 있다. 과학적 발견의 속도를 획기적으로 높이고자 하는 조직을 위해, HPE는 AI와 HPC를 통합하도록 설계된 2세대 엑사스케일급 슈퍼컴퓨팅 플랫폼인 ‘HPE 크레이 슈퍼컴퓨팅 GX5000(HPE Cray Supercomputing GX5000)’에서 다음과 같은 엔비디아 제품을 제공한다.

- 업계 최초의 엔비디아 베라(NVIDIA Vera) CPU 컴퓨트 블레이드 도입 – HPE는 자사의 강력한 차세대 슈퍼컴퓨팅 솔루션 라인업에 액체 냉각 방식의 새로운 엔비디아 컴퓨트 블레이드 옵션을 추가했다. 각 ‘HPE 크레이 슈퍼컴퓨팅 GX240 컴퓨트 블레이드(HPE Cray Supercomputing GX240 Compute blade)’는 최대 16개의 엔비디아 베라 CPU를 탑재하고 있으며, 가장 까다로운 AI 컴퓨팅 워크로드를 지원하도록 설계되었다. GX240은 엔비디아 베라 플랫폼에서 업계 최고 수준의 집적도1를 제공하며, 한 랙당 최대 40개의 블레이드와 640개의 엔비디아 베라 CPU, 5만 6,320개의 엔비디아 올림푸스(NVIDIA Olympus) Arm 호환 코어를 탑재할 수 있도록 확장이 가능하다.

- 고성능 네트워킹을 위한 선택폭 확대 – 기업 및 조직은 엔비디아 퀀텀-X800 인피니밴드(NVIDIA Quantum-X800 InfiniBand)를 포함해 대규모 시스템에 최적화된 다양한 네트워킹 옵션을 선택하여 자사의 슈퍼컴퓨터를 맞춤형으로 구성할 수 있다. 현재 ‘HPE 크레이 슈퍼컴퓨팅 GX5000’에서 이용 가능한 엔비디아 퀀텀-X800 인피니밴드 스위치는 포트당 800Gb/s의 연결성을 제공하는 144개의 포트를 지원한다. 또한 저전력 링크 상태) 및 전력 프로파일링 기능을 통해 뛰어난 전력 효율성을 갖춘 것이 특징이다.

트리시 담크로거(Trish Damkroger) HPE HPC 및 AI 인프라 솔루션 부문 수석부사장 겸 총괄은 "세계 최고 성능의 엑사스케일 슈퍼컴퓨터 3대를 구축한 HPE는 최첨단 AI 워크로드와 기존 HPC를 결합하여 과학적 혁신을 주도하고 있다”며, "엔비디아와의 지속적인 협력을 통해 고객이 의학, 생명과학, 엔지니어링, 제조 등 다양한 분야에서 기존의 한계를 뛰어넘는 데 필요한 고성능 집적도를 확보할 수 있도록 지원하고 있다"고 밝혔다.

엔비디아와 공동 설계한 대규모 및 소버린 환경을 위한 ‘HPE AI 팩토리’ 강화

HPE는 업계 선도적인 슈퍼컴퓨팅 플랫폼 강화에 더해, 엔비디아 베라 루빈(NVIDIA Vera Rubin) 플랫폼과 엔비디아 블랙웰(NVIDIA Blackwell) 아키텍처를 통해 서비스 프로바이더, 국가 기관 및 대기업을 위한 ‘HPE AI 팩토리’ 포트폴리오를 더욱 확장한다.

네오 클라우드(Neo-clouds)를 위한 대규모 AI 구축: HPE는 1조 개 이상의 매개변수(Parameter)를 가진 프론티어급 모델을 위해 설계된 차세대 플래그십 AI 시스템인 HPE 기반 엔비디아 베라 루빈 NVL72(NVIDIA Vera Rubin NVL72 by HPE) 랙 스케일 시스템을 선보인다. 네오 클라우드용으로 설계된 이 시스템은 36개의 엔비디아 베라 CPU, 72개의 엔비디아 루빈 GPU, 6세대 엔비디아 NV링크(NVIDIA NVLink) 스케일업 네트워킹, 엔비디아 커넥트X-9 슈퍼NIC(NVIDIA ConnectX-9 SuperNIC), 엔비디아 블루필드-4 DPU(NVIDIA BlueField-4 DPU)를 탑재해 대규모 환경에서 높은 효율성을 제공한다. 또한 HPE의 액체 냉각 통합 기술, 서비스 및 데이터센터 설계 전문성을 결합해 대규모 AI 구축을 간소화한다.
AI 모델 학습 및 추론을 위한 고집적도 GPU 서버: ‘HPE 컴퓨트 XD700(HPE Compute XD700)’은 엔비디아 HGX 루빈 NVL8(NVIDIA HGX Rubin NVL8)을 기반으로 구축된 새로운 오픈 컴퓨트 프로젝트(OCP) 기반 AI 서버이다. 이 시스템은 랙당 더 높은 GPU 집적도를 제공하여 공간, 전력 및 냉각 비용을 절감하는 동시에 AI 학습 및 추론 처리량을 높이도록 설계되었다. XD700 서버는 랙당 최대 128개의 루빈 GPU를 지원하며, 이는 이전 세대 대비 두 배 향상된 GPU 집적도를 제공한다.
엔비디아 블랙웰 접근성 확대: 이제 모든 HPE AI 팩토리 포트폴리오 전반에서 엔비디아 RTX PRO 6000 블랙웰 서버 에디션(NVIDIA RTX PRO 6000 Blackwell Server Edition) GPU를 이용할 수 있다.

이러한 솔루션들은 대규모 AI 프로젝트를 추진하는 고객이 보다 빠르게 AI를 배포할 수 있도록 돕는 다양한 HPE 및 엔비디아의 소프트웨어와 서비스 업데이트를 통해 강화되었다.

- HPE AI 팩토리 포트폴리오, 엔비디아 클라우드 파트너 프로그램 인증 획득:  엔비디아와의 지속적인 기술 협력을 통해 HPE의 AI 팩토리는 엔비디아 클라우드 프로바이더(NVIDIA Cloud Provider) 인증을 획득할 준비를 마쳤다. 이를 통해 클라우드 서비스 프로바이더는 검증 프로세스를 간소화할 수 있다.

- 대규모 AI 구축을 위한 멀티 테넌시(Multi-tenancy) 옵션 확장: HPE는 수세 가상화(SUSE Virtualization) 및 수세 랜처 프라임 스위트(SUSE Rancher Prime Suite) 기반의 엔비디아 멀티 인스턴스 GPU(NVIDIA Multi-Instance GPU, MIG)를 통해 가상머신(VM)용 GPU 패스스루 및 보안 쿠버네티스 네임스페이스(Kubernetes namespaces)를 위한 멀티 테넌시 모델을 지원함으로써 HPE AI 팩토리 포트폴리오를 강화한다. 이를 통해 서비스 프로바이더는 고객의 요구사항에 맞춰 하드 및 소프트 테넌시 구축 모델을 선택할 수 있다.

- 레드햇(Red Hat) 통합: HPE AI 팩토리 포트폴리오는 엔터프라이즈 리눅스 운영체제를 원하는 고객을 위해 엔비디아 AI 엔터프라이즈(NVIDIA AI Enterprise) 솔루션과 통합되는 레드햇 AI 엔터프라이즈(Red Hat AI Enterprise)의 구성 요소인 레드햇 엔터프라이즈 리눅스 및 오픈시프트(OpenShift)를 지원한다.

- 미션 컨트롤(Mission Control) 기반 HPE AI 팩토리 – 대규모 및 소버린 환경의 HPE AI 팩토리는 엔비디아 미션 컨트롤(NVIDIA Mission Control) 소프트웨어를 제공할 예정이다. 이는 엔비디아 런:ai(NVIDIA Run:ai)를 통한 워크로드 오케스트레이션부터 모니터링 및 자율 복구를 지원하는 엔비디아 다이나모(NVIDIA Dynamo)에 이르기까지 AI 팩토리의 모든 측면을 간소화한다. 또한 플랫폼 팀이 효율적으로 운영하고 안정적으로 확장할 수 있도록 지원한다.
 
이 모든 솔루션은 세계 최대 규모이자 에너지 효율이 가장 뛰어난 슈퍼컴퓨터를 수십 년간 구축하며 쌓아온 HPE의 데이터센터 설계 및 액체 냉각 분야 서비스와 전문성을 바탕으로 제작되었다.

크리스 매리어트(Chris Marriott) 엔비디아 엔터프라이즈 플랫폼 부문 부사장은 "기업과 국가가 AI의 잠재력을 실현하려면 대규모 모델 학습 및 고성능컴퓨팅(HPC) 워크로드를 처리할 인프라가 필수적"이라며, "HPE와 엔비디아가 공동 개발한 풀스택 AI 인프라는 가속 컴퓨팅, 고도화된 네트워킹 및 액체 냉각 기술을 결합하여 대규모 및 소버린 환경에서 인사이트 도출 시간을 단축한다"고 밝혔다.

출시 일정:

- 최대 16개의 엔비디아 베라(NVIDIA Vera) CPU를 탑재한 HPE 크레이 슈퍼컴퓨팅 GX240(HPE Cray Supercomputing GX240) 컴퓨트 블레이드는 2027년에 출시될 예정이다.
- HPE 크레이 슈퍼컴퓨팅 GX5000(HPE Cray Supercomputing GX5000)용 엔비디아 퀀텀-X800 인피니밴드(NVIDIA Quantum-X800 InfiniBand) 네트워킹은 2027년에 이용 가능하다.
- HPE 기반 엔비디아 베라 루빈 NVL72(NVIDIA Vera Rubin NVL72 by HPE) 랙 스케일 시스템은 2026년 12월에 출시될 예정이다.
- HPE 컴퓨트 XD700(HPE Compute XD700)은 2027년 초에 출시될 예정이다.
- 엔비디아 RTX PRO 6000 블랙웰 서버 에디션(NVIDIA RTX PRO 6000 Blackwell Server Edition) GPU는 현재 HPE AI 팩토리 포트폴리오를 통해 이용 가능하다.
- 멀티 테넌시 및 GPU 패스스루를 지원하는 HPE AI 팩토리 포트폴리오는 2026년 봄에 출시될 예정이다.
- 레드햇 엔터프라이즈 리눅스(Red Hat Enterprise Linux) 및 레드햇 오픈시프트(Red Hat OpenShift)와 엔비디아의 통합 솔루션은 현재 HPE AI 팩토리 포트폴리오에서 이용 가능하다.
- 대규모 및 소버린 환경의 HPE AI 팩토리를 위한 엔비디아 미션 컨트롤(NVIDIA Mission Control) 소프트웨어 지원은 2026년으로 예정되어 있다.
위로 스크롤