개발 IT 게시판

제목[발표] Elon Musk는 차세대 Grok 3 모델을 훈련하려면 100,000개의 Nvidia H100 GPU가 필요할 것이라고 말했습니다.2024-04-17 00:00
작성자 Level 1
기사 원문 - https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-says-the-next-generation-grok-3-model-will-require-100000-nvidia-h100-gpus-to-train
 
   
테슬라의 CEO이자 xAI의 창립자인 일론 머스크는 일반 인공지능(AGI)의 발전에 대해 과감한 예측을 내놓고 AI 산업이 직면한 과제에 대해 논의했습니다. 그는 AGI가 이르면 내년이나 2026년에 인간 지능을 능가할 수 있지만 이를 훈련하려면 엄청난 수의 프로세서가 필요하고 결과적으로 엄청난 양의 전력이 필요할 것이라고  로이터 통신은 보도했습니다 .

Musk의 벤처인 xAI는 현재 Grok 대규모 언어 모드의 두 번째 버전을 교육하고 있으며 5월까지 다음 교육 단계를 완료할 것으로 예상됩니다. Grok 버전 2 모델의 훈련에는 최대 20,000개의 Nvidia H100 GPU가 필요했으며, Musk는 향후 반복에서는 훨씬 더 많은 리소스가 필요할 것으로 예상하고 있으며, Grok 3 모델의 훈련에는 약 100,000개의 Nvidia H100 칩이 필요합니다.

Musk에 따르면 AI 기술의 발전은 현재 두 가지 주요 요인, 즉 Nvidia의 H100과 같은 고급 프로세서의 공급 부족(100,000개를 빨리 확보하기가 쉽지 않음)과 전기 가용성으로 인해 방해를 받고 있습니다.

Nvidia의 H100 GPU는 완전히 활용될 때 약 700W를 소비하므로 AI 및 HPC 워크로드용 GPU 100,000개는 무려 70MW의 전력을 소비할 수 있습니다. 이러한 GPU가 작동하려면 서버와 냉각이 필요하므로 100,000개의 Nvidia H100 프로세서를 갖춘 데이터 센터는 약 100메가와트의 전력을 소비한다고 해도 무방합니다. 이는 작은 도시의 전력 소비량과 비슷합니다.

머스크는 지금까지 컴퓨팅 GPU 공급이 심각한 장애물이었지만 앞으로 1~2년 안에 전력 공급이 점점 더 중요해질 것이라고 강조했습니다. 이러한 이중 제약은 증가하는 계산 요구 사항을 충족하기 위해 AI 기술을 확장하는 과제를 강조합니다.

이러한 어려움에도 불구하고 컴퓨팅 및 메모리 아키텍처의 발전으로 인해 향후 몇 년 동안 점점 더 큰 규모의 LLM(대형 언어 모델) 교육이 가능해질 것입니다. Nvidia는 GTC 2024에서 수조 개의 매개변수를 사용하여 LLM으로 확장하도록 설계된 GPU 아키텍처 및 플랫폼인 Blackwell B200을 공개했습니다 . 이는 AGI 개발에 중요한 역할을 할 것입니다.

실제로 머스크는 앞으로 1~2년 안에 가장 똑똑한 인간보다 더 똑똑한 인공지능이 등장할 것이라고 믿고 있습니다. 머스크는 X 스페이스와의 인터뷰에서 "AGI를 가장 똑똑한 인간보다 더 똑똑한 것으로 정의한다면 아마도 내년, 2년 내가 될 것"이라고 말했다. 이는 이제 터미네이터를 다시 보러 갈 때가 된 것 같고 미래의 AGI 대군주가 스카이넷보다 더 훌륭해지기를 바랍니다.
위로 스크롤