개발 IT 게시판

제목[발표] Street Fighter III에서는 14명의 LLM이 대결합니다. AI 대결에서는 어떤 모델이 최고의 스트리트 파이터인지 알아냅니다.2024-04-17 00:00
작성자 Level 1
기사 원문 - https://www.tomshardware.com/tech-industry/artificial-intelligence/fourteen-llms-fight-it-out-in-street-fighter-iii-ai-showdown-finds-out-which-models-make-the-best-street-fighters

 
클래식 아케이드 타이틀인 스트리트 파이터 III(Street Fighter III)를 기반으로 한 새로운 인공 지능(AI) 벤치마크가 지난 주 샌프란시스코에서 열린 미스트랄 AI 해커톤에서 고안되었습니다. 오픈 소스 LLM Colosseum 벤치마크는 Stan Girard 와 Quivr Brain이 개발했습니다 . 게임은 에뮬레이터 에서 실행되며 , LLM이 틀에 얽매이지 않지만 멋진 방식으로 게임을 플레이할 수 있습니다.

https://youtu.be/CGV0MlnOd30

AI 매니아인 Matthew Berman은 위에 포함된 비디오에서 새로운 격투 기반 대형 언어 모델 (LLM) 토너먼트를 소개합니다. Berman의 비디오는 거리 전투 액션을 보여주는 것 외에도 이 오픈 소스 프로젝트를 가정용 PC 또는 Mac에 설치하는 과정을 안내하므로 직접 테스트할 수 있습니다.


이는 일반적인 LLM 벤치마크가 아닙니다. 더 작은 모델은 일반적으로 대기 시간과 속도 이점이 있으며 이는 이 게임에서 더 많은 시합에서 승리한다는 의미입니다. 인간 격파 플레이어는 상대방의 반격에 대한 빠른 반응으로 이점을 얻을 수 있으며, 이 AI 대 AI 액션에서도 마찬가지입니다.

LLM은 싸우는 방법에 대해 실시간으로 결정을 내립니다. 텍스트 기반 모델로서 먼저 게임 상태를 맥락에 맞게 분석한 다음 이동 옵션을 고려한 후 게임 동작에 반응하는 방법에 대한 메시지를 받았습니다. 이동 옵션에는 다음이 포함됩니다. 더 가까이 이동하고, 멀리 이동하고, 불덩어리, 메가펀치, 허리케인 및 메가불덩어리를 실행하세요.


비디오에서 전투가 유동적으로 보이고 플레이어의 반격, 차단 및 특수 동작 사용이 전략적으로 나타나는 것을 볼 수 있습니다. 그러나 이 프로젝트를 작성하는 시점에는 Ken 캐릭터만 사용할 수 있습니다. 이는 완벽한 균형을 제공하지만 보기에는 덜 흥미로울 수 있습니다.

그렇다면 최고의 Street Fighter III AI는 무엇입니까? Girard가 수행한 테스트에 따르면 OpenAI의 GPT 3.5 Turbo는 서로 경쟁한 8개의 LLM 중에서 적절하게 명명된 승자(ELO 1776)입니다. Amazon 임원 Banjo Obayomi 가 실시한 별도의 일련의 테스트에서 우리는 14명의 LLM이 314개의 개별 경기에서 대결을 펼치고 Anthropic의 claude_3_haiku가 궁극적으로 승리하는 것을 확인했습니다(ELO 1613).

흥미롭게도 Banjo는 AI 환각 및 AI 안전 레일 과 같은 LLM 버그/기능이 때때로 특정 모델의 성능 향상을 방해한다는 사실도 관찰했습니다.


위로 스크롤