Twitterを見ていたら、LLM同士をストリートファイター3で戦わせてどちらが性能が良いかを競い合うプロジェクトを見つけました。LLMの性能を計測するベンチマークとしてストリートファイター3を利用しています。 Introducing LLM Colosseum ! 🔥 Evaluate LLMs quality by having them fight in realtime in Street Fighter III ! Who is the best ? @OpenAI or @MistralAI ? Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA — Stan Girard (@_StanGirard) March 24, 2024 LLM同士を戦わせて、どちらが優れているかを