復刻AlphaGo時刻？谷歌推出LLM評估新范式Game Arena：八大模型參賽，棋王當裁判

2025-08-05 09:20:49

據(jù)谷歌DeepMind CEO Demis Hassabis透露，目前模型的表現(xiàn)都不好

剛剛谷歌聯(lián)合Kaggle推出了一個全新LLM評估平臺- Game Arena，這個平臺通過讓LLM在戰(zhàn)略游戲中直接對抗，提供一個客觀、動態(tài)且可擴展的評估新范式。為慶祝平臺上線，將在北美時間8月5日舉行首次LLM象棋比賽，八大頂尖AI模型（谷歌，OpenAI，Anthropic，xAI，DeepSeek，月之暗面）參與、世界棋王馬格努斯·卡爾森等人解說

據(jù)谷歌DeepMind CEO Demis Hassabis透露，目前模型的表現(xiàn)都不好

另外OpenAI已經(jīng)確定本周有重大發(fā)布，谷歌也表示會整大活，這個新的評估基準可能就是其中之一，這周大家可以期待一下，據(jù)說Claude 4.1也會發(fā)布，簡直神仙打架，各位記得星標我，這樣可以第一時間收到最新消息

以下是關于Kaggle Game Arena詳細信息

谷歌DeepMind與全球最大的數(shù)據(jù)科學社區(qū)Kaggle共同宣布，正式推出Kaggle Game Arena——一個開放的、以戰(zhàn)略游戲為核心的AI基準測試平臺。它將成為衡量前沿AI系統(tǒng)真實能力的新標尺

谷歌DeepMind的CEO Demis Hassabis是推動這個基準的核心人物，Demis不僅是AI大神，諾獎獲得者，也是游戲高手，從小就對游戲癡迷，這個新的排行榜將測試LLM在游戲中的表現(xiàn)，通過AI系統(tǒng)間的相互博弈，建立一個客觀且常青的基準，其難度會隨著AI的進步而不斷提升

為何需要新的評估方式？

長期以來，AI社區(qū)依賴于各類標準化基準來衡量模型性能。然而，隨著模型能力飛速發(fā)展，這些傳統(tǒng)方法正面臨三大挑戰(zhàn)：

數(shù)據(jù)污染： 模型在訓練時可能已經(jīng)見過基準測試中的題目和答案，導致評估結果無法反映其真實的推理能力，而更像是記憶力測試
基準飽和： 頂級模型在許多現(xiàn)有基準上已接近滿分，這使得我們難以區(qū)分模型間的細微但關鍵的性能差異
主觀性問題： 近期流行的人類偏好動態(tài)測試雖然解決了上述問題，但又引入了新難題——評估結果會因裁判的主觀判斷而產生偏差

在通往AGI的道路上，需要更可靠的試金石。游戲，正是完美的解決方案。

為什么是游戲？

從DeepMind的AlphaGo到AlphaStar，游戲一直是驗證和推動AI發(fā)展的關鍵領域。Game Arena選擇游戲作為評估核心，原因在于：

明確的勝負： 游戲有清晰的規(guī)則和沒有歧義的成功標準，為模型評估提供了客觀、可量化的信號

考驗復雜能力： 游戲能有效測試模型的戰(zhàn)略推理、長期規(guī)劃、動態(tài)適應，甚至是心智理論（模擬對手思維）等高級認知能力

可擴展的難度： 游戲的難度會隨著對手的智能水平而自然提升，為持續(xù)評估提供了永不封頂?shù)奶魬?zhàn)

可解釋的過程： 可以觀察和復盤模型的每一步?jīng)Q策，洞察其思考過程，就像AlphaGo當年和李世石比賽時震驚世界的第37手一樣，這為我們理解和改進AI提供了寶貴窗口

值得注意的是，當今的通用LLM并非像Stockfish或AlphaZero那樣是為特定游戲而生的專用AI。因此，它們在游戲中的表現(xiàn)遠未達到超人水平。這恰恰為評估它們的通用問題解決能力提供了一個充滿挑戰(zhàn)和機遇的全新維度

Game Arena

Game Arena建立在Kaggle成熟的競賽基礎設施之上，其核心由以下幾部分構成：

環(huán)境： 定義了游戲的規(guī)則、目標和狀態(tài)，是模型交互的場地

適配器： 連接模型與游戲環(huán)境的橋梁。它定義了模型接收何種信息（看到什么）以及如何約束其輸出（如何決策）

排行榜： 基于Elo等級分等指標對模型進行排名，并通過大量比賽動態(tài)更新，確保結果的統(tǒng)計穩(wěn)健性

該平臺的一大核心原則是開放與透明。所有的游戲環(huán)境、適配器和比賽數(shù)據(jù)都將開源，任何人都可以審查模型的評估方式

首秀：萬眾矚目的AI象棋表演賽

為慶祝Game Arena的啟動，Kaggle將舉辦一場為期三天的AI象棋表演賽

時間： 8月5日至7日，太平洋時間每日上午10:30開始

參賽模型： 八大世界頂級AI模型將悉數(shù)登場，包括：

*   Google: Gemini 2.5 Pro, Gemini 2.5 Flash
*   OpenAI: o3, o4-mini
*   Anthropic: Claude Opus 4
*   xAI: Grok 4
*   DeepSeek: DeepSeek-R1
*   月之暗面 (Moonshot AI): Kimi 2-K2-Instruct

解說天團： 比賽邀請了國際象棋界的傳奇人物進行解說，包括：

*   馬格努斯·卡爾森 (Magnus Carlsen)
*   中村光 (Hikaru Nakamura)
*   Levy Rozman (GothamChess)

比賽規(guī)則（象棋-文本適配器）：

純文本輸入：模型通過文本接收棋局信息并輸出著法

無外部工具：禁止模型調用Stockfish等象棋引擎

合法性檢查：模型走出不合規(guī)的棋步有3次重試機會，否則直接判負

時間限制：每步棋有60分鐘的思考時間

賽制說明：本次直播的表演賽采用單敗淘汰制。但更重要的是，這只是為了觀賞性。最終的排行榜排名將由更嚴謹?shù)难h(huán)賽決定，即每對模型之間進行數(shù)百場比賽，以得出穩(wěn)定可靠的Elo分數(shù)

構建不斷演進的AI基準

象棋僅僅是一個開始。Kaggle計劃迅速擴展Game Arena，引入更多經(jīng)典游戲，如圍棋和撲克，未來還將涵蓋更復雜的視頻游戲。這些新挑戰(zhàn)將持續(xù)推動AI在長遠規(guī)劃、信息不完整決策等方面的能力邊界

感興趣可以訪問 kaggle.com/game-arena 觀看比賽直播和了解更多詳情。AI的下一個AlphaGo時刻，或許就將在這個全新的競技場上誕生，后續(xù)我會第一時間跟新比賽結果

責任編輯：張燕妮來源： AI寒武紀

AI 模型谷歌

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

復刻AlphaGo時刻？谷歌推出LLM評估新范式Game Arena：八大模型參賽，棋王當裁判