Claude 3.7硬控馬里奧90秒,GPT-4o開(kāi)局暴斃!Karpathy直呼基準(zhǔn)失效,游戲成LLM新戰(zhàn)場(chǎng)
LLM評(píng)估基準(zhǔn)的「黃金標(biāo)準(zhǔn)」,正在失效?
一大早,AI大神Karpathy發(fā)出質(zhì)疑,「目前存在一種評(píng)估危機(jī),我真的不知道現(xiàn)在該看哪些指標(biāo)了」。
諸如MMLU、SWE-Bench Verified、Chatbot Arena等這些基準(zhǔn),各有自己的優(yōu)劣之處。
如果這些都不夠,那么游戲算不算?
畢竟,曾經(jīng)紅極一時(shí)的AlphaGo是圍棋界的頭號(hào)AI;就連OpenAI也早年涉足游戲領(lǐng)域,拿著自研AI在DOTA國(guó)際賽中取得亮眼的成績(jī)。
最近,Claude 3.7的出世,讓「寶可夢(mèng)」一時(shí)間成為L(zhǎng)LM評(píng)判的新標(biāo)桿。
UCSD Hao AI Lab再次出手,開(kāi)源了一種全新的「游戲智能體」,能夠?qū)崟r(shí)讓計(jì)算機(jī)使用智能體(CUA)運(yùn)行解謎、益智等類型的游戲。
結(jié)果顯示,Claude 3.7 Sonnet玩超級(jí)馬里奧足足撐滿90s,直接碾壓了OpenAI、Gemini和自家前輩;而GPT-4o一上來(lái)就直接掛掉了……
谷歌選手Gemini 1.5 Pro首戰(zhàn)即敗,而且非常有規(guī)律地兩步一跳。到了Gemini 2.0雖多走了幾步,最終還是栽坑。
GamingAgent項(xiàng)目代碼已開(kāi)源,下載安裝即可觀戰(zhàn)AI游戲大PK。
開(kāi)源地址:https://github.com/lmgame-org/GamingAgent
「游戲智能體」演示demo
GPT-4.5反應(yīng)遲鈍,GPT-4o永遠(yuǎn)被第一個(gè)小怪殺死
GPT-4o總是被第一個(gè)小怪殺死,像極了操作很爛會(huì)被隊(duì)友噴的游戲菜雞。
短短20s,游戲就結(jié)束了。
相比之下,GPT-4.5的表現(xiàn)就好多了,起碼沒(méi)卡在第一個(gè)小怪。
但它的反應(yīng)還是很遲緩,幾乎是兩步一停。
跳過(guò)一個(gè)矮水管之前,也要猶豫片刻,感覺(jué)像是剛學(xué)會(huì)了游戲操作,還在蹣跚學(xué)步。
一個(gè)稍高點(diǎn)的水管,嘗試了7次,足足花了10s才跳了過(guò)去。
好不容易跳了過(guò)去,就撞到小怪死掉了。第一回合就這樣告終了。
更好笑的是,第二回合的時(shí)候,GPT-4.5又栽倒在了第一個(gè)小怪那里。畢竟和GPT-4o同屬于OpenAI家族,操作都比較菜(bushi)。
第三回合表現(xiàn)也比較一般,還不如第一回合。第一個(gè)矮水管就卡了半天,擱水管底下卡了快10s才想起來(lái)跳。
最后雖然絲滑地跳過(guò)了第二個(gè)水管,但還是被小怪殺死了,還沒(méi)有第一回合走得遠(yuǎn)。第一回合起碼跳過(guò)了第三個(gè)水管,雖說(shuō)剛跳過(guò)就被殺了。
GPT-4.5完整視頻
Gemini 1.5兩步一跳,2.0栽進(jìn)坑里
到了谷歌這邊,Gemini 1.5 Pro首戰(zhàn)也不如意,沒(méi)能逃過(guò)第一個(gè)小怪的魔爪。
第二回合Gemini 1.5算是躲過(guò)了第一個(gè)小怪,甚至還碰到了問(wèn)號(hào)箱,吃到了蘑菇。
有趣的是,和GPT-4.5兩步一停不同,Gemini 1.5是「兩步一跳」。
走了這么一小段路,一共就跳了9回。地板上也跳一跳,水管上也跳一跳。
最后也是跳過(guò)了第三根水管,甚至差點(diǎn)跳過(guò)了第四個(gè),算是走得比GPT-4.5要遠(yuǎn)。
至于更新的Gemini 2.0 Flash,表現(xiàn)上不出意外地要好得多。
首先,跳得更大膽;其次,跳得也更流暢。
跳到了「前人」未曾涉足的更高的平臺(tái)上,而且10s就輕松跳過(guò)了前面三個(gè)水管。
雖然第二回合的時(shí)候也慘遭第一個(gè)小怪的毒手。
但最后走得比OpenAI家族和Gemini 1.5都遠(yuǎn)——跳過(guò)了第四根水管,栽倒在了一個(gè)沒(méi)能跳過(guò)去的坑中。
Gemini 2.0 Flash完整視頻
Claude 3.7 Sonnet發(fā)現(xiàn)隱藏獎(jiǎng)勵(lì)
相比之下,Anthropic的Claude,就要驚艷多了。
相比于Gemini兩步一跳的操作,Claude 3.7的操作更加絲滑,走得也遠(yuǎn)很多。
尤其是在跳躍的時(shí)機(jī)上,顯得更有章法,碰到水管、碰到坑才會(huì)跳。
此外,還會(huì)有意識(shí)地通過(guò)跳躍來(lái)躲避小怪。
跳過(guò)了Gemini 2.0 Flash兩回合都沒(méi)跳過(guò)去的坑,Claude操作下的馬里奧終于是吃到了金幣;終于是碰到了除了哥布林(形似蘑菇)之外的小怪——庫(kù)巴(形似烏龜);甚至還碰出了隱藏獎(jiǎng)勵(lì)——超級(jí)星星。
最后是掉到了階梯平臺(tái)之間的坑里,結(jié)束了游戲。
AI大戰(zhàn)2048益智游戲,GPT-4o拿不出手
接下來(lái),再看一個(gè)益智類的游戲2048。
可能很多人對(duì)這款游戲并不熟悉,規(guī)則是通過(guò)滑動(dòng)進(jìn)行拼圖,玩家將帶有相同數(shù)字的方塊合并,達(dá)到可能最高的數(shù)值。
GPT-4o在挑戰(zhàn)過(guò)程中,因?yàn)樗伎歼^(guò)久,陷入困境。
而Claude 3.7雖多走了幾步,比GPT-4o強(qiáng)不少,但最終還是以失敗告終。
俄羅斯方塊,智商在線
那么Claude 3.7玩俄羅斯方塊的表現(xiàn),又如何呢?
Anthropic開(kāi)發(fā)者關(guān)系負(fù)責(zé)人Alex Albert稱贊道,「非常酷!我們需要把每一款電子游戲都變成一種評(píng)估工具」。
已經(jīng)有網(wǎng)友在評(píng)論區(qū)許愿,讓Grok 3加入戰(zhàn)場(chǎng)。
看來(lái),LLM評(píng)估即將開(kāi)辟一條全新的路。