偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Claude 3.7硬控馬里奧90秒，GPT-4o開(kāi)局暴斃！Karpathy直呼基準(zhǔn)失效，游戲成LLM新戰(zhàn)場(chǎng)

作者：新智元 2025-03-04 08:40:00

人工智能新聞

Karpathy發(fā)出靈魂拷問(wèn)，評(píng)估AI究竟該看哪些指標(biāo)？答案或許就藏在經(jīng)典游戲里！最近，加州大學(xué)圣迭戈分校Hao AI Lab用超級(jí)馬里奧等評(píng)測(cè)AI智能體，Claude 3.7結(jié)果令人瞠目結(jié)舌。

LLM評(píng)估基準(zhǔn)的「黃金標(biāo)準(zhǔn)」，正在失效？

一大早，AI大神Karpathy發(fā)出質(zhì)疑，「目前存在一種評(píng)估危機(jī)，我真的不知道現(xiàn)在該看哪些指標(biāo)了」。

諸如MMLU、SWE-Bench Verified、Chatbot Arena等這些基準(zhǔn)，各有自己的優(yōu)劣之處。

如果這些都不夠，那么游戲算不算？

畢竟，曾經(jīng)紅極一時(shí)的AlphaGo是圍棋界的頭號(hào)AI；就連OpenAI也早年涉足游戲領(lǐng)域，拿著自研AI在DOTA國(guó)際賽中取得亮眼的成績(jī)。

最近，Claude 3.7的出世，讓「寶可夢(mèng)」一時(shí)間成為L(zhǎng)LM評(píng)判的新標(biāo)桿。

UCSD Hao AI Lab再次出手，開(kāi)源了一種全新的「游戲智能體」，能夠?qū)崟r(shí)讓計(jì)算機(jī)使用智能體（CUA）運(yùn)行解謎、益智等類型的游戲。

結(jié)果顯示，Claude 3.7 Sonnet玩超級(jí)馬里奧足足撐滿90s，直接碾壓了OpenAI、Gemini和自家前輩；而GPT-4o一上來(lái)就直接掛掉了……

谷歌選手Gemini 1.5 Pro首戰(zhàn)即敗，而且非常有規(guī)律地兩步一跳。到了Gemini 2.0雖多走了幾步，最終還是栽坑。

GamingAgent項(xiàng)目代碼已開(kāi)源，下載安裝即可觀戰(zhàn)AI游戲大PK。

開(kāi)源地址：https://github.com/lmgame-org/GamingAgent

「游戲智能體」演示demo

GPT-4.5反應(yīng)遲鈍，GPT-4o永遠(yuǎn)被第一個(gè)小怪殺死

GPT-4o總是被第一個(gè)小怪殺死，像極了操作很爛會(huì)被隊(duì)友噴的游戲菜雞。

短短20s，游戲就結(jié)束了。

相比之下，GPT-4.5的表現(xiàn)就好多了，起碼沒(méi)卡在第一個(gè)小怪。

但它的反應(yīng)還是很遲緩，幾乎是兩步一停。

跳過(guò)一個(gè)矮水管之前，也要猶豫片刻，感覺(jué)像是剛學(xué)會(huì)了游戲操作，還在蹣跚學(xué)步。

一個(gè)稍高點(diǎn)的水管，嘗試了7次，足足花了10s才跳了過(guò)去。

好不容易跳了過(guò)去，就撞到小怪死掉了。第一回合就這樣告終了。

更好笑的是，第二回合的時(shí)候，GPT-4.5又栽倒在了第一個(gè)小怪那里。畢竟和GPT-4o同屬于OpenAI家族，操作都比較菜（bushi）。

第三回合表現(xiàn)也比較一般，還不如第一回合。第一個(gè)矮水管就卡了半天，擱水管底下卡了快10s才想起來(lái)跳。

最后雖然絲滑地跳過(guò)了第二個(gè)水管，但還是被小怪殺死了，還沒(méi)有第一回合走得遠(yuǎn)。第一回合起碼跳過(guò)了第三個(gè)水管，雖說(shuō)剛跳過(guò)就被殺了。

GPT-4.5完整視頻

Gemini 1.5兩步一跳，2.0栽進(jìn)坑里

到了谷歌這邊，Gemini 1.5 Pro首戰(zhàn)也不如意，沒(méi)能逃過(guò)第一個(gè)小怪的魔爪。

第二回合Gemini 1.5算是躲過(guò)了第一個(gè)小怪，甚至還碰到了問(wèn)號(hào)箱，吃到了蘑菇。

有趣的是，和GPT-4.5兩步一停不同，Gemini 1.5是「兩步一跳」。

走了這么一小段路，一共就跳了9回。地板上也跳一跳，水管上也跳一跳。

最后也是跳過(guò)了第三根水管，甚至差點(diǎn)跳過(guò)了第四個(gè)，算是走得比GPT-4.5要遠(yuǎn)。

至于更新的Gemini 2.0 Flash，表現(xiàn)上不出意外地要好得多。

首先，跳得更大膽；其次，跳得也更流暢。

跳到了「前人」未曾涉足的更高的平臺(tái)上，而且10s就輕松跳過(guò)了前面三個(gè)水管。

雖然第二回合的時(shí)候也慘遭第一個(gè)小怪的毒手。

但最后走得比OpenAI家族和Gemini 1.5都遠(yuǎn)——跳過(guò)了第四根水管，栽倒在了一個(gè)沒(méi)能跳過(guò)去的坑中。

Gemini 2.0 Flash完整視頻

Claude 3.7 Sonnet發(fā)現(xiàn)隱藏獎(jiǎng)勵(lì)

相比之下，Anthropic的Claude，就要驚艷多了。

相比于Gemini兩步一跳的操作，Claude 3.7的操作更加絲滑，走得也遠(yuǎn)很多。

尤其是在跳躍的時(shí)機(jī)上，顯得更有章法，碰到水管、碰到坑才會(huì)跳。

此外，還會(huì)有意識(shí)地通過(guò)跳躍來(lái)躲避小怪。

跳過(guò)了Gemini 2.0 Flash兩回合都沒(méi)跳過(guò)去的坑，Claude操作下的馬里奧終于是吃到了金幣；終于是碰到了除了哥布林（形似蘑菇）之外的小怪——庫(kù)巴（形似烏龜）；甚至還碰出了隱藏獎(jiǎng)勵(lì)——超級(jí)星星。

最后是掉到了階梯平臺(tái)之間的坑里，結(jié)束了游戲。

AI大戰(zhàn)2048益智游戲，GPT-4o拿不出手

接下來(lái)，再看一個(gè)益智類的游戲2048。

可能很多人對(duì)這款游戲并不熟悉，規(guī)則是通過(guò)滑動(dòng)進(jìn)行拼圖，玩家將帶有相同數(shù)字的方塊合并，達(dá)到可能最高的數(shù)值。

GPT-4o在挑戰(zhàn)過(guò)程中，因?yàn)樗伎歼^(guò)久，陷入困境。

而Claude 3.7雖多走了幾步，比GPT-4o強(qiáng)不少，但最終還是以失敗告終。

俄羅斯方塊，智商在線

那么Claude 3.7玩俄羅斯方塊的表現(xiàn)，又如何呢？

Anthropic開(kāi)發(fā)者關(guān)系負(fù)責(zé)人Alex Albert稱贊道，「非常酷！我們需要把每一款電子游戲都變成一種評(píng)估工具」。

已經(jīng)有網(wǎng)友在評(píng)論區(qū)許愿，讓Grok 3加入戰(zhàn)場(chǎng)。

看來(lái)，LLM評(píng)估即將開(kāi)辟一條全新的路。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 游戲訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ruby id="tu848"></ruby>

<abbr id="tu848"><button id="tu848"></button></abbr>

<u id="tu848"><rp id="tu848"></rp></u>