偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

o3通關(guān)「俄羅斯方塊」,碾壓Gemini奪冠!UCSD新基準(zhǔn)擊碎寶可夢

人工智能
UCSD等推出Lmgame Bench標(biāo)準(zhǔn)框架,結(jié)合多款經(jīng)典游戲,分模塊測評模型的感知、記憶與推理表現(xiàn)。結(jié)果顯示,不同模型在各游戲中表現(xiàn)迥異,凸顯游戲作為AI評估工具的獨特價值。

誰能想到,作為童年回憶的寶可夢,現(xiàn)在竟搖身一變,成了大模型的試金石!

在無數(shù)人的童年記憶中,《寶可夢》是一款意義非凡的游戲——簡單的操作哪怕是年紀(jì)尚小的孩子也能輕松上手。

然而,要真正通關(guān)這款游戲,仍然需要縝密的規(guī)劃和大量的時間投入。

如今,這款承載童年回憶的游戲,已悄然成為各大科技公司測試最新LLM的「香餑餑」。

從Anthropic到Google,從Claude到Gemini,各家模型紛紛亮出「通關(guān)寶可夢」的戰(zhàn)績作為展示推理、規(guī)劃與長期記憶能力的證據(jù)。

而且通關(guān)后,谷歌的CEO劈柴都要親自發(fā)帖來慶祝。

圖片圖片

真的令人好奇,都2025年了,為何AI通關(guān)《寶可夢》就成了個大新聞?

更何況,寶可夢最早的發(fā)售是1995年,30年前的游戲為何成為了檢驗最新AI頂級模型的試金石?

這是因為最先進(jìn)的AI也不一定擁有人類幼兒的感知和行動能力。

莫拉維克悖論

在LLM還未出現(xiàn)的1980年代,早期的人工智能似乎已經(jīng)開始展現(xiàn)「智慧」。

人工智能的先驅(qū)漢斯·莫拉維克、羅德尼·布魯克斯、馬文·閔斯基等人發(fā)現(xiàn)一個悖論。

要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當(dāng)困難甚至是不可能的。

語言學(xué)家和認(rèn)知科學(xué)家史迪芬·平克認(rèn)為這是人工智能學(xué)者的最重要發(fā)現(xiàn)。經(jīng)過35年人工智能的研究,他發(fā)現(xiàn)最重要的課題是:

困難的問題是易解的,簡單的問題是難解的。

四歲小孩具有的本能——辨識人臉、舉起鉛筆、在房間內(nèi)走動、回答問題——事實上卻是工程領(lǐng)域內(nèi)目前為止最難解的問題。

當(dāng)新一代的AI出現(xiàn)后,股票分析師、石化工程師都要小心他們的位置被取代,但是園丁、接待員和廚師至少十年內(nèi)都不用擔(dān)心被人工智能所取代。

這也是目前所有頂級模型都希望通過寶可夢游戲證明的——目前的LLM到底有沒有感知能力?

圖片圖片

Claude Opus 4還在直播玩寶可夢,已經(jīng)繼續(xù)了12萬+步。

寶可夢作為評測基準(zhǔn),合理嗎?

寶可夢被越來越多地用于評估現(xiàn)代大型語言模型,但存在一個很大的問題——目前的挑戰(zhàn)都缺乏標(biāo)準(zhǔn)化。

Anthropic為Cladue模型提供了導(dǎo)航和讀取游戲狀態(tài)內(nèi)存的工具。

該模型進(jìn)行了幾場道館對戰(zhàn),大約執(zhí)行了35,000個游戲內(nèi)動作才到達(dá)電系道館首領(lǐng)。

但Anthropic并未詳細(xì)說明什么具體算作一個「動作」,也未說明允許多少次重試。

圖片圖片

Google的Gemini 2.5 Pro已經(jīng)完成了《寶可夢 藍(lán)》(并在《寶可夢 紅》中獲得了第五個徽章)。

然而,它依賴額外的外部代碼來提取更全面的游戲狀態(tài)文本表示并指導(dǎo)決策。

圖片圖片

并且運行完成游戲需要大量的時間,僅獲得第五個徽章,就需要超過500個小時。

同時API的使用會產(chǎn)生大量費用。

如何才能將大模型最愛玩的《寶可夢》游戲轉(zhuǎn)化為標(biāo)準(zhǔn)化評估框架,甚至是多種游戲的評估框架?

這就是今天介紹的Lmgame Bench,它精心選取了一批難度適中的游戲,并提供了分層測試機(jī)制,更適合衡量大模型的真實能力。

圖片圖片

博客地址:https://lmgame.org/#/blog/pokemon_red

該測試基準(zhǔn)由UCSD等重磅出品,研究了如何使用流行的視頻游戲來評估現(xiàn)代LLM。

圖片圖片

論文地址:https://arxiv.org/pdf/2505.15146

Lmgame基準(zhǔn)測試

Lmgame Bench使用模塊化測試框架——如感知、記憶和推理模塊——系統(tǒng)地擴(kuò)展模型的游戲能力。

這些測試框架使模型能夠通過迭代交互循環(huán)與模擬游戲環(huán)境進(jìn)行交互。

Lmgame-Bench采用了一種標(biāo)準(zhǔn)化的提示優(yōu)化技術(shù),以降低對提示的敏感性。

圖片圖片

為了在沒有任何外部定制游戲「腳手架」的情況下區(qū)分模型能力,Lmgame Bench精選了一系列中等難度的視頻游戲。

這些游戲包括:

推箱子:得分計算方式為所有關(guān)卡中推到目標(biāo)位置的箱子總數(shù),統(tǒng)計范圍從非常簡單的關(guān)卡一直到Sokoban 1989中最難的關(guān)卡,直到出現(xiàn)第一個死局為止。

圖片圖片

超級馬里奧兄弟:分?jǐn)?shù)是馬里奧在所有關(guān)卡中累計的橫向移動距離(游戲單位),直到失去全部三條生命或完成最終關(guān)卡為止。具備更強物理直覺和空間推理能力的模型通常能夠獲得更高的分?jǐn)?shù)。

圖片圖片

俄羅斯方塊:分?jǐn)?shù)是已注冊的總方塊數(shù)加上消除的總行數(shù)(乘以10倍系數(shù)),計算至游戲結(jié)束為止。不同的模型持續(xù)游戲的時間各不相同,這取決于它們高效處理下落方塊的能力。例如,o3-pro能夠有效清除超過10行,從而持續(xù)保持游戲進(jìn)行。

圖片圖片

2048:合并方塊值的總和(例如,合并兩個2會獲得+4),記錄直到棋盤停滯(連續(xù)十次回合沒有合并或改變棋盤的移動)。然后我們會報告它們的總得分。由于游戲可以持續(xù)超過10萬步,這為區(qū)分模型在較長時間范圍內(nèi)的能力提供了強有力的依據(jù)。

圖片圖片

糖果消除:在固定的50步會話中消除的糖果總數(shù)。盡管游戲相對簡單,但它能有效區(qū)分模型在優(yōu)化移動步驟和清除糖果方面的能力。

圖片圖片

逆轉(zhuǎn)裁判:在所有案件關(guān)卡中正確操作(提交證據(jù)、對話選擇等)的總次數(shù),直到用盡五次錯誤決定機(jī)會(生命值)。此游戲用于評估模型的上下文理解和推理能力。

圖片圖片

模塊設(shè)計

許多模型在視覺理解上存在脆弱性,導(dǎo)致對游戲狀態(tài)頻繁誤判。

想要在游戲中取得成功,需要有效的記憶機(jī)制來實現(xiàn)長期決策。

Lmgame針對性的開發(fā)了三大模塊。

感知模塊:將原始游戲幀或UI元素轉(zhuǎn)換為結(jié)構(gòu)化的符號/文本狀態(tài)描述,減少對脆弱視覺的依賴。

內(nèi)存模塊:存儲最近的狀態(tài)、動作和反思筆記,以縮小動作空間并支持長期規(guī)劃。

推理模塊:綜合所有其他模塊的信息,并可選地開啟長鏈?zhǔn)剿季S推理。

o3玩2048的記憶模塊展示o3玩2048的記憶模塊展示

Gym風(fēng)格標(biāo)準(zhǔn)接口

不過研究人員發(fā)現(xiàn),使用計算機(jī)直接操作智能體進(jìn)行基準(zhǔn)測試存在重大缺陷。

每款游戲都對計算機(jī)的操作要求不同,依賴基于屏幕截圖的觀測容易出現(xiàn)感知錯誤。

圖片圖片

并且在對延遲敏感的的游戲中存在不可預(yù)測的延遲,這些問題都削弱了測試結(jié)果的一致性和可比性。

為此研究團(tuán)隊實現(xiàn)了一個采用Gym風(fēng)格API的新標(biāo)準(zhǔn)化接口,來統(tǒng)一評估設(shè)置。

結(jié)合輕量級的感知與記憶輔助模塊設(shè)計,穩(wěn)定提示帶來的差異并消除數(shù)據(jù)污染。

圖片圖片

在13個領(lǐng)先模型上的實驗表明,Lmgame-Bench具有挑戰(zhàn)性,同時仍能有效區(qū)分不同模型。

圖片圖片

排行榜前列由o3占據(jù),這款模型以其強大的視覺感知、空間推理和長視野規(guī)劃能力而著稱。

不過令人意外的是,o3雖然完全拿下了2048、推箱子和俄羅斯方塊,但是在糖果消除中遠(yuǎn)遠(yuǎn)落后。

圖片圖片

現(xiàn)在,借助Lmgame提供的開源代碼,任何人都可以通過一條命令為任何受支持的模型-游戲組合啟動評估。

圖片圖片

近期所有模型的進(jìn)步表明,在數(shù)學(xué)和編程任務(wù)重,整合強化學(xué)習(xí)可以顯著增強LLMs的推理能力。

即使是最簡單的RL算法也能改善模型的規(guī)劃和決策能力,這種能力在與復(fù)雜環(huán)境互動時顯得尤為重要。

這些進(jìn)展凸顯了游戲環(huán)境作為評估LLMs的有效基準(zhǔn)作用。

過去那些經(jīng)典的游戲經(jīng)過精心的設(shè)計,用來挑戰(zhàn)人類的思維和認(rèn)知能力。

圖片圖片

同樣地,這些游戲是極具價值但尚未被充分利用的AI基準(zhǔn)測試資源。

同時,在經(jīng)典游戲之外,我們現(xiàn)在還有眾多的3A大作,可以預(yù)見,未來的評估體系將具有高度可擴(kuò)展的發(fā)展路徑。

圖片圖片

Lmgame Bench的誕生,正是在這個背景下給出答案:真正的智能不僅要能寫代碼、做數(shù)學(xué)題,更要能在復(fù)雜、開放、動態(tài)的環(huán)境中持續(xù)思考、規(guī)劃并行動。

而這場測試,還遠(yuǎn)未結(jié)束。

參考資料

https://lmgame.org/#/blog/pokemon_red

https://x.com/haoailab/status/1939777711502946544

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2015-01-22 15:36:46

游戲源碼

2014-10-08 10:04:14

代碼解釋俄羅斯方塊

2011-06-13 18:21:12

2021-01-12 12:16:55

鴻蒙HarmonyOS游戲

2020-02-27 13:43:14

Emacs俄羅斯方塊應(yīng)用

2021-12-29 11:56:16

Linux俄羅斯方塊

2020-05-19 17:26:21

Python俄羅斯方塊游戲開發(fā)

2014-05-26 10:07:18

Javascript俄羅斯方塊

2016-06-13 10:21:49

二維碼條形碼二進(jìn)制

2015-04-28 09:21:28

JSJS俄羅斯方塊游戲帝國

2025-06-11 08:56:54

2023-09-26 08:51:29

PygamePython語言

2023-09-25 12:35:27

Python

2014-06-09 12:47:35

俄羅斯方塊

2012-11-05 10:50:50

程序員萬圣節(jié)俄羅斯方塊

2020-12-17 10:02:16

鴻蒙Hi3861開發(fā)板

2009-06-08 09:59:24

谷歌俄羅斯方塊版權(quán)

2011-11-17 16:14:25

Jscex

2020-12-11 12:45:04

鴻蒙Hi3861游戲

2025-05-14 10:09:12

點贊
收藏

51CTO技術(shù)棧公眾號