偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4o舉步維艱、Claude 3.7險(xiǎn)勝,《超級(jí)馬里奧》成為了檢驗(yàn)大模型的新試金石?

人工智能 新聞
最近,加州的一家實(shí)驗(yàn)室 Hao labs 推出了「GamingAgent」項(xiàng)目,這是一項(xiàng)測試 AI 性能的新方法,專為實(shí)時(shí)動(dòng)作游戲而構(gòu)建。

一直以來,AI 領(lǐng)域的研究者都喜歡讓模型去挑戰(zhàn)那些人類熱衷的經(jīng)典游戲,以此來檢驗(yàn) AI 的「智能程度」。

例如,在 Atari 游戲、圍棋(如 AlphaGo)或《星際爭霸》等環(huán)境中,游戲規(guī)則明確,邊界清晰,研究者可以精確控制變量(如難度、初始狀態(tài)、隨機(jī)性等),確保實(shí)驗(yàn)的可重復(fù)性。而 AlphaGo 的勝利能直接證明其策略能力,是因?yàn)橛螒虻膭儇?fù)、得分或任務(wù)完成度也天然提供了直觀的評(píng)估標(biāo)準(zhǔn)(如勝率、通關(guān)時(shí)間、得分高低),無需設(shè)計(jì)復(fù)雜的評(píng)價(jià)指標(biāo)。

此前,有開發(fā)者用 AI 挑戰(zhàn)過經(jīng)典之作《神奇寶貝》。這個(gè)游戲的畫風(fēng)雖然簡單,但是身為策略游戲,其中包含的角色、屬性、戰(zhàn)術(shù)、體系等,都讓人類玩家感到「入門容易精通難」。一開始,AI 沒有任何的知識(shí)和經(jīng)驗(yàn),只能夠隨機(jī)按下按鈕。但在五年的模擬游戲時(shí)間里,它在經(jīng)歷中習(xí)得了更多能力。最終,AI 能夠抓住寶可夢(mèng),進(jìn)化它們,并擊敗了道館館主。

當(dāng)我們以為這已經(jīng)算是高難度的時(shí)候,《超級(jí)馬里奧兄弟》再次刷新了大模型性能測試基準(zhǔn)的上限。

最近,加州的一家實(shí)驗(yàn)室 Hao labs 推出了「GamingAgent」項(xiàng)目,這是一項(xiàng)測試 AI 性能的新方法,專為實(shí)時(shí)動(dòng)作游戲而構(gòu)建。

項(xiàng)目地址:https://github.com/lmgame-org/GamingAgent

團(tuán)隊(duì)采用了《超級(jí)馬里奧兄弟》等平臺(tái)游戲與《2048》、《俄羅斯方塊》等益智游戲,作為不同 AI 模型的試驗(yàn)場。

圖片

GPT-4o 表現(xiàn)

圖片

Claude-3.7 表現(xiàn)

這是 Claude 3.7 在《俄羅斯方塊》中的表現(xiàn):

Claude 3.7 表現(xiàn)最好

GPT-4o 舉步維艱

這次的一系列實(shí)驗(yàn)并不是通過 1985 年版的《超級(jí)馬里奧兄弟》完成的,而是通過包含 GamingAgent 的模擬器完成的。

實(shí)驗(yàn)室發(fā)現(xiàn),這種獨(dú)特的游戲環(huán)境迫使每個(gè)模型設(shè)計(jì)復(fù)雜的操作和游戲策略,從而能夠考驗(yàn)出它們的適應(yīng)能力和解決問題的能力。

GamingAgent 模擬器為 AI 提供基本指令和游戲截圖,指令類似于:「如果附近有障礙物或敵人,請(qǐng)向左移動(dòng) / 跳躍以躲避。」然后 AI 通過 Python 代碼生成輸入,從而控制馬里奧。

在下圖的演示中,是四個(gè)大模型挑戰(zhàn)超級(jí)馬里奧兄弟 1-1 級(jí)的結(jié)果。Anthropic 的 Claude 3.7 表現(xiàn)最好,其次是 Claude 3.5。遺憾的是,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表現(xiàn)不佳。

圖片

有趣的是,盡管 OpenAI 的 GPT-4o 等推理模型在大多數(shù)基準(zhǔn)測試中總體表現(xiàn)更好,但在這種實(shí)時(shí)游戲場景中的表現(xiàn)卻不佳。這是因?yàn)橥评砟P偷臎Q策過程較慢,通常需要幾秒鐘才能確定如何行動(dòng)。

另一方面,非推理模型在超級(jí)馬里奧兄弟游戲中表現(xiàn)更佳,因?yàn)闀r(shí)機(jī)就是一切,可以決定成敗。一秒鐘也能導(dǎo)致安全跳過和墜落然后「Game Over」之間的差別。

使用《超級(jí)馬里奧兄弟》之類的游戲來對(duì) AI 進(jìn)行基準(zhǔn)測試并不是一個(gè)新想法。但畢竟游戲具備一些抽象性質(zhì),而且與現(xiàn)實(shí)世界的挑戰(zhàn)相比來說相對(duì)簡單,領(lǐng)域內(nèi)的很多專家對(duì)其能否確定技術(shù)發(fā)展程度的價(jià)值表示擔(dān)憂。

換言之,上述測試未必能說明 Claude 3.7 和 GPT-4o 哪個(gè)更強(qiáng)大。

Andrej Karpathy 最近就陷入了「評(píng)估危機(jī)」:「我真不知道現(xiàn)在應(yīng)該關(guān)注什么(AI)指標(biāo)。簡而言之,我的反應(yīng)是,我真的不知道這些模型現(xiàn)在有多好?!?/span>

截屏2025-03-07 10.57.00.png

而對(duì)于不斷推出的前沿模型來說,如何判斷性能更是個(gè)難題。

截屏2025-03-07 11.08.05.png

AI 的「評(píng)估危機(jī)」

我們?cè)撊绾魏饬看竽P偷男阅芴嵘?/span>

與此同時(shí),有業(yè)內(nèi)人士從另外一個(gè)維度提出了對(duì)大模型性能提升方向的質(zhì)疑。

 Hugging Face 的聯(lián)合創(chuàng)始人兼首席科學(xué)官 Thomas Wolf 周四在 X 平臺(tái)發(fā)文,表達(dá)了對(duì) AI 未來的深切憂慮。他擔(dān)心在缺乏根本性研究突破的情況下,人工智能將淪為「服務(wù)器上的好好先生」。在他看來,當(dāng)前的人工智能發(fā)展路徑難以培養(yǎng)出真正具備創(chuàng)造性思維的系統(tǒng) —— 那種能夠摘取諾貝爾桂冠的突破性思考能力。

image.png

「人們常犯的錯(cuò)誤是把牛頓或愛因斯坦簡單地視為優(yōu)等生的放大版,仿佛天才只是把成績靠前的學(xué)生線性延伸出來的結(jié)果,」Wolf 寫道,「在數(shù)據(jù)中心里打造一個(gè)愛因斯坦,我們需要的不是一個(gè)萬事通,而是一個(gè)敢于提出前人未曾想到或不敢發(fā)問的問題的系統(tǒng)。」

這一觀點(diǎn)與 OpenAI 首席執(zhí)行官奧特曼(Sam Altman)的說法形成鮮明對(duì)比,后者在今年早些時(shí)候撰文稱「超級(jí)智能」能「極大加速科學(xué)發(fā)現(xiàn)」。同樣,Anthropic 公司首席執(zhí)行官 Dario Amodei 也預(yù)測,AI 將助力大多數(shù)癌癥的治療方案研發(fā)。

Wolf 認(rèn)為當(dāng)下 AI 的問題在于:它不能通過連接原本不相關(guān)的事實(shí)來創(chuàng)造新知識(shí)。即使擁有互聯(lián)網(wǎng)上的海量信息,現(xiàn)今的 AI 主要只是在填補(bǔ)人類已有知識(shí)之間的空白。

包括前谷歌工程師弗朗索瓦?喬萊(Fran?ois Chollet)在內(nèi)的一些人工智能專家也表達(dá)了類似的觀點(diǎn),他們認(rèn)為 AI 雖能記憶推理模式,但難以針對(duì)全新情境產(chǎn)生真正的「新推理」。

Wolf 認(rèn)為,AI 實(shí)驗(yàn)室目前打造的只是「極其聽話的學(xué)生」,而非科學(xué)革命的締造者。當(dāng)今的 AI 不被鼓勵(lì)質(zhì)疑或提出可能與訓(xùn)練數(shù)據(jù)相悖的想法,這使其僅能回答已知范圍內(nèi)的問題。

「在數(shù)據(jù)中心里打造一個(gè)愛因斯坦,關(guān)鍵在于培養(yǎng)一個(gè)能提出前人未曾想到的問題的系統(tǒng),」沃爾夫強(qiáng)調(diào),「一個(gè)當(dāng)所有教科書、專家和常識(shí)都持相反觀點(diǎn)時(shí),仍會(huì)問『如果大家都錯(cuò)了呢?』的系統(tǒng)。」

Wolf 指出,AI 領(lǐng)域的「評(píng)估危機(jī)」是問題的癥結(jié)所在。目前評(píng)估 AI 進(jìn)步的標(biāo)準(zhǔn)大多由具有明確、顯而易見的「封閉式」答案的問題構(gòu)成。

作為解決之道,Wolf 建議行業(yè)轉(zhuǎn)向能夠評(píng)估 AI 是否具備「大膽的反常規(guī)思考」、基于「微弱線索」提出普適性建議,以及提出能開辟「研究新徑」的「非顯而易見問題」的能力標(biāo)準(zhǔn)。

他承認(rèn),確定這種評(píng)估標(biāo)準(zhǔn)的具體形式是個(gè)難題,但認(rèn)為這值得投入精力。

「科學(xué)的精髓在于提出正確問題并挑戰(zhàn)既有知識(shí)的能力,」Wolf 總結(jié)道,「我們不需要一個(gè)靠常識(shí)拿 A+ 的學(xué)生,而需要一個(gè)能看到并質(zhì)疑所有人都忽略之處的 B 等生?!?/span>

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-04 08:40:00

AI游戲訓(xùn)練

2013-03-19 09:54:26

公有云遷移云遷移工具亞馬遜Web服務(wù)

2012-03-27 14:22:25

云計(jì)算云安全

2025-08-06 05:00:00

2025-01-14 13:20:56

2011-10-24 15:51:12

英特爾移動(dòng)ARM

2013-01-13 11:26:20

Ubuntu手機(jī)系統(tǒng)Ubuntu手機(jī)

2025-04-08 02:26:00

2018-01-10 07:08:18

寬帶運(yùn)營商民營資本

2024-09-06 13:00:29

2017-04-16 18:28:25

人工智能

2024-06-21 09:58:38

2013-12-10 13:27:09

云計(jì)算

2018-11-20 09:57:01

谷歌云計(jì)算開發(fā)者

2025-08-07 14:05:40

OpenAI大模型開源

2024-05-20 08:20:00

OpenAI模型

2024-06-05 13:09:26

2024-06-21 09:51:17

2024-06-28 18:13:05

2024-05-14 11:29:15

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)