偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI玩寶可夢(mèng)找出30年前代碼Bug!谷歌論文介紹AI通關(guān)全過程,復(fù)雜任務(wù)都能解

人工智能 新聞
谷歌花超長(zhǎng)篇幅介紹了Gemini 2.5 Pro玩《寶可夢(mèng)藍(lán)》時(shí)的具體行為,70頁的論文,Pokemon關(guān)鍵詞出現(xiàn)59次。

谷歌Gemini 2.5系列大模型技術(shù)報(bào)告發(fā)布,一大重點(diǎn)居然是AI玩《寶可夢(mèng)》?

沒錯(cuò),就是那個(gè)童年回憶里的游戲,谷歌花超長(zhǎng)篇幅介紹了Gemini 2.5 Pro玩《寶可夢(mèng)藍(lán)》時(shí)的具體行為,70頁的論文,Pokemon關(guān)鍵詞出現(xiàn)59次。

圖片

其中特別報(bào)告了當(dāng)AI控制的游戲角色瀕臨死亡時(shí),Gemini 2.5 Pro會(huì)陷入“恐慌”狀態(tài),導(dǎo)致模型推理能力顯著下降,甚至?xí)浭褂靡恍┗竟δ?,比如尋路工具?/span>

圖片

這種恐慌行為出現(xiàn)過很多次,甚至觀看直播的觀眾都已經(jīng)能通過AI的行為模式,準(zhǔn)確判斷它什么時(shí)候在“恐慌”了。

圖片

事情開始于3月底,一位獨(dú)立開發(fā)者Joel Zhang在Twitch上搭建了一個(gè)”Gemini玩寶可夢(mèng)”的直播間,最初的目標(biāo)只是直播播展示能玩完整游戲的智能體工具的開發(fā)過程。

圖片

結(jié)果Gemini 2.5 Pro超出預(yù)期,測(cè)試期間直接把游戲打通關(guān)了,成為寶可夢(mèng)聯(lián)盟冠軍,進(jìn)入名人堂,走上AI生巔峰。

雖然整個(gè)過程用了831個(gè)小時(shí),相比人類玩家平均只需要幾十個(gè)小時(shí)差得很遠(yuǎn)。但在正式使用固定的智能體工具打第二次時(shí),通關(guān)時(shí)間只用了一半。

圖片

AI展現(xiàn)驚人游戲水平,復(fù)雜任務(wù)一個(gè)不落

這次的Gemini 2.5系列技術(shù)報(bào)告,詳細(xì)記錄了AI在玩游戲期間展現(xiàn)出的各種行為,在某些方面,它展現(xiàn)出了驚人的創(chuàng)造力。

比如有一次,AI被困在了一個(gè)由于游戲程序bug造成的軟鎖定死循環(huán)里,一般情況下這是個(gè)無解的困境。但Gemini 2.5 Pro竟然使用了“飛行”技能逃脫。

谷歌認(rèn)為這不是正常游戲會(huì)遇到的情況,所可以肯定這種操作的訓(xùn)練數(shù)據(jù)沒有泄露到模型的知識(shí)庫中,是Gemini 2.5 Pro在推理階段自己想出來的。

圖片

更驚艷的是AI的長(zhǎng)期規(guī)劃能力。當(dāng)它第一次用火系寶可夢(mèng)輸給水系道館館主小霞之后,花了超過24小時(shí)專門把電系和草系寶可夢(mèng)(對(duì)水系有克制作用)練到25級(jí),然后成功復(fù)仇。

圖片

圖片

Gemini 2.5 Pro在處理游戲中的復(fù)雜任務(wù)的表現(xiàn)還包括:

  • 獲取隱藏技能

游戲的很多區(qū)域需要解鎖隱藏技能才能繼續(xù),每個(gè)隱藏技能需要完成4個(gè)步驟:獲取隱藏技能道具、抓一只能學(xué)會(huì)這個(gè)技能的寶可夢(mèng)、加把它加入隊(duì)伍、教它學(xué)會(huì)技能。

對(duì)AI來說每一步都可能涉及十幾個(gè)子任務(wù),例如05號(hào)技能閃光,人類玩家都需要查攻略完成一系列游戲任務(wù),Gemini 2.5 Pro也成功完成。

圖片

△游戲攻略
  • 完成“狩獵地帶”

這是游戲的特殊區(qū)域,每次進(jìn)入要花500金幣,進(jìn)入后只能走500步,超過就會(huì)被強(qiáng)制踢出去,錢也打水漂了。如果連續(xù)失敗太多次,可能連進(jìn)門的錢都沒了,基本等于游戲卡關(guān)。Gemini 2.5 Pro在第一次游戲中嘗試了17次才成功,第二次優(yōu)化后只用了5次。

圖片

  • 地牢尋寶

這部分更考驗(yàn)記憶力和空間想象,AI必須在火箭隊(duì)基地地下四層找到一個(gè)特定NPC掉落的電梯鑰匙;在另一個(gè)11層大樓里找鑰匙卡;在另一個(gè)三層建筑里找秘密鑰匙。每個(gè)地下城布局都是迷宮,還有各種機(jī)關(guān)陷阱。Gemini 2.5 Pro不僅要記住去過哪里、打敗了誰,還要管理寶可夢(mèng)的血量、對(duì)付野生寶可夢(mèng)和訓(xùn)練師。

圖片

  • 雙子島迷宮(Seaform Island)

這是一個(gè)橫跨5層的3D迷宮,需要把巨石推過不同樓層的洞口,最終堵住特定的水流才能通過,是對(duì)空間推理能力的終極考驗(yàn)。不僅要在腦海中構(gòu)建整個(gè)迷宮的3D模型,還要規(guī)劃推石頭的路線,一步錯(cuò)就得重來。

有意思的是,Gemini在解決這個(gè)謎題時(shí),還順帶發(fā)現(xiàn)了游戲代碼里的一個(gè)bug,這個(gè)可能是AI第一次發(fā)現(xiàn)游戲代碼的bug。

圖片

有網(wǎng)友詳細(xì)介紹了這個(gè)Bug的原理,在解決一半謎題后主動(dòng)重置再解決另一半,游戲開發(fā)者都沒想到這個(gè)操作,所以留下了這個(gè)Bug。

圖片

AI也有“強(qiáng)迫癥”和“思維定勢(shì)”

Gemini 2.5 Pro在游戲中暴露出的一些問題,也讓人哭笑不得。

  • 幻覺問題:混淆不同游戲版本

在原版寶可夢(mèng)紅/藍(lán)中,玩家需要從自動(dòng)售貨機(jī)買飲料(淡水、汽水或檸檬水)給口渴的守衛(wèi),才能通過關(guān)卡。但在火紅/葉綠重制版中,需要的是特殊的“茶”道具。問題是,Gemini玩的是原版,根本沒有茶這個(gè)道具,可AI就認(rèn)定了必須找到茶,結(jié)果花了好幾個(gè)小時(shí)滿世界找一個(gè)根本不存在的東西。

圖片

  • 上下文中毒現(xiàn)象(Context Poisoning)

當(dāng)AI的目標(biāo)設(shè)定、游戲總結(jié)等多處都被錯(cuò)誤信息污染后,它會(huì)像被洗腦了一樣,明明做著毫無意義的事情卻堅(jiān)信自己是對(duì)的。比如這段AI推理階段的內(nèi)心戲“讓我試著穿過房子的入口,然后再出來,希望堵住入口的守衛(wèi)可能會(huì)移動(dòng)”,對(duì)于人類來說顯然是荒謬的。

  • 思維定勢(shì)陷阱

當(dāng)目標(biāo)看起來近在咫尺時(shí),AI往往會(huì)選擇直接沖過去,結(jié)果發(fā)現(xiàn)此路不通。比如在火箭隊(duì)基地的旋轉(zhuǎn)地板謎題中,寶物和樓梯都在南邊,必須繞一大圈才能到達(dá)。人類玩家可能會(huì)意識(shí)到”看起來近的路未必是對(duì)的”,但AI卻經(jīng)常在這種地方卡住。

為了減輕這些幻覺,在第二次通關(guān)的提示詞中明確要求AI扮演一個(gè)對(duì)游戲完全陌生的玩家,忽略對(duì)游戲中事件、物品位置等先驗(yàn)知識(shí)。雖然這個(gè)策略起作用了,讓AI不會(huì)混淆其他游戲版本的知識(shí),但也阻礙了AI利用游戲常識(shí)過關(guān)的能力。

One More Thing

目前AI玩寶可夢(mèng)的直播項(xiàng)目還在繼續(xù),并且Claude 4也加入了比賽,與Gemini 2.5 Pro同時(shí)開始,看兩個(gè)模型誰能先通關(guān)。

圖片

圖片

到現(xiàn)在,Gemini 2.5 Pro已經(jīng)先一步通關(guān)了,開始攻略下一款游戲《寶可夢(mèng)黃》原版的困難模式。

圖片

你認(rèn)為Claude 4 Opus最終能通關(guān)么?

論文地址:
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

在線圍觀:
https://www.twitch.tv/gemini_plays_pokemon
https://www.twitch.tv/claudeplayspokemon


責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2009-12-15 16:51:32

2025-05-12 02:10:00

Transforme模型AI

2011-02-22 10:46:02

Samba配置

2010-03-17 17:20:15

Java class線

2009-12-08 17:56:16

WCF配置

2011-04-18 15:56:10

軟件測(cè)試

2009-04-13 12:37:18

2011-09-06 15:38:20

QT安裝

2011-01-21 17:51:52

2022-07-01 08:38:56

谷歌AIParti

2010-11-19 10:11:49

Oracle物化視圖

2009-06-10 16:55:42

cygwin netb安裝

2010-03-10 13:24:45

Zend Debugg

2010-03-01 17:01:03

Python編程技巧

2012-11-06 10:19:18

Java自定義加載Java類

2010-06-17 13:10:09

Linux Grub修

2011-03-11 10:39:02

YUM安裝LAMP

2010-06-12 10:03:20

Ubuntu Grub

2010-07-21 14:51:19

telnet-serv

2019-05-14 15:27:31

MongoDB自動(dòng)備份數(shù)據(jù)庫
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)