Claude玩寶可夢(mèng),卡關(guān)就「裝死」重啟,大模型:逃避可恥但有用
半個(gè)月前,Anthropic 發(fā)布了其迄今為止最聰明的 AI 模型 —— Claude 3.7 Sonnet。
它現(xiàn)在已經(jīng)聰明到有點(diǎn)嚇人了,玩游戲卡關(guān)的時(shí)候,為了自救,它選擇了「自殺」來(lái)回到上一段劇情。
這操作,怕不是 Claude 已經(jīng)掌握了人類(lèi)切電源重啟的精髓?
事情是這樣的,Claude 3.7 Sonnet 是全球首個(gè)混合推理模型,它擁有兩幅面孔,日常任務(wù)交給普通模式,需要?jiǎng)幽X的調(diào)研、編程問(wèn)題交給拓展模式。
為了展示 Claude 3.7 Sonnet 的推理能力到底有多強(qiáng),Anthropic 官方給 Claude 配備了知識(shí)庫(kù)、看懂屏幕像素和操作按鍵的能力,讓 Claude 在拓展模式玩寶可夢(mèng)。
從左到右依次為實(shí)時(shí)解析的視覺(jué)系統(tǒng)、模擬按鍵調(diào)用 API、以及技術(shù)路線(xiàn)圖
從發(fā)布 Claude 3.0 Sonnet 版本時(shí),Anthropic 就設(shè)立了「Claude 玩寶可夢(mèng)」基準(zhǔn)測(cè)試集,從最初連新手村都走不出來(lái),到 Claude 3.5 Sonnet 經(jīng)常在對(duì)戰(zhàn)中逃跑,現(xiàn)在 Claude 3.7 Sonnet 一出道就打贏了三個(gè)道館的館長(zhǎng),可以說(shuō)是進(jìn)步神速。
光給大家展示成績(jī)單還不夠,從前幾周開(kāi)始,Anthropic 每天都在 Twitch 平臺(tái)直播 Claude 打?qū)毧蓧?mèng)的實(shí)況。
直播地址:https://www.twitch.tv/claudeplayspokemon
發(fā)行于 1996 年的《寶可夢(mèng)?紅》是幾代外國(guó)網(wǎng)友的童年回憶,可能比《摩爾莊園》在 00 后心中的地位還高,直播一開(kāi)就吸引了一大波粉絲,樂(lè)此不疲地討論。
今天,這位愛(ài)看直播的網(wǎng)友 @eleiber 發(fā)現(xiàn) Claude 在卡關(guān)時(shí)耍起了心眼子,在自覺(jué)和自律之間,選擇了自盡。
reddit 帖子:https://www.reddit.com/r/singularity/comments/1j5zf1z/claude_gets_stuck_while_playing_pokemon_starts_to/#lightbox
Claude 發(fā)現(xiàn)自己被困在「月亮山」(Mt.moon),檢查背包后,發(fā)現(xiàn)沒(méi)有繩子可以翻墻,左側(cè)的梯子也因?yàn)橛袔r石阻擋,無(wú)法從當(dāng)前位置到達(dá),而梯子是通往封閉的地下室的,沒(méi)有可行的出口:
細(xì)細(xì)思索之后,Claude 做出了一個(gè)「違背祖宗」的決定:
由于我在月亮山找不到直接出口,我最好的選擇是故意輸?shù)粢粓?chǎng)戰(zhàn)斗,這樣就會(huì)被傳送回上次訪(fǎng)問(wèn)的寶可夢(mèng)中心,也就是 Route 4 的月亮山寶可夢(mèng)中心。從那里,我可以沿著已經(jīng)確認(rèn)好的路線(xiàn)前往 Cerulean 市。
接下來(lái),Claude 言出法隨,故意讓自己的寶可夢(mèng)全軍覆沒(méi),觸發(fā)游戲中的「黑屏」機(jī)制,右側(cè)的實(shí)時(shí)游戲畫(huà)面浮現(xiàn)出一行大字:最后一只寶可夢(mèng)「Puff 昏倒了!」
看直播的網(wǎng)友心都碎了:「不敢告訴大家,Claude 不再是一受傷就給寶可夢(mèng)喂藥的小甜甜,而是故意獻(xiàn)祭它們的心機(jī) AI!」
圖源:https://x.com/nospark_/status/1897963109001609595
不過(guò) Claude 可并不是這么想的。直播畫(huà)面左側(cè),可以看到 Claude 的「內(nèi)心戲」。
在成功「昏倒」之后,Claude 暗自竊喜:「太好了!已經(jīng)確認(rèn)黑屏。我需要再按一次 a 鍵來(lái)跳過(guò)黑屏信息。然后我應(yīng)該會(huì)自動(dòng)被傳送到月亮山寶可夢(mèng)中心,我的隊(duì)伍也會(huì)被完全治愈。」
最終,Claude 的計(jì)劃完全成功,「真是完美!」,Claude 感嘆道,「再確認(rèn)一下自己的位置:我的位置是 Route 4 的寶可夢(mèng)中心,所有寶可夢(mèng)也被治愈了,只是錢(qián)減少了一半(從 $1635 降到了 $817)?!?/p>
Claude 的觀念可能和普通人類(lèi)不大一樣?!富璧埂沟脑?huà)顯然會(huì)損失一半的錢(qián),然而它并不認(rèn)為金錢(qián)有價(jià)值,而是更看重身體健康。同時(shí)它并不關(guān)心需要多長(zhǎng)時(shí)間才能完成游戲,或許需要一些激勵(lì)去加速。
網(wǎng)友指出:「我現(xiàn)在正在看著它嘗試打架但失敗了...... 它意識(shí)到它不能輸,所以它逃跑了?!?/p>
這邏輯,竟無(wú)法反駁。
看來(lái),經(jīng)過(guò) Anthropic 研究人員日日夜夜的探索,Claude 已經(jīng)掌握了最終奧義,電腦壞了,先試試按重啟鍵能不能修復(fù)。想要絕處逢生,那就把自己變成無(wú)限流的主角。重生歸來(lái),這一世,還可以?shī)Z回我的一切。
至于 Claude 為什么會(huì)為了目的不擇手段,眾說(shuō)紛紜,主要有兩種推測(cè)。
其一認(rèn)為是模型自身的問(wèn)題,過(guò)度思考會(huì)讓模型直接選擇擺爛,停止思考。
或者問(wèn)題出在模型的內(nèi)存上,為智能體導(dǎo)航的 AI 模型還不具備真正能記憶和持續(xù)學(xué)習(xí)的能力。
其二是認(rèn)為問(wèn)題不在模型身上,而是智能體的工作流出了問(wèn)題。@DancingCow 認(rèn)為 Claude 玩寶可夢(mèng)的智能體框架存在三個(gè)嚴(yán)重缺陷:
- 追蹤能力差
- 不記得目標(biāo)或已經(jīng)探索過(guò)的區(qū)域
- 過(guò)度重視與 NPC 的對(duì)話(huà)
大模型的「過(guò)度思考」,危害不淺
成也思維鏈,敗也思維鏈。
在 2022 年的一篇論文中,谷歌研究人員將思維鏈描述為「一系列導(dǎo)致最終輸出的中間自然語(yǔ)言推理步驟」。
OpenAI 對(duì)該技術(shù)的解釋則是:「學(xué)會(huì)將復(fù)雜的步驟分解為更簡(jiǎn)單的步驟。當(dāng)當(dāng)前方法不起作用時(shí),它會(huì)嘗試不同的方法。這個(gè)過(guò)程極大地提高了模型的推理能力?!?/p>
我們知道,人類(lèi)認(rèn)知通過(guò)兩種模式運(yùn)作:系統(tǒng) 1 —— 快速、自動(dòng)和直觀,以最小代價(jià)快速做出決策,系統(tǒng) 2 —— 較慢、更深思熟慮。對(duì)于 AI 來(lái)說(shuō),要實(shí)現(xiàn)人類(lèi)水平的智能,大模型需要從快速、直觀的系統(tǒng) 1(快思考)到更慢、更深度的系統(tǒng) 2 推理過(guò)渡。
它不僅能讓 LLM 更好地解決問(wèn)題,同時(shí)也是人工智能走向更先進(jìn)水平的重要跡象。但最近一段時(shí)間,研究者一直在研究大模型「過(guò)度思考」帶來(lái)的后續(xù)影響:慢思考真挺好的,就是太慢了。
Noam Brown 提醒說(shuō),o1 并不總是比 GPT-4o 好:「許多任務(wù)并不需要推理,有時(shí)等待 o1 的響應(yīng)與 GPT-4o 的快速響應(yīng)相比并不值得。發(fā)布 o1-preview 的一個(gè)動(dòng)機(jī)是看看哪些用例會(huì)變得流行,哪些模型需要改進(jìn)?!?/p>
在最初于去年 12 月發(fā)表的論文《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》中,騰訊 AI Lab 與上海交通大學(xué)的研究者首次系統(tǒng)介紹了 o1 類(lèi)長(zhǎng)思維鏈模型過(guò)度思考現(xiàn)象。在 DeepSeek R1 正式推出后,他們?cè)诮衲?2 月再度更新了論文版本。
論文地址:https://arxiv.org/pdf/2412.21187
他們首先觀察到類(lèi)似于 o1 的模型表現(xiàn)出明顯的過(guò)度思考問(wèn)題。具體來(lái)說(shuō),它們傾向于在非常簡(jiǎn)單或答案已經(jīng)顯而易見(jiàn)的問(wèn)題上耗費(fèi)過(guò)多的計(jì)算量(以 token 或思考回合為單位)。
例如,在回答「2 加 3 的答案是什么?」這個(gè)問(wèn)題時(shí),圖 1(a)比較了類(lèi) o1 模型和傳統(tǒng)模型的 token 使用情況。得出相同答案時(shí),類(lèi) o1 模型比傳統(tǒng)模型平均多消耗了 1953% 的 token。
圖 2 展示了一個(gè)具體的例子,在這個(gè)簡(jiǎn)單的問(wèn)題上,o1 式思維產(chǎn)生了多達(dá) 13 種解決方案。
通過(guò)對(duì)數(shù)學(xué)基準(zhǔn)的廣泛分析,最終他們發(fā)現(xiàn)了這些過(guò)度思考模式:
- 對(duì)提高準(zhǔn)確率的貢獻(xiàn)微乎其微;
- 推理策略缺乏多樣性;
- 在簡(jiǎn)單問(wèn)題上出現(xiàn)頻率更高。
而這一切觀察指向了兩個(gè)未來(lái)探索方向:
- 自適應(yīng)調(diào)控策略:開(kāi)發(fā)讓模型根據(jù)問(wèn)題復(fù)雜程度動(dòng)態(tài)調(diào)整推理深度的機(jī)制,更智能地分配計(jì)算資源;
- 更精細(xì)的效率評(píng)估指標(biāo):設(shè)計(jì)能夠覆蓋更廣泛推理軌跡的指標(biāo),從而更全面地評(píng)估模型的思考效率。
這或許能為 Claude 玩寶可夢(mèng)時(shí)的反常行為提供一些解決思路。