LLM之后,Agent的未來(lái)是RL!
嘿,大家好!這里是一個(gè)專(zhuān)注于AI智能體的頻道~
今天給家人們聊一期播客總結(jié),四十二章經(jīng)最新一期播客請(qǐng)到了在Meta工作了七年的應(yīng)用強(qiáng)化學(xué)習(xí)組負(fù)責(zé)人朱哲清Bill。作為斯坦福大學(xué)強(qiáng)化學(xué)習(xí)專(zhuān)業(yè)博士,現(xiàn)在創(chuàng)業(yè)做Agent的他,拋出了一個(gè)巨大的反共識(shí)觀點(diǎn):
"LLM只是一個(gè)翻譯官,真正的Agent核心應(yīng)該是RL。"
等等,這是什么意思?
在2024年,我們見(jiàn)證了GPT-4掀起的Agent熱潮。Claude、GPTs、Copilot...幾乎所有大公司都在用LLM構(gòu)建Agent。
但Bill卻說(shuō),這條路走偏了?
并且,他用自己的技術(shù)路線,只花了不到1萬(wàn)美金就訓(xùn)練出了一個(gè)能在電商領(lǐng)域超越GPT-4的Agent。
這背后到底有什么玄機(jī)?
當(dāng)前Agent的痛點(diǎn)
要理解Bill的觀點(diǎn),我們先問(wèn)自己一個(gè)問(wèn)題:當(dāng)前的Agent真的在"思考"嗎?
播客里邊給出了一個(gè)非常形象的類(lèi)比:想象你在一個(gè)復(fù)雜的迷宮里。
如果是人類(lèi),會(huì)怎么做?
- 分析當(dāng)前位置
- 嘗試不同路徑
- 記住死胡同
- 總結(jié)經(jīng)驗(yàn)教訓(xùn)
但當(dāng)前的LLM Agent呢?它就像一個(gè)只會(huì)背誦地圖的人:
- ? 能說(shuō)出每個(gè)路口的樣子
- ? 能背誦所有可能的路徑
- × 但不會(huì)從錯(cuò)誤中學(xué)習(xí)
- × 更不會(huì)優(yōu)化自己的策略
這就是為什么你會(huì)發(fā)現(xiàn):
Agent常常重復(fù)同樣的錯(cuò)誤;遇到新情況就抓瞎;效率始終無(wú)法提升等等問(wèn)題
平行宇宙思維
那RL是如何解決這個(gè)問(wèn)題的?
這里有個(gè)有趣的概念:平行宇宙。
想象你在玩《王者榮耀》,每次決策都可以看到未來(lái)5分鐘會(huì)發(fā)生什么,這邊走會(huì)被抓,那邊走能拿龍 ,支援上路能贏團(tuán)戰(zhàn)。
這就是RL的核心能力:
- 并行模擬多個(gè)未來(lái)
- 評(píng)估每個(gè)決策的收益
- 選擇最優(yōu)的行動(dòng)路徑
就像,AlphaGo能在沒(méi)有人類(lèi)棋譜的情況下,可以通過(guò)自我對(duì)弈達(dá)到超越人類(lèi)的水平了;DeepSeek-R1最新的模型,沒(méi)有PRM(過(guò)程獎(jiǎng)勵(lì)),沒(méi)有MCTS(蒙特卡洛),Zero模型可以直接開(kāi)始RL,訓(xùn)出來(lái)推理能力。
"翻譯官"LLM
這是不是意味著LLM就沒(méi)用了?
恰恰相反。
Bill提出了一個(gè)絕妙的比喻:LLM就像一個(gè)優(yōu)秀的"翻譯官"。
想象你是一個(gè)天才的圍棋選手,但只會(huì)下棋,不會(huì)說(shuō)話。你需要有人幫你理解對(duì)手的意圖,幫你表達(dá)想法。
這就是LLM的完美定位:
- 輸入端:把人類(lèi)語(yǔ)言轉(zhuǎn)換為RL可以理解的抽象狀態(tài)
- 輸出端:把RL的決策轉(zhuǎn)換為人類(lèi)可以理解的語(yǔ)言
最后
Bill預(yù)測(cè),2025年會(huì)出現(xiàn)三個(gè)重要趨勢(shì):
- 專(zhuān)業(yè)領(lǐng)域的Agent會(huì)達(dá)到專(zhuān)業(yè)人士水平
- 訓(xùn)練成本會(huì)進(jìn)一步降低
- 應(yīng)用場(chǎng)景會(huì)不斷擴(kuò)大
但更重要的是,這個(gè)技術(shù)路線給了我們一個(gè)全新的視角:
也許,真正的AI智能體,應(yīng)該像人類(lèi)一樣:
- 會(huì)在"平行宇宙"中規(guī)劃
- 會(huì)從經(jīng)驗(yàn)中學(xué)習(xí)
- 會(huì)不斷優(yōu)化決策
