偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM之后,Agent的未來(lái)是RL!

發(fā)布于 2025-1-23 09:19
瀏覽
1收藏

嘿,大家好!這里是一個(gè)專(zhuān)注于AI智能體的頻道~

今天給家人們聊一期播客總結(jié),四十二章經(jīng)最新一期播客請(qǐng)到了在Meta工作了七年的應(yīng)用強(qiáng)化學(xué)習(xí)組負(fù)責(zé)人朱哲清Bill。作為斯坦福大學(xué)強(qiáng)化學(xué)習(xí)專(zhuān)業(yè)博士,現(xiàn)在創(chuàng)業(yè)做Agent的他,拋出了一個(gè)巨大的反共識(shí)觀點(diǎn):

"LLM只是一個(gè)翻譯官,真正的Agent核心應(yīng)該是RL。"

等等,這是什么意思?

在2024年,我們見(jiàn)證了GPT-4掀起的Agent熱潮。Claude、GPTs、Copilot...幾乎所有大公司都在用LLM構(gòu)建Agent。

但Bill卻說(shuō),這條路走偏了?

并且,他用自己的技術(shù)路線,只花了不到1萬(wàn)美金就訓(xùn)練出了一個(gè)能在電商領(lǐng)域超越GPT-4的Agent。

這背后到底有什么玄機(jī)?

當(dāng)前Agent的痛點(diǎn)

要理解Bill的觀點(diǎn),我們先問(wèn)自己一個(gè)問(wèn)題:當(dāng)前的Agent真的在"思考"嗎?

播客里邊給出了一個(gè)非常形象的類(lèi)比:想象你在一個(gè)復(fù)雜的迷宮里。

如果是人類(lèi),會(huì)怎么做?

  • 分析當(dāng)前位置
  • 嘗試不同路徑
  • 記住死胡同
  • 總結(jié)經(jīng)驗(yàn)教訓(xùn)

但當(dāng)前的LLM Agent呢?它就像一個(gè)只會(huì)背誦地圖的人:

  • ? 能說(shuō)出每個(gè)路口的樣子
  • ? 能背誦所有可能的路徑
  • × 但不會(huì)從錯(cuò)誤中學(xué)習(xí)
  • × 更不會(huì)優(yōu)化自己的策略

這就是為什么你會(huì)發(fā)現(xiàn):

Agent常常重復(fù)同樣的錯(cuò)誤;遇到新情況就抓瞎;效率始終無(wú)法提升等等問(wèn)題

平行宇宙思維

那RL是如何解決這個(gè)問(wèn)題的?

這里有個(gè)有趣的概念:平行宇宙。

想象你在玩《王者榮耀》,每次決策都可以看到未來(lái)5分鐘會(huì)發(fā)生什么,這邊走會(huì)被抓,那邊走能拿龍 ,支援上路能贏團(tuán)戰(zhàn)。

這就是RL的核心能力:

  • 并行模擬多個(gè)未來(lái)
  • 評(píng)估每個(gè)決策的收益
  • 選擇最優(yōu)的行動(dòng)路徑

就像,AlphaGo能在沒(méi)有人類(lèi)棋譜的情況下,可以通過(guò)自我對(duì)弈達(dá)到超越人類(lèi)的水平了;DeepSeek-R1最新的模型,沒(méi)有PRM(過(guò)程獎(jiǎng)勵(lì)),沒(méi)有MCTS(蒙特卡洛),Zero模型可以直接開(kāi)始RL,訓(xùn)出來(lái)推理能力。

"翻譯官"LLM

這是不是意味著LLM就沒(méi)用了?

恰恰相反。

Bill提出了一個(gè)絕妙的比喻:LLM就像一個(gè)優(yōu)秀的"翻譯官"。

想象你是一個(gè)天才的圍棋選手,但只會(huì)下棋,不會(huì)說(shuō)話。你需要有人幫你理解對(duì)手的意圖,幫你表達(dá)想法。

這就是LLM的完美定位:

  • 輸入端:把人類(lèi)語(yǔ)言轉(zhuǎn)換為RL可以理解的抽象狀態(tài)
  • 輸出端:把RL的決策轉(zhuǎn)換為人類(lèi)可以理解的語(yǔ)言

最后

Bill預(yù)測(cè),2025年會(huì)出現(xiàn)三個(gè)重要趨勢(shì):

  • 專(zhuān)業(yè)領(lǐng)域的Agent會(huì)達(dá)到專(zhuān)業(yè)人士水平
  • 訓(xùn)練成本會(huì)進(jìn)一步降低
  • 應(yīng)用場(chǎng)景會(huì)不斷擴(kuò)大

但更重要的是,這個(gè)技術(shù)路線給了我們一個(gè)全新的視角:

也許,真正的AI智能體,應(yīng)該像人類(lèi)一樣:

  • 會(huì)在"平行宇宙"中規(guī)劃
  • 會(huì)從經(jīng)驗(yàn)中學(xué)習(xí)
  • 會(huì)不斷優(yōu)化決策

本文轉(zhuǎn)載自??探索AGI??,作者: 獼猴桃 ????

標(biāo)簽
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦