偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<wbr id="3eobt"></wbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

LLM之后，Agent的未來是RL！

發(fā)布于 2025-1-23 09:19

瀏覽

1收藏

嘿，大家好！這里是一個專注于AI智能體的頻道~

今天給家人們聊一期播客總結(jié)，四十二章經(jīng)最新一期播客請到了在Meta工作了七年的應(yīng)用強(qiáng)化學(xué)習(xí)組負(fù)責(zé)人朱哲清Bill。作為斯坦福大學(xué)強(qiáng)化學(xué)習(xí)專業(yè)博士，現(xiàn)在創(chuàng)業(yè)做Agent的他，拋出了一個巨大的反共識觀點(diǎn)：

"LLM只是一個翻譯官，真正的Agent核心應(yīng)該是RL。"

等等，這是什么意思？

在2024年，我們見證了GPT-4掀起的Agent熱潮。Claude、GPTs、Copilot...幾乎所有大公司都在用LLM構(gòu)建Agent。

但Bill卻說，這條路走偏了？

并且，他用自己的技術(shù)路線，只花了不到1萬美金就訓(xùn)練出了一個能在電商領(lǐng)域超越GPT-4的Agent。

這背后到底有什么玄機(jī)？

當(dāng)前Agent的痛點(diǎn)

要理解Bill的觀點(diǎn)，我們先問自己一個問題：當(dāng)前的Agent真的在"思考"嗎？

播客里邊給出了一個非常形象的類比：想象你在一個復(fù)雜的迷宮里。

如果是人類，會怎么做？

分析當(dāng)前位置
嘗試不同路徑
記住死胡同
總結(jié)經(jīng)驗(yàn)教訓(xùn)

但當(dāng)前的LLM Agent呢？它就像一個只會背誦地圖的人：

? 能說出每個路口的樣子
? 能背誦所有可能的路徑
× 但不會從錯誤中學(xué)習(xí)
× 更不會優(yōu)化自己的策略

這就是為什么你會發(fā)現(xiàn)：

Agent常常重復(fù)同樣的錯誤；遇到新情況就抓瞎；效率始終無法提升等等問題

平行宇宙思維

那RL是如何解決這個問題的？

這里有個有趣的概念：平行宇宙。

想象你在玩《王者榮耀》，每次決策都可以看到未來5分鐘會發(fā)生什么，這邊走會被抓，那邊走能拿龍，支援上路能贏團(tuán)戰(zhàn)。

這就是RL的核心能力：

并行模擬多個未來
評估每個決策的收益
選擇最優(yōu)的行動路徑

就像，AlphaGo能在沒有人類棋譜的情況下，可以通過自我對弈達(dá)到超越人類的水平了；DeepSeek-R1最新的模型，沒有PRM（過程獎勵），沒有MCTS（蒙特卡洛），Zero模型可以直接開始RL，訓(xùn)出來推理能力。

"翻譯官"LLM

這是不是意味著LLM就沒用了？

恰恰相反。

Bill提出了一個絕妙的比喻：LLM就像一個優(yōu)秀的"翻譯官"。

想象你是一個天才的圍棋選手，但只會下棋，不會說話。你需要有人幫你理解對手的意圖，幫你表達(dá)想法。

這就是LLM的完美定位：

輸入端：把人類語言轉(zhuǎn)換為RL可以理解的抽象狀態(tài)
輸出端：把RL的決策轉(zhuǎn)換為人類可以理解的語言

最后

Bill預(yù)測，2025年會出現(xiàn)三個重要趨勢：

專業(yè)領(lǐng)域的Agent會達(dá)到專業(yè)人士水平
訓(xùn)練成本會進(jìn)一步降低
應(yīng)用場景會不斷擴(kuò)大

但更重要的是，這個技術(shù)路線給了我們一個全新的視角：

也許，真正的AI智能體，應(yīng)該像人類一樣：

會在"平行宇宙"中規(guī)劃
會從經(jīng)驗(yàn)中學(xué)習(xí)
會不斷優(yōu)化決策

本文轉(zhuǎn)載自??探索AGI??，作者：獼猴桃 ????

標(biāo)簽

贊

收藏 1

回復(fù)

舉報

回復(fù)

相關(guān)推薦

為什么大佬都在說Agent是未來？換個角度來談一談

Syrupup ? 4258瀏覽 ? 0回復(fù)
什么是AI Agent？

zhcs333 ? 6203瀏覽 ? 0回復(fù)
【LLM】AgentGym：具有自我演化能力的通用LLM agent

sbf_2000 ? 6769瀏覽 ? 0回復(fù)
大神Aviral Kumar：價值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？

AIGC最前線 ? 3971瀏覽 ? 0回復(fù)
BabyAGI Agent：LLM如何實(shí)現(xiàn)？

探索AGI ? 3363瀏覽 ? 0回復(fù)
RAG 的盡頭是 Agent？

玄姐聊AGI ? 3481瀏覽 ? 0回復(fù)
大型語言模型（LLM）的歷史與未來

51CTO內(nèi)容精選 ? 4948瀏覽 ? 0回復(fù)
大模型Agent的過去、現(xiàn)在、未來

探索AGI ? 3784瀏覽 ? 0回復(fù)
o1的規(guī)劃能力如何？LRM是未來嗎？

探索AGI ? 3034瀏覽 ? 0回復(fù)
什么是AI Agent，以及怎么實(shí)現(xiàn)AI Agent?

AI探索時代 ? 4589瀏覽 ? 0回復(fù)
預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵

AIGC最前線 ? 3308瀏覽 ? 0回復(fù)
預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵

AIGC最前線 ? 3564瀏覽 ? 0回復(fù)
人工智能的未來——AI Agent和Agentic AI的區(qū)別與聯(lián)系

AI探索時代 ? 4308瀏覽 ? 0回復(fù)
進(jìn)化搜索策略，提高LLM推理深度；學(xué)術(shù)搜索智能體，RL+PPO；LLM回答置信度

AI研究前瞻 ? 3453瀏覽 ? 0回復(fù)
想聊聊什么是“被動收入”？揭秘它的真相與LLM的機(jī)會！

Halo咯咯 ? 3563瀏覽 ? 0回復(fù)
理解什么是AI Agent，看懂這篇就夠了

AIGC新知 ? 4630瀏覽 ? 0回復(fù)
多智能體（Multi Agent）AI系統(tǒng)：企業(yè)智能化轉(zhuǎn)型的未來

Halo咯咯 ? 3389瀏覽 ? 0回復(fù)
人工智能與人性關(guān)懷碰撞，AI 的心理健康服務(wù)是未來藍(lán)圖

xuxiangda ? 3362瀏覽 ? 0回復(fù)
NVIDIA（ProRL）｜RL到底能不能提升LLM的推理上限？

arnoldzhw ? 2669瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

超100家YC瘋搶的 FDE 模式，正成為AI Agent的 PMF 范式！ 2025-10-21 00:48:06發(fā)布
Anthropic：怎么才能控制模型的行為，做好Agents? 2025-10-21 00:47:15發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： Agent不存在了？誰說必須用 Agent！

下一篇： OpenAI被逼急了？o3思維鏈突然開放，DeepSeek功不可沒！

社區(qū)精華內(nèi)容

目錄