偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="klz5o"><track id="klz5o"></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

真正的AI智能體時(shí)代即將到來(lái)，我們發(fā)現(xiàn)了幾點(diǎn)「苦澀的教訓(xùn)」

作者：機(jī)器之心 2025-03-17 12:52:00

人工智能新聞

在近期的測(cè)試中，開(kāi)發(fā)者 Alexander Doria 發(fā)現(xiàn)了一些顯著的局限性，并寫成博客分享給大家。

最近一段時(shí)間，智能體（Agent）再次成為 AI 領(lǐng)域熱議的焦點(diǎn)。

2025 年 1 月，OpenAI 發(fā)布了名為 DeepResearch 的 o3 模型變種，專門用于網(wǎng)頁(yè)和文檔搜索。得益于在瀏覽任務(wù)上的強(qiáng)化學(xué)習(xí)訓(xùn)練，DeepResearch 具備了制定搜索策略、交叉引用信息來(lái)源、甚至利用中間反饋來(lái)處理深層次知識(shí)的能力。無(wú)獨(dú)有偶，Claude Sonnet 3.7 也成功地將同樣的強(qiáng)化學(xué)習(xí)方法應(yīng)用于代碼領(lǐng)域，在復(fù)雜的編程任務(wù)中展現(xiàn)出超越了以往模型的組合應(yīng)用效果。

正如摩根斯坦利學(xué)者 William Brown 在演講中所說(shuō)的：「LLM 智能體已能夠完成長(zhǎng)時(shí)間、多步驟的任務(wù)了?！?/span>

這一進(jìn)展不僅讓智能體的能力邁上了一個(gè)新臺(tái)階，也引發(fā)了一個(gè)更深層的問(wèn)題：LLM 智能體究竟是什么？

2024 年 12 月，Anthropic 給出了一個(gè)全新的定義：「LLM 智能體是能夠動(dòng)態(tài)指導(dǎo)自身流程和工具使用，并保持對(duì)任務(wù)完成方式控制的系統(tǒng)。」

與之相對(duì)，目前更為普遍的智能體實(shí)際上都是工作流系統(tǒng)（workflows），也就是通過(guò)預(yù)設(shè)的代碼和規(guī)則來(lái)協(xié)調(diào) LLM 和工具的系統(tǒng)，例如最近備受關(guān)注的 Manus AI。

對(duì)于很多開(kāi)發(fā)者而言，這些 LLM 智能體形成的工作流系統(tǒng)能否提高生產(chǎn)力、在多大程度上提高，才是關(guān)鍵問(wèn)題。

在近期的測(cè)試中，開(kāi)發(fā)者 Alexander Doria 發(fā)現(xiàn)了一些顯著的局限性，并寫成博客分享給大家。

截屏2025-03-17 10.51.49.png

博客地址：https://vintagedata.org/blog/posts/designing-llm-agents

「我在周末進(jìn)行的所有測(cè)試都顯示出一個(gè)結(jié)果，即工作流系統(tǒng)存在著一些根本性局限，這些局限早在 AutoGPT 時(shí)代就已顯現(xiàn)，而在搜索領(lǐng)域表現(xiàn)得尤為明顯。」

不能有效制定計(jì)劃，經(jīng)常中途卡殼；
不能記憶內(nèi)容，無(wú)法處理超過(guò) 5-10 分鐘的任務(wù)；
無(wú)法長(zhǎng)期有效執(zhí)行任務(wù)，容易因連續(xù)的小錯(cuò)誤最終徹底失敗。

作者以對(duì)大語(yǔ)言模型智能體「LLM 智能體」的定義為出發(fā)點(diǎn)。它基于大型實(shí)驗(yàn)室的有限信息、開(kāi)放研究生態(tài)系統(tǒng)中不斷涌現(xiàn)的復(fù)現(xiàn)成果，再結(jié)合一些個(gè)人推測(cè)，盡力對(duì)我們目前所了解的內(nèi)容進(jìn)行全面總結(jié)。

博客主要內(nèi)容如下：

LLM 智能體的「苦澀教訓(xùn)」

傳統(tǒng)的智能體與基礎(chǔ)大語(yǔ)言模型（base LLM）完全不同。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)研究中，智能體被置于受限的環(huán)境中，就像在迷宮里行走，智能體的每個(gè)動(dòng)作都有物理或規(guī)則上的約束。即便如此，智能體仍保留了一定程度的自由，因?yàn)榻鉀Q謎題或游戲的方法往往不止一種。然而，每一步行動(dòng)都必須以最終獲勝和獲得獎(jiǎng)勵(lì)為目標(biāo)進(jìn)行計(jì)算。隨著時(shí)間的推移，高效的智能體會(huì)記住過(guò)去的行動(dòng)，并逐步總結(jié)出模式和啟發(fā)式策略來(lái)優(yōu)化其行為。

這一過(guò)程被稱為「搜索」，智能體在迷宮中的探索行為與用戶在搜索引擎上的點(diǎn)擊模式如出一轍。搜索研究有著長(zhǎng)達(dá)數(shù)十年的豐富歷史。例如，據(jù)傳為 OpenAI 新一代模型提供支持的 Q-star 算法，便是源自 1968 年的 A-Star 搜索算法。最近，Pufferlib 進(jìn)行的寶可夢(mèng)訓(xùn)練實(shí)驗(yàn)便是這一過(guò)程的絕佳例證。在實(shí)驗(yàn)中，智能體被觀察到積極尋找最優(yōu)路徑，失敗后不斷嘗試，通過(guò)反復(fù)試錯(cuò)來(lái)優(yōu)化策略。

然而，大語(yǔ)言模型的基礎(chǔ)邏輯恰恰相反：

智能體能記住環(huán)境，但基礎(chǔ) LLM 不能，它們只能處理當(dāng)前窗口內(nèi)的信息；
智能體受現(xiàn)實(shí)條件限制，但基礎(chǔ) LLM 生成的是概率最高的文本，隨時(shí)可能「跑題」；
智能體能規(guī)劃長(zhǎng)期策略，基礎(chǔ) LLM 卻只能做好單步推理，面對(duì)多步推理任務(wù)很快就會(huì)「超載」。

目前，大部分 LLM 智能體的做法是利用預(yù)定義的提示詞（prompt）和規(guī)則來(lái)引導(dǎo)模型。然而，這種方法注定會(huì)遇到「苦澀的教訓(xùn)」（Bitter Lesson）。所謂教訓(xùn)，是指人們往往傾向于將自己的知識(shí)硬編碼到系統(tǒng)中，短期內(nèi)可能效果顯著，但長(zhǎng)期來(lái)看卻嚴(yán)重限制了系統(tǒng)的發(fā)展?jié)摿ΑＵ嬲耐黄瓶偸莵?lái)自于搜索與學(xué)習(xí)能力的提升，而非人為規(guī)則的堆砌。這一教訓(xùn)提醒我們，過(guò)度依賴規(guī)則設(shè)計(jì)可能會(huì)阻礙系統(tǒng)的自我優(yōu)化和進(jìn)化。

這就是為什么類似 Manus AI 這類工作流系統(tǒng)無(wú)法順利地訂機(jī)票或教你徒手打虎 —— 它們本質(zhì)上是被苦澀教訓(xùn)咬了一口?？刻崾驹~和規(guī)則無(wú)法持續(xù)擴(kuò)展，你必須從根本上設(shè)計(jì)能夠真正搜索、規(guī)劃、行動(dòng)的系統(tǒng)。

強(qiáng)化學(xué)習(xí) + 推理：LLM 智能體的「成功秘訣」

真正的 LLM 智能體，應(yīng)該是什么樣呢？這是一個(gè)復(fù)雜的問(wèn)題，目前公開(kāi)的信息很少。Anthropic、OpenAI、DeepMind 等少數(shù)實(shí)驗(yàn)室掌握著關(guān)鍵知識(shí)。目前，我們只能從現(xiàn)有的研究中嘗試來(lái)推測(cè)：

1. 強(qiáng)化學(xué)習(xí) RL：與傳統(tǒng)智能體類似，LLM 智能體也通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。這里的「迷宮」是所有可能的文本組合，而「出口」或「獎(jiǎng)勵(lì)」則是最終的目標(biāo)。驗(yàn)證是否達(dá)成獎(jiǎng)勵(lì)的過(guò)程被稱為「驗(yàn)證器」——William Brown 新開(kāi)發(fā)的驗(yàn)證器庫(kù)正是為此而生。目前，驗(yàn)證器主要用于形式化結(jié)果，如數(shù)學(xué)方程或編程代碼。但 Kalomaze 的研究表明，通過(guò)訓(xùn)練專門分類器，也可為非嚴(yán)格可驗(yàn)證的輸出構(gòu)建驗(yàn)證器。值得注意的是，語(yǔ)言模型在評(píng)估方面的表現(xiàn)優(yōu)于生成，因此即使用小型 LLM-as-judge，也能顯著提升性能和獎(jiǎng)勵(lì)設(shè)計(jì)。

2. 草稿模式（Drafts）：LLM 智能體的訓(xùn)練依賴于生成草稿并同時(shí)評(píng)估。這一選擇并非顯而易見(jiàn)，因?yàn)樵缙谘芯恐饕性跀U(kuò)展搜索到整個(gè) token 序列。計(jì)算限制和「推理」模型的突破推動(dòng)了這一轉(zhuǎn)變。典型的訓(xùn)練過(guò)程是讓模型生成邏輯序列，假設(shè)能得出正確答案的序列更可能是正確的。這可能導(dǎo)致反直覺(jué)的結(jié)果（如 DeepSeek R0 模型偶爾在英語(yǔ)和中文間切換）。然而，正如苦澀的教訓(xùn)所示，強(qiáng)化學(xué)習(xí)只關(guān)注結(jié)果的有效性，甚至允許非正統(tǒng)或計(jì)劃外的捷徑。就像智能體在迷宮中尋找出路，語(yǔ)言模型必須通過(guò)純粹推理找到路徑 —— 沒(méi)有預(yù)定義提示，只有獎(jiǎng)勵(lì)和獲取獎(jiǎng)勵(lì)的方式。

3. 結(jié)構(gòu)化輸出（rubric）：LLM 草稿通常被預(yù)定義為結(jié)構(gòu)化數(shù)據(jù)部分，以便于獎(jiǎng)勵(lì)驗(yàn)證，并在一定程度上簡(jiǎn)化整體推理過(guò)程。這是一種「評(píng)分標(biāo)準(zhǔn)工程」，既可以直接作為獎(jiǎng)勵(lì)函數(shù)進(jìn)行管理，也可以在大型實(shí)驗(yàn)室的訓(xùn)練設(shè)置中通過(guò)后訓(xùn)練階段實(shí)現(xiàn)。

4. 多步訓(xùn)練：LLM 智能體的訓(xùn)練需要大量草稿和多步驟迭代。搜索領(lǐng)域的情況尤其如此：我們不會(huì)一次性評(píng)估搜索結(jié)果，而是評(píng)估模型獲取資源、處理結(jié)果、進(jìn)一步獲取資源、調(diào)整計(jì)劃、回溯等能力。因此，DeepSeek 的 GRPO 結(jié)合 vllm 的文本生成成為當(dāng)前首選方法。近期，我發(fā)布了一個(gè)基于 William Brown 工作的代碼筆記本，成功在 Google Colab 提供的一塊 A100 GPU 上運(yùn)行了 GRPO。計(jì)算需求的降低將是未來(lái)幾年強(qiáng)化學(xué)習(xí)和智能體設(shè)計(jì)普及的關(guān)鍵因素。

如何實(shí)現(xiàn)規(guī)?；?/span>

以上是基礎(chǔ)構(gòu)建模塊，但從這些到 OpenAI 的 DeepResearch 以及其他能夠處理長(zhǎng)動(dòng)作序列的智能體，還有一段距離。請(qǐng)?jiān)试S我做一些推測(cè)。

目前的開(kāi)放強(qiáng)化學(xué)習(xí) / 推理研究主要集中在數(shù)學(xué)領(lǐng)域，因?yàn)槲覀儞碛写罅繑?shù)學(xué)練習(xí)題，其中一些被 Common Crawl 收錄，并由 HuggingFace 通過(guò)分類器提取。然而，對(duì)于許多其他領(lǐng)域（尤其是搜索領(lǐng)域），我們?nèi)狈ο嚓P(guān)數(shù)據(jù)，因?yàn)槲覀冃枰鎸?shí)的動(dòng)作序列：日志、點(diǎn)擊記錄、行為模式等。我不久前曾在日志分析領(lǐng)域工作過(guò)，模型（雖然仍在使用馬爾可夫鏈，但這個(gè)領(lǐng)域變化很快）仍然常在 20 世紀(jì) 90 年代末泄露的 AOL 數(shù)據(jù)上進(jìn)行訓(xùn)練。最近，至少有一個(gè)重要的公開(kāi)數(shù)據(jù)集被引入：Wikipedia Clickstream，這是一組從一篇維基百科文章到另一篇文章的匿名點(diǎn)擊軌跡數(shù)據(jù)。

但讓我問(wèn)一個(gè)簡(jiǎn)單的問(wèn)題：這個(gè)數(shù)據(jù)集在 HuggingFace 上嗎？沒(méi)有。

事實(shí)上，HuggingFace 上幾乎沒(méi)有真正能增強(qiáng)規(guī)劃能力的「智能體數(shù)據(jù)」。整個(gè)領(lǐng)域仍然默認(rèn) LLM 模型需要通過(guò)自定義的規(guī)則系統(tǒng)進(jìn)行編排。我甚至不確定 OpenAI 或 Anthropic 是否擁有足夠數(shù)量的此類數(shù)據(jù)。這至少是一個(gè)傳統(tǒng)科技公司占據(jù)強(qiáng)勢(shì)地位的領(lǐng)域，而且沒(méi)有簡(jiǎn)單的替代方案：你無(wú)法購(gòu)買谷歌龐大的用戶搜索歷史數(shù)據(jù)。

目前能想到的解決方法是：通過(guò)模擬直接生成數(shù)據(jù)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)模型并不依賴過(guò)往的實(shí)例。它們通過(guò)廣泛且反復(fù)的搜索來(lái)推斷出約束條件和過(guò)度策略。一旦應(yīng)用到搜索領(lǐng)域，典型的強(qiáng)化學(xué)習(xí)方法與博弈中的強(qiáng)化學(xué)習(xí)并無(wú)太大差異：讓模型自由探索，每當(dāng)它找到正確答案時(shí)就給予獎(jiǎng)勵(lì)。這可能是一個(gè)漫長(zhǎng)的探索過(guò)程。就好比你要找出一篇 20 世紀(jì) 60 年代被遺忘的蘇聯(lián)論文中記載的某個(gè)特定化學(xué)實(shí)驗(yàn)。通過(guò)純粹的蠻力，也許強(qiáng)制執(zhí)行一些語(yǔ)言查詢變化，模型最終偶然找到了正確結(jié)果。然后，它可以匯總導(dǎo)致這一結(jié)果的所有因素，從而使這一發(fā)現(xiàn)在未來(lái)更有可能實(shí)現(xiàn)。

我們來(lái)做一些簡(jiǎn)單的計(jì)算。在典型的強(qiáng)化學(xué)習(xí)（RL）設(shè)計(jì)中，以 GRPO 為例，一次可以同時(shí)進(jìn)行 16 個(gè)草稿的探索 —— 如果大型實(shí)驗(yàn)室訓(xùn)練的模型采用更高的草稿迭代次數(shù)，我也不會(huì)感到意外。每個(gè)草稿可能會(huì)依次瀏覽至少 100 個(gè)不同的頁(yè)面。這意味著一次就有 2000 個(gè)潛在查詢，而這僅僅只是一步。一個(gè)復(fù)雜的強(qiáng)化學(xué)習(xí)訓(xùn)練序列可能需要進(jìn)行數(shù)十萬(wàn)步（這也是我認(rèn)為當(dāng)前訓(xùn)練正處于中期階段的原因之一），并且要處理各種各樣的任務(wù)，尤其是針對(duì)像通用搜索能力這樣復(fù)雜的任務(wù)。如此算來(lái)，一個(gè)訓(xùn)練序列就需要數(shù)億次的單獨(dú)連接 —— 在這個(gè)過(guò)程中，甚至可能會(huì)導(dǎo)致一些常用學(xué)術(shù)資源遭受類似分布式拒絕服務(wù)（DDoS）攻擊的情況。這顯然并不理想，此時(shí)，網(wǎng)絡(luò)帶寬而非實(shí)際計(jì)算能力，成了主要的限制因素。

Game RL 面臨著類似的限制。這就是為什么像 Pufferlib 這樣的 SOTA 方法會(huì)「從學(xué)習(xí)庫(kù)的角度將環(huán)境包裝成 Atari，而不會(huì)失去通用性」：RL 模型只需要看到它們所需使用的信息。當(dāng)這種方法應(yīng)用于搜索領(lǐng)域時(shí)，涉及到借助大型的 Common Crawl 數(shù)據(jù)轉(zhuǎn)儲(chǔ)，并將數(shù)據(jù)偽裝成通過(guò) Web 處理的樣子，包含 url、api 調(diào)用和其他典型的 http 工件。而實(shí)際上，這些數(shù)據(jù)早已存儲(chǔ)在本地具有快速查詢能力的數(shù)據(jù)框中。

因此，我推測(cè)用于搜索的大語(yǔ)言模型強(qiáng)化學(xué)習(xí)智能體可以通過(guò)以下方式進(jìn)行訓(xùn)練：

利用固定的數(shù)據(jù)集創(chuàng)建一個(gè)大型的網(wǎng)絡(luò)搜索模擬環(huán)境，并持續(xù)將數(shù)據(jù)「轉(zhuǎn)換」后反饋給模型。通過(guò)這種方式，讓模型仿佛置身于真實(shí)的網(wǎng)絡(luò)搜索場(chǎng)景中進(jìn)行學(xué)習(xí)。
使用某種形式的輕量級(jí) SFT（如 DeepSeek 的 SFT-RL-SFT-RL 步驟）預(yù)冷模型，可能基于可以找到的任何現(xiàn)有搜索模式。其總體思路是預(yù)先規(guī)范模型的推理和輸出方式，從而加快實(shí)際強(qiáng)化學(xué)習(xí)訓(xùn)練的速度，這類似于進(jìn)行某種預(yù)定義的規(guī)則設(shè)計(jì)。
準(zhǔn)備或多或少?gòu)?fù)雜的查詢，并將相關(guān)結(jié)果作為驗(yàn)證器。我唯一的猜測(cè)是，它涉及一些復(fù)雜的合成管道，從現(xiàn)有資源進(jìn)行反向翻譯，或者可能只是來(lái)自博士級(jí)注釋者的非常昂貴的注釋。
多步驟 RL 中的實(shí)際訓(xùn)練。模型提交查詢、發(fā)起搜索、發(fā)送結(jié)果、瀏覽頁(yè)面或重新表述結(jié)果，所有這些都是多步驟完成的。從模型的角度來(lái)看，它就像是在瀏覽網(wǎng)頁(yè)，但所有這些數(shù)據(jù)交換都是由搜索模擬器在后臺(tái)準(zhǔn)備的。
也許一旦模型在搜索方面足夠好，就會(huì)重新進(jìn)行另一輪 RL 和 SFT，這次更專注于編寫最終的綜合體。同樣，這可能涉及一個(gè)復(fù)雜的合成流程，其中輸出會(huì)轉(zhuǎn)變?yōu)檩斎耄鐚⒃嫉拈L(zhǎng)篇報(bào)告拆分成小塊，然后通過(guò)推理將它們重新組合起來(lái)。

告別對(duì)智能體進(jìn)行提示

最終，我們得到了一個(gè)真正的智能體模型。它在實(shí)踐中會(huì)如何改變標(biāo)準(zhǔn)的工作流程或模型編排呢？?jī)H僅是整體質(zhì)量的提升，還是一種全新的范式轉(zhuǎn)變？

讓我們回顧一下 Anthropic 對(duì)智能體的定義：LLM 智能體「能夠動(dòng)態(tài)地引導(dǎo)自身的處理流程和工具使用，自主掌控任務(wù)的完成方式」。我將再次以我較為熟悉的搜索場(chǎng)景為例進(jìn)行說(shuō)明。

一直以來(lái)，有很多人猜測(cè)檢索增強(qiáng)生成（RAG）會(huì)被具備長(zhǎng)上下文處理能力的直接大語(yǔ)言模型應(yīng)用所取代。但這種情況并未發(fā)生，原因有很多：長(zhǎng)上下文處理計(jì)算成本高昂，在處理相對(duì)復(fù)雜的查詢時(shí)準(zhǔn)確性欠佳，而且輸入信息的可追溯性較差。真正具備智能體能力的搜索大語(yǔ)言模型并不會(huì)取代 RAG。實(shí)際可能發(fā)生的情況是，在很大程度上實(shí)現(xiàn) RAG 的自動(dòng)化，并整合向量數(shù)據(jù)庫(kù)、路由和重排序等復(fù)雜操作。

一個(gè)典型的搜索過(guò)程可能會(huì)按照以下方式進(jìn)行：

分析、分解查詢，并對(duì)用戶意圖做出一些假設(shè)。
如果查詢不清楚，可能會(huì)立即提示用戶返回（OpenAI DeepResearch 已經(jīng)這樣做了）。
隨后，模型既可以開(kāi)展通用搜索，也可以在合適的情況下，直接轉(zhuǎn)向更專業(yè)的研究資源。該模型已經(jīng)記住了標(biāo)準(zhǔn)的應(yīng)用程序編程接口（API）方案，能夠直接調(diào)用它們。為節(jié)省推理時(shí)間，模型可優(yōu)先借助現(xiàn)有的網(wǎng)絡(luò)「模擬」版本，例如各類 API、網(wǎng)站地圖以及龐大的數(shù)據(jù)網(wǎng)絡(luò)生態(tài)系統(tǒng)。
搜索序列經(jīng)過(guò)學(xué)習(xí)和訓(xùn)練。該模型可以放棄錯(cuò)誤的方向?；蛘咚梢韵駥I(yè)知識(shí)工作者那樣走另一條路。我看到 OpenAI DeepResearch 的一些最令人印象深刻的結(jié)果證明了這種能力：通過(guò)一系列內(nèi)部推理，可以正確定位索引不良的來(lái)源。
搜索序列經(jīng)過(guò)學(xué)習(xí)和訓(xùn)練。模型能夠及時(shí)放棄錯(cuò)誤的搜索方向，或者像專業(yè)知識(shí)工作者那樣另辟蹊徑。我在 OpenAI DeepResearch 中看到的一些令人印象深刻的結(jié)果，就證明了這種能力：通過(guò)一系列的內(nèi)部推理，模型能夠準(zhǔn)確找到索引不佳的資源。
每一步操作和整個(gè)過(guò)程都會(huì)作為內(nèi)部推理軌跡被記錄下來(lái)，從而在一定程度上為搜索結(jié)果提供可解釋性。

簡(jiǎn)而言之，搜索過(guò)程是直接設(shè)計(jì)的。LLM 智能體充分利用現(xiàn)有的搜索基礎(chǔ)設(shè)施，并盡其所能以巧妙的方式開(kāi)展搜索。目前不需要額外的數(shù)據(jù)準(zhǔn)備。也不需要訓(xùn)練用戶與生成式 AI 系統(tǒng)交互。正如 Tim Berners-Lee 十多年前強(qiáng)調(diào)的那樣，「思考 Agent 的一種方式是，如果用戶明確要求，程序在每個(gè)實(shí)例中都會(huì)執(zhí)行用戶希望它執(zhí)行的操作?！?/span>

現(xiàn)在，為了更清楚地了解實(shí)際投入生產(chǎn)的 LLM 智能體，你可以開(kāi)始將這種方法遷移到其他領(lǐng)域。真正的網(wǎng)絡(luò)工程智能體同樣能夠直接與現(xiàn)有基礎(chǔ)設(shè)施交互，根據(jù)需求生成設(shè)備配置（如路由器、交換機(jī)、防火墻），分析網(wǎng)絡(luò)拓?fù)洳⑻岢鰞?yōu)化建議或解析錯(cuò)誤日志以識(shí)別網(wǎng)絡(luò)問(wèn)題的根本原因。真正的金融智能體將接受培訓(xùn)，以提供競(jìng)爭(zhēng)數(shù)據(jù)標(biāo)準(zhǔn)的無(wú)縫和準(zhǔn)確翻譯（如 ISO 20022 到 MT103）。目前，僅靠一系列系統(tǒng)提示是無(wú)法完成上述任何一項(xiàng)任務(wù)的。

目前，唯一能夠開(kāi)發(fā)真正 LLM 智能體的只有大型實(shí)驗(yàn)室。它們掌握著所有優(yōu)勢(shì)：專業(yè)技術(shù)、擁有部分?jǐn)?shù)據(jù)（或者至少掌握合成數(shù)據(jù)的方法）以及將它們的模型轉(zhuǎn)化為產(chǎn)品的總體愿景。我不確定這種技術(shù)集中是否是一件好事，盡管資金生態(tài)系統(tǒng)不愿將真正的模型訓(xùn)練視為長(zhǎng)期顛覆和價(jià)值創(chuàng)造的實(shí)際來(lái)源，這在很大程度上助長(zhǎng)了這種集中化現(xiàn)象。

我一般不喜歡夸大其詞。然而，鑒于 LLM 智能體具有巨大的顛覆潛力和價(jià)值獲取能力，我堅(jiān)信讓 LLM 智能體的訓(xùn)練和部署走向大眾化已刻不容緩。因此，開(kāi)放驗(yàn)證器、GRPO 訓(xùn)練樣本，以及可能會(huì)很快出現(xiàn)的復(fù)雜合成管道和模擬器。

2025 年會(huì)是智能體元年嗎？有可能。讓我們拭目以待。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 開(kāi)發(fā)測(cè)試

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="g16vu"></sub>

<sub id="g16vu"></sub>