偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

可「自主進化」的Agent?首個端到端智能體符號化訓(xùn)練框架開源了

人工智能 新聞
來自波形智能的研究團隊借鑒連接主義訓(xùn)練神經(jīng)網(wǎng)絡(luò) (connectionist learning) 的基本方式,即反向傳播和梯度下降。

本文主要作者來自波形智能、浙江大學(xué)、和北京航空航天大學(xué)。共同一作中,周王春澍是波形智能的聯(lián)合創(chuàng)始人和 CTO,歐翌昕是浙江大學(xué)碩士二年級,丁盛為為北京航空航天大學(xué)四年級本科生。文章的通訊作者為周王春澍和姜昱辰,姜昱辰是波形智能的聯(lián)合創(chuàng)始人和 CEO。

隨著各類大模型 API 的迭代以及各類 AI Agent 框架的開源,基于大模型的智能體在學(xué)術(shù)界和工業(yè)界收獲了廣泛的關(guān)注、研究、和應(yīng)用。

盡管基于大模型的智能體 (AI Agent) 在很多場景都取得了不錯的效果,并且在一些場景下已經(jīng)能夠?qū)嶋H落地應(yīng)用,AI Agent 的研究和開發(fā)的進展仍然局限于 “expert-centric”,或者說 “engineering-centric” 的范式中。也就是說,現(xiàn)在的 Agent 的創(chuàng)建和調(diào)優(yōu)過程還是幾乎完全依賴人類專家 (算法工程師) 的人力和經(jīng)驗來設(shè)計智能體的 promtps, tools,和 workflow。這樣的過程費時費力,并且注定了無法使用海量數(shù)據(jù)對智能體的這些符號化元素進行學(xué)習(xí)和訓(xùn)練。而大部分智能體依賴于閉源的 API 調(diào)用,無法對大模型基座本身進行優(yōu)化,即使使用開源大模型,對模型基座本身的優(yōu)化也在大部分 AI 智能體的應(yīng)用場景中受到資源、算力、穩(wěn)定性等原因而無法實際進行。因此現(xiàn)在的智能體還處于 “專家系統(tǒng)” 的發(fā)展階段。

眾所周知,神經(jīng)網(wǎng)絡(luò)成為機器學(xué)習(xí) / 人工智能的基礎(chǔ)范式的重要原因正是因為可以高效地使用海量數(shù)據(jù)進行訓(xùn)練和優(yōu)化,而不需要手工設(shè)計復(fù)雜的結(jié)構(gòu)和學(xué)習(xí)算法。因此,來自波形智能的研究人員們認(rèn)為,AI Agent 從以專家經(jīng)驗為核心 (expert-centric) 到以數(shù)據(jù)為核心 (data-centric) 的轉(zhuǎn)變,將會是基于大模型的智能體的一個重要發(fā)展方向。

為了實現(xiàn)這個目標(biāo),來自波形智能的研究團隊借鑒連接主義訓(xùn)練神經(jīng)網(wǎng)絡(luò) (connectionist learning) 的基本方式,即反向傳播和梯度下降,將 AI Agent 和神經(jīng)網(wǎng)絡(luò)進行類比,使用文本和大模型建模損失函數(shù)、梯度、和優(yōu)化器,模擬反向傳播和梯度下降算法,實現(xiàn)對 Agent 的端到端的符號化訓(xùn)練算法,構(gòu)建了一套可以對 AI 智能體進行端到端訓(xùn)練的算法框架,代碼已經(jīng)開源在 GitHub。

圖片

  • 論文地址:https://arxiv.org/pdf/2406.18532
  • 代碼倉庫:https://github.com/aiwaves-cn/agents

具體來說,團隊首先將基于大模型的智能體解構(gòu)為三個主要元素,即 prompts, tools, 和 agent pipeline (workflow)。接著,框架中將一個 Agent 系統(tǒng)看作是一個 “符號化” 神經(jīng)網(wǎng)絡(luò),將 Agent workflow 中的每一個 node 看作是網(wǎng)絡(luò)中的一個 layer,而將每個節(jié)點中的 prompts 和 tools 看作是這個 layer 的 weights,智能體的 workflow/pipeline 則可以看作是網(wǎng)絡(luò)的計算圖。這樣下來,智能體系統(tǒng)可以看作是一個權(quán)重從數(shù)字 / 張量空間變成離散符號空間 (文字,代碼都是符號化的表示) 的神經(jīng)網(wǎng)絡(luò),而這種網(wǎng)絡(luò)的訓(xùn)練自然也就可以參考傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的優(yōu)化方式,即反向傳播和梯度下降。

圖 1: Agent Symbolic Learning 框架示意圖

要使傳統(tǒng)的反向傳播和梯度下降能夠處理符號化的權(quán)重空間,agent symbolic learning 框架中通過文本和大模型 + 提示詞的方式建模了損失,損失函數(shù),反向傳播的流程,梯度,以及基于梯度的優(yōu)化器。具體來說,前向傳播過程中,框架會將每一層的輸入、權(quán)重、和輸出都保存在計算圖中。接下來,通過大模型 + 提示詞的方式,在提示詞中結(jié)合當(dāng)前樣本的輸入,輸出,和整體任務(wù)的描述,之后由大語言模型輸出對當(dāng)前樣本任務(wù)完成情況的評價和總結(jié)。得到的文本形式的評價 / 總結(jié),正如神經(jīng)網(wǎng)絡(luò)中的 loss 一樣,用來衡量任務(wù)完成的好壞,研究團隊將其稱為 “文本形式的損失”,即 language-based loss。

之后,該研究通過大語言模型和精心設(shè)計的提示詞工程,來生成智能體流程中對最后一個節(jié)點的 “反思”。反思中包括模型的輸出應(yīng)該怎樣變化才能更符合要求,以及提示詞和工具調(diào)用應(yīng)該如何優(yōu)化才能使輸出朝這樣的方向發(fā)生變化。這一內(nèi)容和神經(jīng)網(wǎng)絡(luò)優(yōu)化中梯度的作用剛好一致,都是包含了參數(shù)應(yīng)該如何調(diào)整才能最小化整個模型的損失的信息,因此研究團隊將這樣的反思稱作 “文本形式的梯度”,即 language-based gradient。

接下來要做的就是從后向前,得到每一層的梯度,這對于神經(jīng)網(wǎng)絡(luò)的優(yōu)化至關(guān)重要。受到神經(jīng)網(wǎng)絡(luò)中基于鏈?zhǔn)椒▌t的公式的反向傳播的啟發(fā),波形智能的研究人員通過文本和大模型,用一套精心設(shè)計的 prompt 來模擬了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)優(yōu)化的鏈?zhǔn)椒▌t。具體來說,這套 prompts 讓大模型基于上一層的梯度信息 (即對上一層執(zhí)行任務(wù)的反思) 以及本層的輸入、輸出、以及權(quán)重 (這些輸入和反向傳播公式中的參數(shù)完全對應(yīng)),輸出對當(dāng)前節(jié)點的 prompt/tool usage 的反思,即當(dāng)前層的 language-based gradient。這樣基于文本的反向傳播的方案使得該研究能夠得到一個包含多個節(jié)點和復(fù)雜 workflow 的智能體中每一節(jié)點 / 層的參數(shù)的梯度,也就可以直接優(yōu)化每一個 prompt 和 tool 對整個智能體性能的作用,從而實現(xiàn) end-to-end 的 joint optimization。

最后,得到了每組參數(shù)的 language-based gradient 之后,框架中使用基于大模型的 optimizer,使用精心設(shè)計的 prompt,以每一層的提示詞和工具調(diào)用,以及基于文本的梯度作為輸入,輸出優(yōu)化過后的 prompts 和 tools,從而實現(xiàn)對智能體參數(shù)的更新。

除此之外,框架中還支持了對網(wǎng)絡(luò)結(jié)構(gòu),即 agent workflow 的優(yōu)化。具體來說,框架中將 agent workflow 以特定的編程語言進行表示,這樣就將智能體網(wǎng)絡(luò)的 “計算圖” 也處理成了符號化的權(quán)重。之后通過一個單獨設(shè)計的基于大模型的優(yōu)化器,以當(dāng)前智能體的工作流和工作流中的各個節(jié)點的文本形式的梯度為輸入來對智能體的工作流進行更新。這在神經(jīng)網(wǎng)絡(luò)中訓(xùn)練中可以類比自動網(wǎng)絡(luò)結(jié)構(gòu)搜索相關(guān)的研究。

圖片

圖 2: Agent Symbolic Learning 算法流程

圖片

圖 3 大模型評測任務(wù)上的實驗結(jié)果

圖片

圖 4 智能體級別評測任務(wù)的實驗結(jié)果

波形智能的研究人員在大模型和智能體的一系列 benchmark 上對該算法進行了評估,如圖 3 和圖 4 所示,agent symbolic learning 相比 DSpy 和傳統(tǒng)的沒有學(xué)習(xí)能力的智能體框架相比,在各類任務(wù)上都有了明顯的提升,在一些任務(wù)上甚至使用 GPT-3.5 也能和其他智能體框架使用 GPT-4 的表現(xiàn)類似。而簡單的對智能體中每一個節(jié)點中的提示詞使用局部的基于大語言模型的提示詞自動優(yōu)化算法 (AutoPE) 則無法取得很明顯的效果。另外,如圖 5 所示,該算法在創(chuàng)意寫作任務(wù)中,從初始的只基于一個提示詞進行寫作的單節(jié)點智能體,自主進化到了支持寫作 + 編輯的工作流,并且將寫作節(jié)點的提示詞進行了更新和優(yōu)化。

圖片

圖 5 Agent Symbolic Learning 框架學(xué)習(xí)效果展示 (以創(chuàng)意寫作任務(wù)為例)

波形智能的研究團隊介紹了 Agent Symbolic Learning 的兩種應(yīng)用場景。首先,該框架可以用于開發(fā)者或研究人員創(chuàng)建和調(diào)優(yōu)智能體系統(tǒng)中。像神經(jīng)網(wǎng)絡(luò)的訓(xùn)練一樣,開發(fā)者和研究人員可以對指定的任務(wù)收集(或者使用框架中提供的自動生成)大量的樣本,之后使用該框架在大量數(shù)據(jù)上完成 “data-centric” 的智能體的訓(xùn)練和優(yōu)化,在之后像普通智能體的部署一樣,在產(chǎn)品生產(chǎn)環(huán)境中以靜態(tài)的方式部署優(yōu)化過后的智能體。

除此之外,該框架的另一個重要應(yīng)用場景是支持能夠在環(huán)境 / 交互中自主進化的 Agent。具體來說,因為該訓(xùn)練框架本身只需要調(diào)用大模型的能力而不需要復(fù)雜的基于 GPU 的訓(xùn)練和部署,因此一個 Agent 可以將該訓(xùn)練框架作為其自身可以調(diào)用的一個工具,通過在環(huán)境中探索或者和人類進行交互的過程中,不斷收集新的訓(xùn)練樣本,定期或者主動調(diào)用智能體訓(xùn)練的算法工具,對自身的 prompts, tools, 和 workflow 進行更新。波形智能在 AIWaves Agents 的開源代碼庫中也支持了這樣的部署邏輯,實現(xiàn)了首個可以在被部署到實際產(chǎn)品和生產(chǎn)環(huán)境中之后,依然可以不斷自主進化、自我迭代的智能體系統(tǒng)。

Agent Symbolic Learning 框架將 AI Agent 視作由復(fù)雜 workflow 中的 prompts 和 tools 連接而成的符號化 “神經(jīng)網(wǎng)絡(luò)”,通過基于自然語言模擬反向傳播和梯度下降,使得基于大模型的智能體可以自主對自身的 “網(wǎng)絡(luò)參數(shù)”,即 prompts 和 tools,以及 “網(wǎng)絡(luò)結(jié)構(gòu)”,即 agent workflow,進行優(yōu)化,從而實現(xiàn)了能夠高效利用大量數(shù)據(jù)和經(jīng)驗,進行 “data-centric learning” 的智能體框架,讓能夠持續(xù)自主進化的智能體系統(tǒng)變成了可能。目前,該框架已經(jīng)在波形智能的多個產(chǎn)品和應(yīng)用中發(fā)揮作用,解決了 Agent 人工優(yōu)化和評測困難的問題。為了推進 “Data-centric Agent” 和 “Agent Learning” 的發(fā)展和研究,波形智能的研究團隊也將算法的全部代碼開源,期待智能體領(lǐng)域?qū)W術(shù)界和工業(yè)界一起探索更多更有趣的算法和應(yīng)用。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-06-20 09:00:00

智能體訓(xùn)練模型

2025-04-01 09:10:00

2025-03-10 12:09:37

2025-06-03 08:09:00

AI智能體模型

2025-04-30 08:57:55

2021-05-26 10:04:09

人工智能AI深度學(xué)習(xí)

2020-05-15 12:27:33

RPA人工智能

2025-01-27 09:51:24

AI模型開源

2025-07-22 08:24:15

2023-06-16 20:50:13

大模型

2010-03-20 09:32:34

LTE試驗網(wǎng)端到端服務(wù)華為

2021-05-21 10:32:56

Mendix

2024-09-30 14:40:00

AI強化學(xué)習(xí)框架

2025-06-05 08:46:00

2024-09-19 18:49:54

完全同態(tài)加密FHE機器學(xué)習(xí)

2021-09-26 13:50:52

AI 數(shù)據(jù)強化學(xué)習(xí)

2025-09-28 08:52:00

2012-08-24 09:34:58

戴爾

2020-10-22 13:10:56

機器學(xué)習(xí)人工智能計算機
點贊
收藏

51CTO技術(shù)棧公眾號