偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

端到端優(yōu)化所有能力,字節(jié)跳動(dòng)提出強(qiáng)化學(xué)習(xí)LLM Agent框架AGILE

人工智能 新聞
AGILE是一種基于強(qiáng)化學(xué)習(xí)的LLM Agent框架。AGILE Agent具備擁有長(zhǎng)期記憶、使用外部工具、向人類專家進(jìn)行咨詢、反思等能力,并且所有能力可以進(jìn)行端到端的統(tǒng)一優(yōu)化。

大語言模型(Large Language Models, LLMs)的強(qiáng)大能力推動(dòng)了 LLM Agent 的迅速發(fā)展。圍繞增強(qiáng) LLM Agent 的能力,近期相關(guān)研究提出了若干關(guān)鍵組件或工作流。然而,如何將核心要素集成到一個(gè)統(tǒng)一的框架中,能夠進(jìn)行端到端優(yōu)化,仍然是一個(gè)亟待解決的問題。

來自字節(jié)跳動(dòng) ByteDance Research 的研究人員提出了基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)的 LLM Agent 框架 ——AGILE。該框架下,Agent 能夠擁有記憶、工具使用、規(guī)劃、反思、與外界環(huán)境交互、主動(dòng)求助專家等多種能力,并且通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)所有能力的端到端訓(xùn)練。尤其值得注意的是,AGILE 框架允許 Agent 在不自信時(shí)主動(dòng)向人類專家尋求建議。這帶來了兩大優(yōu)勢(shì):首先,Agent 在處理復(fù)雜問題時(shí)能夠持續(xù)保持高準(zhǔn)確率;其次,通過向人類學(xué)習(xí),增強(qiáng)了其快速適應(yīng)新任務(wù)的泛化能力。

  • 論文地址:https://arxiv.org/abs/2405.14751
  • 代碼地址:https://github.com/bytarnish/AGILE

研究者讓 AGILE 框架在復(fù)雜問答任務(wù)中進(jìn)行了驗(yàn)證。在 ProductQA 與 MedMCQA 任務(wù)上,經(jīng)過 RL 訓(xùn)練后的 13B 模型或者 7B 模型能夠超越提示工程構(gòu)建的 GPT-4 Agent。

AGILE Agent 框架

如圖 1 (a) 所示,AGILE 框架包含四個(gè)核心模塊:LLM、記憶(Memory)、工具(Tools)和執(zhí)行器(Executor)。LLM 負(fù)責(zé)預(yù)測(cè)動(dòng)作;記憶模塊記錄 Agent 的軌跡;工具模塊提供 Agent 可以調(diào)用的外部 API;執(zhí)行器會(huì)監(jiān)聽 LLM 的輸出,根據(jù) LLM 的輸出調(diào)用相應(yīng)的模塊執(zhí)行具體的操作,并將執(zhí)行操作得到的結(jié)果添加到 LLM 的上下文中。

圖片

圖 1 (b) 展示了 AGILE Agent 在電商問答場(chǎng)景中的一個(gè)示例。電商問答是一個(gè)復(fù)雜的實(shí)際應(yīng)用場(chǎng)景,面臨的挑戰(zhàn)包括需要海量商品的領(lǐng)域知識(shí)、靈活運(yùn)用商品檢索工具、以及快速適應(yīng)不斷涌現(xiàn)的新商品。如圖 1 (b) 所示,AGILE Agent 會(huì)根據(jù)用戶的問題檢索記憶,如果無法確定問題的答案,Agent 會(huì)向人類專家尋求幫助。在獲得專家的反饋后,Agent 會(huì)反思并將新掌握的領(lǐng)域知識(shí)存儲(chǔ)在記憶中。在未來,面對(duì)新的問題時(shí),Agent 能夠從記憶中檢索到這條知識(shí),并基于這些知識(shí)直接給出準(zhǔn)確的答案。除此之外,AGILE Agent 也會(huì)根據(jù)用戶的問題選擇是否調(diào)用外部工具(如搜索、數(shù)據(jù)庫檢索),輔助生成最終的回答。

強(qiáng)化學(xué)習(xí)定義:LLM Agents 被定義為一個(gè) token-level MDP(Markov Decision Process)。動(dòng)作空間(Action space)由 LLM 的詞表構(gòu)成,LLM 生成的每一個(gè) token 是一個(gè)動(dòng)作,LLM 本身則作為 Agent 的策略模型(Policy model)。Agent 的狀態(tài)(State)由 LLM 上下文和記憶組成。在每個(gè)時(shí)刻,LLM 預(yù)測(cè)動(dòng)作,執(zhí)行器根據(jù)預(yù)定義的邏輯完成狀態(tài)轉(zhuǎn)移,同時(shí)環(huán)境給予 Agent 相應(yīng)的獎(jiǎng)勵(lì)(Reward)。

在 AGILE 框架下,Agent 有兩種策略學(xué)習(xí)方法。第一種是模仿學(xué)習(xí),通過收集人類軌跡數(shù)據(jù)或更高級(jí)別 Agent 的軌跡數(shù)據(jù),對(duì) LLM 進(jìn)行 SFT 訓(xùn)練。第二種是強(qiáng)化學(xué)習(xí),通過定義獎(jiǎng)勵(lì)函數(shù),利用強(qiáng)化學(xué)習(xí)算法來訓(xùn)練 LLM。

此外,LLM Agent 可能會(huì)產(chǎn)生跨越數(shù)百萬個(gè) tokens 的軌跡,這為直接訓(xùn)練帶來了挑戰(zhàn)。為了應(yīng)對(duì)這種長(zhǎng)程依賴的問題,研究人員提出了一種片段級(jí)別的優(yōu)化算法。

主動(dòng)尋求幫助:AGILE 框架允許 Agent 主動(dòng)向外部的人類專家尋求幫助。這種機(jī)制有兩個(gè)優(yōu)勢(shì):首先,當(dāng) Agent 遇到不確定的情況時(shí),通過求助人類專家,確保其在實(shí)際應(yīng)用中達(dá)到高準(zhǔn)確率。其次,Agent 能夠通過對(duì)人類的反饋反思并積累知識(shí),從而更快適應(yīng)新環(huán)境,提升其泛化能力。然而決定何時(shí)尋求幫助是一個(gè)復(fù)雜決策,它涉及到 Agent 的自我評(píng)估、人類反饋對(duì)未來的價(jià)值以及人類專家的成本。因此,標(biāo)注何時(shí)應(yīng)該求助是很難的。但在強(qiáng)化學(xué)習(xí)框架中,可以通過定義相關(guān)獎(jiǎng)勵(lì),將這種求助能力作為策略模型的一部分,在端到端訓(xùn)練中得到提升。

實(shí)驗(yàn)結(jié)果

ProductQA

ProductQA 是一個(gè)商品問答任務(wù)。該數(shù)據(jù)集包含 26 個(gè)對(duì)應(yīng)不同商品類別的 QA 任務(wù),每個(gè)任務(wù)平均包含 3,393 個(gè)問題。ProductQA 包括基于事實(shí)的問題、推理問題和商品推薦問題,它能夠全面評(píng)估 Agent 處理歷史信息和累積知識(shí)、利用工具、向人求助、自我評(píng)估和反思的能力。此外,訓(xùn)練和測(cè)試集由不同的任務(wù)構(gòu)成,以評(píng)估 Agent 在新商品問答上的泛化能力。

圖片

在商品問答(ProductQA)任務(wù)上,基于 Vicuna-13b 訓(xùn)練的 AGILE Agent(agile-vic13b-ppo)表現(xiàn)超過了 GPT-4(gpt4-prompt)與提升工程構(gòu)建的 GPT-4 Agent(agile-gpt4-prompt)。在使用了相當(dāng)?shù)那笾壤ˋdvice Rate)的情況下,agile-vic13b-ppo 的 acc 相比于 agile-gpt4-prompt 提升了 7.4%,在 Total Score 上提升了 9.2%。

圖片

從上圖可以看出,在執(zhí)行包含上千個(gè)問答的任務(wù)整個(gè)過程中,agile-vic13b-ppo 的 acc 持續(xù)穩(wěn)定地高于 agile-gpt4-prompt。同時(shí)尋求人類幫助的頻率(Advice Rate)隨著問答輪數(shù)的增加逐漸下降。此外,通過調(diào)整人類的咨詢成本(Seeking Advice Cost)和進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,AGILE Agent 可以有效實(shí)現(xiàn)準(zhǔn)確率與專家成本的權(quán)衡。

圖片

消融實(shí)驗(yàn)結(jié)果顯示,記憶、反思、咨詢?nèi)祟惤ㄗh、工具使用、RL 訓(xùn)練在實(shí)現(xiàn)高性能的 AGILE Agent 中均具有重要作用。

MedMCQA

MedMCQA 是一個(gè)多項(xiàng)選擇的問答數(shù)據(jù)集,其問題來自醫(yī)學(xué)院入學(xué)考試。在 MedMCQA 任務(wù)上,基于 Meerkat-7b 訓(xùn)練的 AGILE Agent(agile-mek7b-ppo)表現(xiàn)優(yōu)于 GPT-4 Agent。準(zhǔn)確率達(dá)到了 85.2%,超過了之前的 SOTA 方法 ——GPT 4-MedPrompt 的 79.1%。消融實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了記憶、咨詢?nèi)祟惤ㄗh、反思和 RL 訓(xùn)練的重要性。

圖片

更多研究細(xì)節(jié),可參考原論文。

總結(jié)

AGILE是一種基于強(qiáng)化學(xué)習(xí)的LLM Agent框架。AGILE Agent具備擁有長(zhǎng)期記憶、使用外部工具、向人類專家進(jìn)行咨詢、反思等能力,并且所有能力可以進(jìn)行端到端的統(tǒng)一優(yōu)化。AGILE的一個(gè)重要特點(diǎn)是Agent在遇到無法自行解決的問題時(shí)可以向人類專家咨詢,這種機(jī)制保證了應(yīng)用場(chǎng)景中對(duì)高準(zhǔn)確率的要求,同時(shí)增強(qiáng)了Agent的學(xué)習(xí)與泛化能力。實(shí)驗(yàn)表明,經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的13B或7B模型的Agent,其能力可以超過GPT-4 Agent。

團(tuán)隊(duì)介紹

ByteDance Research 專注于人工智能領(lǐng)域的前沿技術(shù)研究,涵蓋了機(jī)器翻譯、視頻生成基礎(chǔ)模型、機(jī)器人研究、機(jī)器學(xué)習(xí)公平性、量子化學(xué)、AI 制藥、分子動(dòng)力學(xué)等多技術(shù)研究領(lǐng)域,同時(shí)致力于將研究成果落地,為公司現(xiàn)有的產(chǎn)品和業(yè)務(wù)提供核心技術(shù)支持和服務(wù)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-09-26 13:50:52

AI 數(shù)據(jù)強(qiáng)化學(xué)習(xí)

2025-06-05 06:36:17

2023-08-05 13:08:54

2025-05-26 17:16:51

2025-03-21 13:00:54

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2012-08-24 09:34:58

戴爾

2025-05-28 02:25:00

2025-02-20 08:00:00

2025-03-25 09:12:00

LIMAI模型

2025-03-28 10:16:15

2024-10-11 09:32:48

2025-06-10 11:22:09

強(qiáng)化學(xué)習(xí)AI模型

2023-06-25 11:30:47

可視化

2025-02-13 10:34:30

LLM算法PPO

2020-06-05 08:09:01

Python強(qiáng)化學(xué)習(xí)框架

2024-01-03 16:29:01

Agent性能優(yōu)化

2025-06-20 09:00:00

智能體訓(xùn)練模型

2025-01-08 15:15:16

2023-12-13 13:36:40

模型算力
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)