偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

智能體式推理與工具集成:ARTIST 基于強(qiáng)化學(xué)習(xí)的新思路

人工智能
大型語(yǔ)言模型(LLM)已在諸多領(lǐng)域落地應(yīng)用,但卻因依賴靜態(tài)內(nèi)部知識(shí)庫(kù)和單一文本推理機(jī)制而遭遇瓶頸。復(fù)雜現(xiàn)實(shí)問(wèn)題的求解,需要模型具備動(dòng)態(tài)推理、精準(zhǔn)決策并與外部工具環(huán)境緊密協(xié)作的能力。研究者提出的 ARTIST 框架,就是 LLM 賦予智能體式推理與工具集成的全新維度。

大家好,我是肆〇柒。這兩天,我看到一篇論文《Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning》講述的是ARTIST 框架,為 LLM 賦予智能體式推理與工具集成的全新維度。今天,就一起了解一下這個(gè) ARTIST 框架,看看 LLM 如何借助強(qiáng)化學(xué)習(xí)突破局限,開(kāi)啟智能體式推理與工具集成。

背景介紹

在AI 領(lǐng)域,LLM 憑借強(qiáng)大的語(yǔ)言理解和生成能力,為我們的生活和工作帶來(lái)了前所未有的便利。然而,隨著應(yīng)用場(chǎng)景的不斷拓展,LLM 的局限性也逐漸顯現(xiàn)。它們依賴于靜態(tài)的內(nèi)部知識(shí)庫(kù),僅能進(jìn)行基于文本的推理,這使得在處理復(fù)雜現(xiàn)實(shí)問(wèn)題時(shí),常常顯得力不從心。

例如,在解決復(fù)雜數(shù)學(xué)問(wèn)題時(shí),模型可能需要調(diào)用外部數(shù)學(xué)庫(kù)進(jìn)行高精度計(jì)算;在規(guī)劃旅行路線時(shí),可能需要實(shí)時(shí)查詢航班信息并預(yù)訂酒店;在處理多輪對(duì)話任務(wù)時(shí),需要精準(zhǔn)地維護(hù)對(duì)話狀態(tài),靈活地調(diào)用各種函數(shù)。這些需求,對(duì)傳統(tǒng) LLM 來(lái)說(shuō),無(wú)疑是一道難題。

為解決這個(gè)問(wèn)題,研究者提出了 ARTIST 框架。它巧妙地將智能體式推理、強(qiáng)化學(xué)習(xí)和工具集成深度融合,使模型在多輪推理過(guò)程中能夠自主決策工具調(diào)用的時(shí)機(jī)、方式與種類。通過(guò)這種方式,ARTIST 為 LLM 賦予了更加靈動(dòng)、智慧的大腦,使其在復(fù)雜現(xiàn)實(shí)任務(wù)中能夠游刃有余,從而推動(dòng)人工智能從單純的語(yǔ)言理解與生成向真正的智能決策與執(zhí)行邁進(jìn)。

ARTIST 框架概述

核心概念

ARTIST 框架的核心理念,是讓 LLM 走出文本推理的舒適區(qū),學(xué)會(huì)與外部工具和環(huán)境互動(dòng)。在多輪推理鏈中,模型不再是機(jī)械地生成文本,而是像一位機(jī)智的指揮官,根據(jù)任務(wù)需求,實(shí)時(shí)判斷是否需要調(diào)用工具,以及調(diào)用何種工具。例如,在解決一道高難度數(shù)學(xué)物理問(wèn)題時(shí),模型可能會(huì)先進(jìn)行幾輪文本推理,分解問(wèn)題;隨后意識(shí)到需要進(jìn)行符號(hào)計(jì)算,便調(diào)用 Python 解釋器,借助 SymPy 庫(kù)完成復(fù)雜積分運(yùn)算;得到結(jié)果后,再次回到文本推理,整合信息,最終輸出完美的答案。

這種智能體式推理與工具集成的結(jié)合,使模型能夠突破內(nèi)部知識(shí)的局限,借助外部工具的力量,解決更為復(fù)雜的問(wèn)題。它不僅提升了模型的推理能力,還拓展了其應(yīng)用場(chǎng)景。

架構(gòu)組成

ARTIST 的架構(gòu)各部分緊密相連,協(xié)同運(yùn)作。

策略模型作為智慧核心,負(fù)責(zé)生成推理軌跡,決定工具調(diào)用策略。它通過(guò)不斷的訓(xùn)練和優(yōu)化,學(xué)會(huì)了如何在復(fù)雜的任務(wù)中,精準(zhǔn)地選擇合適的工具,并在合適的時(shí)機(jī)調(diào)用它們。

任務(wù)是驅(qū)動(dòng)整個(gè)推理過(guò)程的引擎,明確模型需要解決的問(wèn)題。它為模型提供了目標(biāo)方向,使模型的推理和工具調(diào)用都有據(jù)可依。

工具和環(huán)境則是左膀右臂,為模型提供豐富的外部功能支持和實(shí)時(shí)信息反饋。工具可以是數(shù)學(xué)計(jì)算庫(kù)、網(wǎng)頁(yè)瀏覽器、文件操作 API 等各種軟件資源;環(huán)境則可以是操作系統(tǒng)界面、網(wǎng)頁(yè) Arena 等交互式平臺(tái)。通過(guò)與工具和環(huán)境的交互,模型能夠獲取最新的信息,執(zhí)行復(fù)雜的操作,從而完成任務(wù)。

動(dòng)作代表著模型在推理過(guò)程中的具體操作,包括文本生成和工具調(diào)用。模型通過(guò)動(dòng)作,與外部世界進(jìn)行交流和互動(dòng),推動(dòng)任務(wù)的進(jìn)展。

觀察則是模型從環(huán)境中獲取的反饋信息,用于調(diào)整后續(xù)推理方向。這些反饋信息可以是工具的輸出結(jié)果、環(huán)境的狀態(tài)變化等,它們?yōu)槟P吞峁┝藢氋F的外部信息,幫助模型更好地理解和解決問(wèn)題。

推理是貫穿整個(gè)過(guò)程的主線,體現(xiàn)模型對(duì)問(wèn)題的逐步理解和解決思路。在推理過(guò)程中,模型不斷地整合內(nèi)部知識(shí)和外部信息,逐步深入,直至找到問(wèn)題的解決方案。

答案是推理的結(jié)晶,是模型對(duì)任務(wù)的最終回應(yīng)。它是模型智慧的體現(xiàn),是整個(gè)推理過(guò)程的成果。

獎(jiǎng)勵(lì)機(jī)制則是引導(dǎo)模型不斷優(yōu)化推理策略的燈塔。根據(jù)任務(wù)完成情況給予正負(fù)反饋,激勵(lì)模型向正確的方向前進(jìn)。例如,當(dāng)模型成功解決了問(wèn)題,并且工具調(diào)用準(zhǔn)確無(wú)誤,同時(shí)推理過(guò)程深入透徹,那么它將獲得豐厚的獎(jiǎng)勵(lì);反之,如果任務(wù)失敗或者工具調(diào)用出現(xiàn)錯(cuò)誤,模型將受到懲罰。通過(guò)這種方式,模型在不斷的試錯(cuò)中,逐漸學(xué)會(huì)了如何更好地解決問(wèn)題。

圖片

ARTIST 框架

如上圖所示,ARTIST 架構(gòu)通過(guò)交織基于文本的思考、工具查詢和工具輸出,實(shí)現(xiàn)了推理、工具使用和環(huán)境交互的動(dòng)態(tài)協(xié)調(diào)。這種架構(gòu)使得模型能夠在統(tǒng)一的框架內(nèi),靈活地調(diào)用工具和環(huán)境,從而增強(qiáng)其解決復(fù)雜問(wèn)題的能力。

方法論

強(qiáng)化學(xué)習(xí)算法

在強(qiáng)化學(xué)習(xí)算法中,Group Relative Policy Optimization(GRPO)算法以其獨(dú)特的優(yōu)勢(shì)脫穎而出,成為 ARTIST 框架的算法基石。GRPO 算法巧妙的地方在于它摒棄了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法對(duì)價(jià)值函數(shù)近似的依賴。在 PPO 等傳統(tǒng)算法中,價(jià)值函數(shù)近似常常引入額外的復(fù)雜性和誤差,而 GRPO 通過(guò)從一組樣本響應(yīng)中估計(jì)基線,巧妙地簡(jiǎn)化了優(yōu)化過(guò)程。它直接利用群體相對(duì)獎(jiǎng)勵(lì)信號(hào)來(lái)優(yōu)化策略模型,讓模型在群體智慧的指引下,更快、更精準(zhǔn)地找到最優(yōu)策略。

GRPO 算法通過(guò)以下步驟實(shí)現(xiàn):

    GRPO 算法相較于傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的優(yōu)勢(shì)在于,它通過(guò)群體相對(duì)獎(jiǎng)勵(lì)信號(hào)進(jìn)行優(yōu)化,避免了價(jià)值函數(shù)近似的復(fù)雜性和誤差。同時(shí),它能夠更加有效地利用樣本信息,提高優(yōu)化的穩(wěn)定性和收斂速度。在 ARTIST 框架中,GRPO 算法為模型的訓(xùn)練提供了強(qiáng)大的支持,使得模型能夠在復(fù)雜的任務(wù)中快速學(xué)習(xí)和優(yōu)化,不斷提升推理能力和工具調(diào)用策略。

    策略模型訓(xùn)練

    策略模型訓(xùn)練是 ARTIST 框架中的關(guān)鍵環(huán)節(jié),每一個(gè)步驟都精心設(shè)計(jì),環(huán)環(huán)相扣。

    首先,采樣策略從舊策略中采樣推理軌跡。在訓(xùn)練過(guò)程中,對(duì)于每個(gè)問(wèn)題,從舊策略模型中采樣多個(gè)推理軌跡,形成一個(gè)小組。這些軌跡包括模型在不同狀態(tài)下的動(dòng)作選擇、工具調(diào)用情況以及最終的任務(wù)完成結(jié)果。采樣過(guò)程中,引入一定的隨機(jī)性,確保探索的多樣性和穩(wěn)定性。例如,通過(guò)設(shè)置不同的采樣溫度參數(shù),可以控制采樣結(jié)果的隨機(jī)程度。較高的溫度參數(shù)會(huì)使采樣結(jié)果更加隨機(jī),有助于模型探索更多的可能性;較低的溫度參數(shù)則使采樣結(jié)果更加集中于高概率的動(dòng)作,有助于模型穩(wěn)定地優(yōu)化現(xiàn)有策略。

    然后,在生成推理軌跡時(shí),模型在文本推理和工具調(diào)用之間靈活切換。模型首先根據(jù)當(dāng)前問(wèn)題的描述和已有的信息,進(jìn)行文本推理,生成一段自然語(yǔ)言的推理文本。然后,模型根據(jù)推理文本的內(nèi)容,判斷是否需要調(diào)用外部工具。如果需要調(diào)用工具,模型會(huì)生成一個(gè)工具調(diào)用指令,包括工具的名稱、輸入?yún)?shù)等信息。工具執(zhí)行后,返回結(jié)果,模型將工具結(jié)果整合到推理文本中,繼續(xù)進(jìn)行后續(xù)的推理。這個(gè)過(guò)程不斷重復(fù),直到模型認(rèn)為任務(wù)完成或者達(dá)到預(yù)設(shè)的最大推理步數(shù)。例如,在解決一個(gè)數(shù)學(xué)問(wèn)題時(shí),模型可能先通過(guò)文本推理,將問(wèn)題分解為幾個(gè)關(guān)鍵步驟,然后調(diào)用 Python 解釋器,利用 SymPy 庫(kù)執(zhí)行符號(hào)計(jì)算,得到結(jié)果后,再次回到文本推理,整合信息,最終輸出完整的答案。

    獎(jiǎng)勵(lì)計(jì)算則綜合考慮任務(wù)完成情況、工具調(diào)用成功率、推理深度等多個(gè)維度,構(gòu)建出一個(gè)多維度的評(píng)價(jià)體系。任務(wù)完成情況的獎(jiǎng)勵(lì)根據(jù)模型最終是否正確解決了問(wèn)題來(lái)判斷。如果模型成功解決了問(wèn)題,給予較高的正獎(jiǎng)勵(lì);如果未解決,給予負(fù)獎(jiǎng)勵(lì)。工具調(diào)用成功率的獎(jiǎng)勵(lì)根據(jù)模型調(diào)用工具的次數(shù)和成功次數(shù)來(lái)計(jì)算。例如,模型調(diào)用了 N 次工具,成功 M 次,那么工具調(diào)用成功率的獎(jiǎng)勵(lì)可以表示為:

    最后,模型通過(guò)損失掩蔽策略進(jìn)行更新,聚焦于自身推理和決策部分,避免被工具響應(yīng)中的噪聲干擾。在更新模型參數(shù)時(shí),采用損失掩蔽策略,只對(duì)模型生成的文本推理部分和工具調(diào)用指令部分計(jì)算損失,而對(duì)工具返回的結(jié)果部分進(jìn)行掩蔽,不計(jì)算損失。這樣做的目的是讓模型專注于自身的推理和決策過(guò)程,避免受到工具響應(yīng)中的噪聲干擾。例如,假設(shè)模型生成的推理軌跡為:

    <reasoning>推理文本</reasoning>
    <tool>工具調(diào)用指令</tool>
    <output>工具返回結(jié)果</output>

    在計(jì)算損失時(shí),只對(duì) <reasoning> 和 <tool> 部分計(jì)算損失,對(duì) <output> 部分進(jìn)行掩蔽。通過(guò)這種方式,模型能夠更加專注于自身的推理和決策過(guò)程,不斷提升自身的性能。

    圖片

    ARTIST 方法概述

    如上圖所示,ARTIST 方法論概述了推理過(guò)程如何在內(nèi)部思考、工具使用和環(huán)境交互之間交替進(jìn)行,通過(guò)基于結(jié)果的獎(jiǎng)勵(lì)引導(dǎo)學(xué)習(xí)。這種機(jī)制使模型能夠通過(guò)強(qiáng)化學(xué)習(xí)不斷迭代地優(yōu)化其推理和工具使用策略。

    實(shí)驗(yàn)評(píng)估

    實(shí)驗(yàn)設(shè)置

    為了全面評(píng)估 ARTIST 框架的性能,實(shí)驗(yàn)涵蓋了復(fù)雜數(shù)學(xué)問(wèn)題求解和多輪函數(shù)調(diào)用兩大領(lǐng)域。在復(fù)雜數(shù)學(xué)問(wèn)題求解方面,精選了 MATH-500、AIME、AMC 和 Olympiad Bench 等多個(gè)權(quán)威數(shù)學(xué)基準(zhǔn)測(cè)試作為評(píng)估數(shù)據(jù)集。這些問(wèn)題從基礎(chǔ)數(shù)學(xué)運(yùn)算到高級(jí)數(shù)學(xué)競(jìng)賽題目,難度跨度大,全面覆蓋數(shù)學(xué)推理的各個(gè)層面。例如,MATH-500 數(shù)據(jù)集包含 500 道具有一定難度的數(shù)學(xué)問(wèn)題,涵蓋了代數(shù)、幾何、概率等多個(gè)數(shù)學(xué)分支;AIME 和 AMC 數(shù)據(jù)集則是針對(duì)美國(guó)高中數(shù)學(xué)競(jìng)賽的題目,難度較高,需要較強(qiáng)的數(shù)學(xué)推理和解題能力;Olympiad Bench 數(shù)據(jù)集更是包含了國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽級(jí)別的高難度題目,對(duì)模型的推理能力和工具調(diào)用策略提出了極高的要求。

    多輪函數(shù)調(diào)用實(shí)驗(yàn)則選擇了 BFCL v3 和 τ-bench 兩個(gè)基準(zhǔn)測(cè)試。BFCL v3 包含車輛控制、旅行預(yù)訂、文件操作等多個(gè)場(chǎng)景,充分考驗(yàn)?zāi)P驮陂L(zhǎng)對(duì)話中的工具調(diào)用和狀態(tài)維護(hù)能力。例如,在車輛控制場(chǎng)景中,模型需要根據(jù)用戶的指令,調(diào)用車輛控制 API,實(shí)現(xiàn)車輛的啟動(dòng)、加速、剎車等操作;在旅行預(yù)訂場(chǎng)景中,模型需要調(diào)用旅行預(yù)訂 API,查詢航班信息、預(yù)訂酒店和租車服務(wù),并根據(jù)用戶的反饋進(jìn)行調(diào)整。τ-bench 模擬航空和零售領(lǐng)域的真實(shí)對(duì)話,要求模型在與用戶的多輪交互中,準(zhǔn)確理解用戶意圖,調(diào)用相應(yīng)的函數(shù),完成任務(wù)目標(biāo)。例如,在航空領(lǐng)域,模型需要根據(jù)用戶的行程信息,查詢航班狀態(tài)、辦理登機(jī)手續(xù)、查詢行李托運(yùn)信息等;在零售領(lǐng)域,模型需要根據(jù)用戶的購(gòu)物需求,查詢商品信息、下單購(gòu)買、查詢訂單狀態(tài)等。

    評(píng)估指標(biāo)以 Pass@1 準(zhǔn)確率為主,直觀反映模型一次性解決問(wèn)題的能力。Pass@1 準(zhǔn)確率是指模型在第一次嘗試中給出正確答案的概率,它能夠很好地衡量模型在實(shí)際應(yīng)用中的性能。例如,在數(shù)學(xué)問(wèn)題求解中,Pass@1 準(zhǔn)確率反映了模型一次性給出正確答案的能力;在多輪函數(shù)調(diào)用中,Pass@1 準(zhǔn)確率反映了模型在第一次嘗試中完成任務(wù)的能力。

    實(shí)驗(yàn)中,Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 模型分別上陣,訓(xùn)練超參數(shù)經(jīng)過(guò)精心調(diào)試。例如,學(xué)習(xí)率設(shè)置為 (10^{-6}),使用 Adam 優(yōu)化器,β1 = 0.9,β2 = 0.99,權(quán)重衰減為 0.01。每批次采樣 6 個(gè)推理軌跡進(jìn)行訓(xùn)練,訓(xùn)練步數(shù)根據(jù)模型規(guī)模和任務(wù)難度進(jìn)行調(diào)整。硬件配置也滿足大規(guī)模訓(xùn)練需求,確保實(shí)驗(yàn)結(jié)果的可靠性。例如,在復(fù)雜數(shù)學(xué)問(wèn)題求解實(shí)驗(yàn)中,使用 4 塊 A100 80 GB GPU 進(jìn)行訓(xùn)練,總訓(xùn)練時(shí)間為 20 小時(shí);在多輪函數(shù)調(diào)用實(shí)驗(yàn)中,使用 3 塊 A100 80 GB GPU 進(jìn)行訓(xùn)練,總訓(xùn)練時(shí)間為 34 小時(shí)。

    實(shí)驗(yàn)結(jié)果與分析

    復(fù)雜數(shù)學(xué)推理

    在復(fù)雜數(shù)學(xué)推理領(lǐng)域,ARTIST 模型的表現(xiàn)也令人興奮。以 Qwen2.5-7B-Instruct 模型為例,在 AMC 數(shù)據(jù)集上,ARTIST 的準(zhǔn)確率達(dá)到了 0.47,相較于基線模型的 0.35 提升了整整 12.0%。這一顯著的提升充分彰顯了 ARTIST 在處理復(fù)雜組合概率問(wèn)題和多步數(shù)學(xué)推導(dǎo)時(shí)的強(qiáng)大優(yōu)勢(shì)。例如,在解決一個(gè)復(fù)雜的概率問(wèn)題時(shí),模型需要先通過(guò)文本推理,將問(wèn)題分解為多個(gè)條件概率的計(jì)算,然后調(diào)用 Python 解釋器,利用 SymPy 庫(kù)進(jìn)行精確的符號(hào)計(jì)算。在得到初步結(jié)果后,模型再次回到文本推理,結(jié)合工具輸出結(jié)果,對(duì)問(wèn)題進(jìn)行進(jìn)一步分析和驗(yàn)證。如果發(fā)現(xiàn)結(jié)果有誤,模型會(huì)自我修正,重新調(diào)用工具,調(diào)整計(jì)算參數(shù),直至得到正確的答案。這種自我修正能力使得模型在面對(duì)復(fù)雜問(wèn)題時(shí)能夠不斷優(yōu)化自己的推理策略,最終找到正確的解決方案。

    在更具挑戰(zhàn)性的 Olympiad Bench 數(shù)據(jù)集上,Qwen2.5-14B-ARTIST 的準(zhǔn)確率達(dá)到了 0.42,不僅大幅超越了 Qwen2.5-14B-Instruct 基線模型的 0.24,更是以 18.0% 的絕對(duì)優(yōu)勢(shì)領(lǐng)先于 GPT-4o 的 0.29。這表明,通過(guò)強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具調(diào)用,ARTIST 能夠在復(fù)雜數(shù)學(xué)問(wèn)題求解中實(shí)現(xiàn)更精準(zhǔn)、更高效的推理。例如,在解決一個(gè)高難度的數(shù)學(xué)競(jìng)賽題目時(shí),模型需要進(jìn)行多步復(fù)雜的推理和計(jì)算。它通過(guò)調(diào)用外部工具,如 Python 解釋器和數(shù)學(xué)計(jì)算庫(kù),進(jìn)行精確的符號(hào)計(jì)算和數(shù)值計(jì)算,從而得到準(zhǔn)確的結(jié)果。同時(shí),模型還能夠根據(jù)任務(wù)的復(fù)雜程度,動(dòng)態(tài)調(diào)整推理深度和工具調(diào)用策略,確保在有限的計(jì)算資源下,實(shí)現(xiàn)最優(yōu)的推理效果。

    在 MATH-500 數(shù)據(jù)集上,雖然問(wèn)題難度相對(duì)較低,但 ARTIST 依然展現(xiàn)出了穩(wěn)健的性能。Qwen2.5-7B-ARTIST 的準(zhǔn)確率為 0.676,較基線模型提升了 5.6%,而 Qwen2.5-14B-ARTIST 的準(zhǔn)確率更是達(dá)到了 0.726,相較于基線模型的 0.7 提升了 2.6%。這說(shuō)明,即使在對(duì)模型內(nèi)部知識(shí)要求較高的情況下,ARTIST 依然能夠通過(guò)工具調(diào)用和強(qiáng)化學(xué)習(xí)優(yōu)化推理過(guò)程,實(shí)現(xiàn)性能提升。例如,在解決一個(gè)基礎(chǔ)數(shù)學(xué)運(yùn)算問(wèn)題時(shí),模型雖然主要依賴內(nèi)部知識(shí)進(jìn)行推理,但也會(huì)在必要時(shí)調(diào)用外部工具進(jìn)行驗(yàn)證和優(yōu)化,從而確保推理結(jié)果的準(zhǔn)確性。

    圖片

    在四個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試中的Pass@1準(zhǔn)確率。ARTIST始終優(yōu)于所有基線模型,尤其是在復(fù)雜任務(wù)

    如上表所示,ARTIST 在四個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試中的 Pass@1 準(zhǔn)確率表現(xiàn)優(yōu)異,尤其是在復(fù)雜的 AMC、AIME 和 Olympiad 數(shù)據(jù)集上,顯著優(yōu)于所有基線模型。

    圖片

    Qwen2.5-7B-Instruct:在數(shù)學(xué)數(shù)據(jù)集上的表現(xiàn)

    如上圖所示,Qwen2.5-7B-Instruct 模型在數(shù)學(xué)數(shù)據(jù)集上的性能表現(xiàn),清晰地展示了 ARTIST 在不同難度任務(wù)上的優(yōu)勢(shì)。

    圖片

    Qwen2.5-14B-Instruct: 在數(shù)學(xué)數(shù)據(jù)集上的表現(xiàn)

    如上圖所示,Qwen2.5-14B-Instruct 模型在數(shù)學(xué)數(shù)據(jù)集上的性能表現(xiàn),進(jìn)一步證明了 ARTIST 在處理復(fù)雜數(shù)學(xué)問(wèn)題時(shí)的強(qiáng)大能力。

    圖片

    在所有數(shù)學(xué)數(shù)據(jù)集上的平均獎(jiǎng)勵(lì)分?jǐn)?shù)、工具調(diào)用以及響應(yīng)長(zhǎng)度指標(biāo)(ARTIST與Base-Prompt+Tools對(duì)比)

    如上圖所示,ARTIST 在所有數(shù)學(xué)數(shù)據(jù)集上的平均獎(jiǎng)勵(lì)分?jǐn)?shù)、工具調(diào)用次數(shù)和響應(yīng)長(zhǎng)度指標(biāo)表現(xiàn),與基線模型 Base-Prompt+Tools 相比,ARTIST 在獎(jiǎng)勵(lì)分?jǐn)?shù)和工具調(diào)用次數(shù)上顯著優(yōu)于基線模型,同時(shí)在響應(yīng)長(zhǎng)度上也表現(xiàn)出更深入的推理過(guò)程。

    多輪函數(shù)調(diào)用

    在多輪函數(shù)調(diào)用領(lǐng)域,ARTIST 的表現(xiàn)同樣優(yōu)秀。在 BFCL v3 的 Long Context 子任務(wù)中,Qwen2.5-7B-ARTIST 的準(zhǔn)確率達(dá)到了 0.13,相較于基線模型的 0.04 提升了 9.0%。這一顯著的提升充分展示了 ARTIST 在處理長(zhǎng)對(duì)話和復(fù)雜場(chǎng)景時(shí)的卓越能力。例如,在一個(gè)長(zhǎng)對(duì)話的車輛控制場(chǎng)景中,模型需要根據(jù)用戶的多輪指令,調(diào)用車輛控制 API,實(shí)現(xiàn)車輛的啟動(dòng)、加速、剎車等操作。在這個(gè)過(guò)程中,模型需要精準(zhǔn)地維護(hù)對(duì)話狀態(tài),理解用戶的意圖,并根據(jù)實(shí)時(shí)反饋調(diào)整操作策略。ARTIST 通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,學(xué)會(huì)了在多輪交互中靈活調(diào)用工具,高效地完成任務(wù)。

    在 τ-bench 的 Airline 和 Retail 子任務(wù)中,ARTIST 的準(zhǔn)確率分別達(dá)到了 0.26 和 0.24,相較于基線模型的 0.12 和 0.18,分別提升了 140% 和 33.3%。這表明,ARTIST 能夠在多輪交互中精準(zhǔn)地維護(hù)狀態(tài),靈活地調(diào)用工具,并有效地恢復(fù)錯(cuò)誤,從而實(shí)現(xiàn)高效的對(duì)話管理和任務(wù)完成。例如,在航空領(lǐng)域的對(duì)話中,模型需要根據(jù)用戶的行程信息,查詢航班狀態(tài)、辦理登機(jī)手續(xù)、查詢行李托運(yùn)信息等。在這個(gè)過(guò)程中,模型可能會(huì)遇到各種意外情況,如航班延誤、行李超重等。ARTIST 能夠根據(jù)實(shí)時(shí)反饋,靈活調(diào)整策略,調(diào)用相應(yīng)的函數(shù),解決這些問(wèn)題,確保任務(wù)的順利完成。

    與 Meta-Llama-3-70B 等前沿模型相比,ARTIST 在 BFCL v3 的 Long Context 子任務(wù)上也展現(xiàn)出了強(qiáng)大的競(jìng)爭(zhēng)力,準(zhǔn)確率超過(guò)了 Meta-Llama-3-70B 的 0.095。在 τ-bench 的 Airline 子任務(wù)上,ARTIST 的準(zhǔn)確率更是達(dá)到了 0.26,是 Meta-Llama-3-70B 的兩倍。這充分證明了 ARTIST 在多輪函數(shù)調(diào)用任務(wù)中的高效性和準(zhǔn)確性。例如,在一個(gè)復(fù)雜的旅行預(yù)訂場(chǎng)景中,模型需要根據(jù)用戶的需求,調(diào)用多個(gè)旅行預(yù)訂 API,查詢航班信息、預(yù)訂酒店和租車服務(wù),并根據(jù)用戶的反饋進(jìn)行調(diào)整。在這個(gè)過(guò)程中,模型需要精準(zhǔn)地維護(hù)對(duì)話狀態(tài),靈活地調(diào)用工具,并有效地恢復(fù)錯(cuò)誤。ARTIST 通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,學(xué)會(huì)了在多輪交互中靈活調(diào)用工具,高效地完成任務(wù),展現(xiàn)了強(qiáng)大的競(jìng)爭(zhēng)力。

    圖片

    在五個(gè)多輪多步函數(shù)調(diào)用基準(zhǔn)測(cè)試中,Pass@1 準(zhǔn)確率的表現(xiàn)情況。ARTIST 一致優(yōu)于基線模型,尤其是在復(fù)雜任務(wù)上

    如上表所示,ARTIST 在五個(gè)多輪多步函數(shù)調(diào)用基準(zhǔn)測(cè)試中的 Pass@1 準(zhǔn)確率表現(xiàn)優(yōu)異,尤其是在復(fù)雜的 Long Context、Airline 和 Retail 數(shù)據(jù)集上,顯著優(yōu)于所有基線模型。

    圖片

    Qwen2.5-7B-Instruct:在τ-bench和BFCL v3數(shù)據(jù)集上的多輪函數(shù)調(diào)用性能

    如上圖所示,Qwen2.5-7B-Instruct 模型在 τ-bench 和 BFCL v3 數(shù)據(jù)集上的性能表現(xiàn),清晰地展示了 ARTIST 在多輪函數(shù)調(diào)用任務(wù)中的優(yōu)勢(shì)。

    圖片

    不同訓(xùn)練階段BFCL v3的平均獎(jiǎng)勵(lì)得分

    如上圖所示,ARTIST 在 BFCL v3 數(shù)據(jù)集上不同訓(xùn)練步驟的平均獎(jiǎng)勵(lì)分?jǐn)?shù)表現(xiàn),展示了模型在訓(xùn)練過(guò)程中的學(xué)習(xí)曲線和性能提升。

    圖片

    在τ -bench上對(duì)多輪函數(shù)調(diào)用的指標(biāo)分析

    如上圖所示,ARTIST 在 τ-bench 數(shù)據(jù)集上的多輪函數(shù)調(diào)用指標(biāo)分析,包括推理長(zhǎng)度、工具調(diào)用次數(shù)和任務(wù)完成步數(shù)等,進(jìn)一步證明了 ARTIST 在多輪交互任務(wù)中的高效性和準(zhǔn)確性。

    案例研究

    復(fù)雜數(shù)學(xué)推理案例

    下面通過(guò)一個(gè)具體的復(fù)雜數(shù)學(xué)推理案例來(lái)深入剖析 ARTIST 的推理過(guò)程。假設(shè)任務(wù)是求解一個(gè)復(fù)雜的積分問(wèn)題,模型首先通過(guò)文本推理,將問(wèn)題分解為幾個(gè)關(guān)鍵步驟。例如,問(wèn)題是一個(gè)定積分的計(jì)算,模型通過(guò)文本推理,確定需要計(jì)算積分的上下限和被積函數(shù)。接著,它調(diào)用 Python 解釋器,利用 SymPy 庫(kù)執(zhí)行符號(hào)計(jì)算。在調(diào)用工具時(shí),模型生成如下工具調(diào)用指令:

    from sympy import symbols, integrate
    
    x = symbols('x')
    result = integrate(x**2 + 1, (x, 0, 1))
    print(result)

    工具執(zhí)行后返回結(jié)果 ,模型將這個(gè)結(jié)果整合到推理文本中,繼續(xù)進(jìn)行后續(xù)的推理。如果發(fā)現(xiàn)結(jié)果與預(yù)期不符,模型會(huì)自我修正,重新調(diào)用工具,調(diào)整計(jì)算參數(shù)。例如,如果模型發(fā)現(xiàn)被積函數(shù)可能有誤,它會(huì)重新生成工具調(diào)用指令,修正被積函數(shù),再次調(diào)用工具。這種自我修正能力使得模型在面對(duì)復(fù)雜問(wèn)題時(shí)能夠不斷優(yōu)化自己的推理策略,最終找到正確的解決方案。 

    在這個(gè)過(guò)程中,ARTIST 展現(xiàn)出了自我精煉、自我修正和自我反思的智能體行為。例如,當(dāng)模型發(fā)現(xiàn)初始調(diào)用工具得到的結(jié)果與預(yù)期不符時(shí),它會(huì)仔細(xì)檢查推理過(guò)程,找出問(wèn)題所在,然后調(diào)整策略,重新調(diào)用工具。這種自我修正能力使得模型在面對(duì)復(fù)雜問(wèn)題時(shí)能夠不斷優(yōu)化自己的推理策略,最終找到正確的解決方案。

    多輪函數(shù)調(diào)用案例

    在多輪函數(shù)調(diào)用案例中,假設(shè)任務(wù)是為用戶規(guī)劃一次旅行,包括預(yù)訂機(jī)票、酒店和租車服務(wù)。ARTIST 首先通過(guò)文本推理,理解用戶的需求和偏好。例如,用戶希望從北京出發(fā),前往上海,行程為 3 天,預(yù)算為 5000 元。模型根據(jù)這些信息,調(diào)用航班查詢工具,獲取符合用戶要求的航班信息。工具調(diào)用指令如下:

    {
      "function":"search_flights",
    "args":{
        "departure":"北京",
        "destination":"上海",
        "departure_date":"2024-06-01",
        "return_date":"2024-06-03",
        "budget":5000
    }
    }

    工具返回多個(gè)航班選項(xiàng),模型根據(jù)用戶的偏好,選擇一個(gè)合適的航班,并繼續(xù)推理。接著,模型調(diào)用酒店預(yù)訂工具,根據(jù)用戶的預(yù)算和偏好,為用戶推薦合適的酒店。工具調(diào)用指令如下:

    {
      "function":"book_hotel",
    "args":{
        "city":"上海",
        "check_in_date":"2024-06-01",
        "check_out_date":"2024-06-03",
        "budget":3000,
        "preferences":["靠近市中心","有免費(fèi)早餐"]
    }
    }

    工具返回酒店預(yù)訂成功的信息后,模型調(diào)用租車服務(wù)工具,為用戶安排租車事宜。工具調(diào)用指令如下:

    {
      "function":"rent_car",
    "args":{
        "city":"上海",
        "pick_up_date":"2024-06-01",
        "return_date":"2024-06-03",
        "budget":1000
    }
    }

    在整個(gè)過(guò)程中,模型不斷地與用戶進(jìn)行交互,根據(jù)用戶的反饋調(diào)整計(jì)劃。如果在某個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題,例如航班信息不準(zhǔn)確或酒店預(yù)訂失敗,模型能夠迅速恢復(fù)錯(cuò)誤,重新調(diào)用工具,尋找替代方案。通過(guò)強(qiáng)化學(xué)習(xí),ARTIST 學(xué)會(huì)了在多輪交互中靈活調(diào)用工具,高效地完成復(fù)雜任務(wù)。

    總結(jié)

    ARTIST 框架通過(guò)將智能體式推理、強(qiáng)化學(xué)習(xí)和工具集成緊密結(jié)合,成功地解決了 LLM 在處理現(xiàn)實(shí)問(wèn)題時(shí)的局限性。ARTIST 不僅提出了一個(gè)統(tǒng)一的智能體式 RL 框架,還實(shí)現(xiàn)了通用的工具使用和環(huán)境交互,并在多個(gè)領(lǐng)域和任務(wù)中進(jìn)行了有效的評(píng)估。這一創(chuàng)新思路為 LLM 其能夠更好地適應(yīng)復(fù)雜多變的現(xiàn)實(shí)世界需求。

    在實(shí)驗(yàn)中,ARTIST 在復(fù)雜數(shù)學(xué)問(wèn)題求解和多輪函數(shù)調(diào)用任務(wù)中均展現(xiàn)出了卓越的性能。在數(shù)學(xué)推理方面,它能夠精準(zhǔn)地調(diào)用外部工具,進(jìn)行高精度計(jì)算,從而在高難度任務(wù)中取得顯著優(yōu)勢(shì)。例如,在 Olympiad Bench 數(shù)據(jù)集上,Qwen2.5-14B-ARTIST 的準(zhǔn)確率達(dá)到了 0.42,大幅領(lǐng)先于基線模型和前沿模型 GPT-4o。在多輪函數(shù)調(diào)用任務(wù)中,ARTIST 憑借其強(qiáng)大的狀態(tài)維護(hù)和錯(cuò)誤恢復(fù)能力,高效地完成了復(fù)雜任務(wù)。例如,在 τ-bench 的 Airline 子任務(wù)中,ARTIST 的準(zhǔn)確率達(dá)到了 0.26,是 Meta-Llama-3-70B 的兩倍。這些實(shí)驗(yàn)結(jié)果充分證明了 ARTIST 在處理復(fù)雜任務(wù)時(shí)的高效性和準(zhǔn)確性,為實(shí)際應(yīng)用提供了有力的支持。

    盡管 ARTIST 取得了顯著的成果,但仍然存在一些局限性。例如,在某些復(fù)雜場(chǎng)景下,模型的性能仍有提升空間。特別是在面對(duì)高度動(dòng)態(tài)和不確定性的任務(wù)時(shí),模型的決策過(guò)程可能會(huì)受到干擾,導(dǎo)致性能下降。還有,對(duì)特定工具的依賴可能導(dǎo)致兼容性問(wèn)題。如果外部工具的接口或功能發(fā)生變化,模型可能需要重新調(diào)整和優(yōu)化。將來(lái)可以優(yōu)化算法,提高模型的泛化能力,拓展工具集成的范圍和靈活性,從而進(jìn)一步提升 ARTIST 的性能。例如,可以通過(guò)引入更多的訓(xùn)練數(shù)據(jù)和更復(fù)雜的任務(wù)場(chǎng)景,增強(qiáng)模型的適應(yīng)能力;同時(shí),開(kāi)發(fā)更加通用的工具接口,減少對(duì)特定工具的依賴,提高模型的魯棒性。

    現(xiàn)在我們構(gòu)想一下現(xiàn)實(shí)中可能的應(yīng)用場(chǎng)景。我們可以將它擴(kuò)展到醫(yī)療、金融等更多樣化的領(lǐng)域,整合更豐富的反饋形式,如人類偏好,以提升模型的決策質(zhì)量。例如,在醫(yī)療領(lǐng)域,模型可以通過(guò)調(diào)用醫(yī)學(xué)知識(shí)庫(kù)和診斷工具,為患者提供個(gè)性化的治療方案;在金融領(lǐng)域,模型可以通過(guò)調(diào)用金融數(shù)據(jù)分析工具,為投資者提供精準(zhǔn)的投資建議。同時(shí),解決開(kāi)放環(huán)境中所面臨的安全性和可靠性問(wèn)題也是未來(lái)工作的重點(diǎn)。ARTIST 框架不僅為大型語(yǔ)言模型的發(fā)展提供了新的思路和方法,還可以通過(guò)智能體式推理與工具集成,模型能夠更加靈活地應(yīng)對(duì)各種挑戰(zhàn)。嗯,最后我還想說(shuō),一路從 2023 年走過(guò)來(lái)的 AIer,尤其是玩開(kāi)源模型的各位同學(xué),看過(guò)這篇文章會(huì)不會(huì)回憶起那時(shí)候 finetune 方式的 Agent 模型?此刻,我回憶起那時(shí)候的訓(xùn)練過(guò)程時(shí),讓我感受到,現(xiàn)在這篇論文的做法其實(shí)是一個(gè)進(jìn)化版,區(qū)別在于,過(guò)去的方法主要是 finetune,而現(xiàn)在是 RL。

    責(zé)任編輯:龐桂玉 來(lái)源: 覺(jué)察流
    相關(guān)推薦

    2025-05-26 17:16:51

    2025-03-21 13:00:54

    2023-07-20 15:18:42

    2023-11-07 07:13:31

    推薦系統(tǒng)多任務(wù)學(xué)習(xí)

    2023-12-03 22:08:41

    深度學(xué)習(xí)人工智能

    2025-07-10 10:25:23

    2022-12-01 08:00:00

    2023-08-28 06:52:29

    2024-04-03 07:56:50

    推薦系統(tǒng)多任務(wù)推薦

    2025-06-03 06:12:03

    2017-02-20 16:35:10

    人工智能算法強(qiáng)化學(xué)習(xí)

    2022-12-21 17:27:30

    強(qiáng)化學(xué)習(xí)AI

    2025-10-11 04:00:00

    2025-10-10 09:02:16

    2016-05-31 10:11:51

    2020-04-15 16:44:38

    谷歌強(qiáng)化學(xué)習(xí)算法

    2025-07-25 09:03:24

    2017-07-14 16:24:48

    TensorFlow框架開(kāi)發(fā)

    2023-03-09 08:00:00

    強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

    2020-08-10 06:36:21

    強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)
    點(diǎn)贊
    收藏

    51CTO技術(shù)棧公眾號(hào)