偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

從思考到行動(dòng)：大模型自主工具調(diào)用能力的深度實(shí)現(xiàn)

作者：機(jī)器之心 2025-04-17 09:12:00

人工智能新聞

GPT - 4o、Deepseek - R1 等高級(jí)模型已展現(xiàn)出令人驚嘆的「深度思考」能力：理解上下文關(guān)聯(lián)、拆解多步驟問題、甚至通過思維鏈（Chain - of - Thought）進(jìn)行自我驗(yàn)證、自我反思等推理過程。

本項(xiàng)目由復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室肖仰華教授、梁家卿青年副研究員領(lǐng)導(dǎo)，博士生韓槿一，碩士生李廷云、熊程元、姜子上、王昕奕等同學(xué)共同參與完成。

GPT - 4o、Deepseek - R1 等高級(jí)模型已展現(xiàn)出令人驚嘆的「深度思考」能力：理解上下文關(guān)聯(lián)、拆解多步驟問題、甚至通過思維鏈（Chain - of - Thought）進(jìn)行自我驗(yàn)證、自我反思等推理過程。

但是，多數(shù)主流模型仍在基礎(chǔ)問題上犯錯(cuò)，復(fù)雜四則運(yùn)算計(jì)算失誤，簡(jiǎn)單「兩個(gè)小數(shù)比大小」出錯(cuò)、甚至連數(shù)清楚 strawberry 里有幾個(gè)「r」都能翻車……即使提示像 R1 這樣具備深度思考能力的大模型也要消耗大量的 token 才能勉強(qiáng)答對(duì)。

合適的工具調(diào)用能夠拓展大模型的能力邊界，但現(xiàn)有工具調(diào)用方式將大模型限制在預(yù)設(shè)的工具使用框架內(nèi)，更像是一個(gè)被動(dòng)的「提線木偶」，而非真正具備主動(dòng)性的智能體。主要體現(xiàn)在以下幾個(gè)方面：

淺層模仿而非深度理解：SFT 只是學(xué)會(huì)了特定場(chǎng)景下工具調(diào)用的表面模式，而非真正理解工具的功能邊界、適用場(chǎng)景和內(nèi)部工作機(jī)制
上下文依賴性強(qiáng)：基于 Prompt 的工具調(diào)用方法高度依賴于提示的精確性和完整性。一旦用戶描述模糊或提示設(shè)計(jì)不當(dāng)，模型就無法正確選擇和使用工具
工具組合能力受限：當(dāng)需要多個(gè)工具協(xié)同解決復(fù)雜問題時(shí)，現(xiàn)有方法難以支持模型進(jìn)行靈活的工具組合

復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室團(tuán)隊(duì)在開源項(xiàng)目 SimpleGRPO 中開源實(shí)現(xiàn)了大模型自主工具調(diào)用機(jī)制，通過引入大模型的深度思考能力，從根本上重構(gòu)了大模型工具調(diào)用的范式。該技術(shù)使大模型實(shí)現(xiàn)了從被動(dòng)執(zhí)行的「提線木偶」到具備自主決策能力的智能體的根本躍遷。

項(xiàng)目開源地址為：https://github.com/lsdefine/simple_GRPO/tree/main/Auto_Program

為什么大模型需要自主調(diào)用工具的能力？

深度整合：大模型不僅是工具的「操控者」，而是能在推理過程中深度理解工具的功能，知道什么時(shí)候、如何使用工具才能更高效地解決問題。
動(dòng)態(tài)調(diào)整：每次調(diào)用工具后，模型會(huì)根據(jù)新獲得的信息自動(dòng)調(diào)整思路，不斷改進(jìn)解決方案，讓每一次思考都更精確。
連續(xù)性與靈活性：不同于傳統(tǒng)的單次工具調(diào)用，自主工具調(diào)用能力可以使得模型能夠在復(fù)雜任務(wù)中多次調(diào)用工具，通過連續(xù)的交互獲取最佳答案。
創(chuàng)新組合：當(dāng)一個(gè)工具無法完成任務(wù)時(shí)，模型能創(chuàng)新性地將多個(gè)工具結(jié)合起來，解決更為復(fù)雜的挑戰(zhàn)。

表. 一般模型和融入思考進(jìn)行自主工具調(diào)用的模型在工具調(diào)用上的能力表現(xiàn)的差異

如何實(shí)現(xiàn)大模型的工具自主調(diào)用？

我們使用強(qiáng)化學(xué)習(xí)算法給 LLM 裝上「決策中樞」，實(shí)現(xiàn)兩種神仙模式：

方案 1【邊想邊干】：LLM 思考到一半突然寫代碼輔助解決 → 編譯器運(yùn)行 → 繼續(xù)思考完成后續(xù)的推理

當(dāng)大模型在生成推理或解決問題的過程中，意識(shí)到某些步驟需要借助編程工具（如 Python）來完成時(shí)，它會(huì)直接生成相應(yīng)的代碼片段，并通過編譯器執(zhí)行這些代碼，執(zhí)行結(jié)果會(huì)被捕獲并作為輸入重新融入到大模型的推理過程中。

這種即時(shí)反饋機(jī)制使得模型能夠動(dòng)態(tài)調(diào)整后續(xù)的生成內(nèi)容。這種方式類似于人類在解決問題時(shí)，發(fā)現(xiàn)某個(gè)計(jì)算或分析任務(wù)復(fù)雜到需要用程序來輔助，便動(dòng)手編寫代碼并運(yùn)行結(jié)果。

方案 2【專業(yè)分工】：LLM 負(fù)責(zé)提需求，直接說「我需要計(jì)算 38 和 16 的最小公倍數(shù)」，專屬代碼小弟秒速響應(yīng)！強(qiáng)強(qiáng)聯(lián)手更精準(zhǔn)！

生成模型在推理過程中，當(dāng)遇到需要編程工具協(xié)助的任務(wù)時(shí)，會(huì)明確描述出需求。例如，「我需要計(jì)算一組數(shù)據(jù)的標(biāo)準(zhǔn)差」或「請(qǐng)幫我實(shí)現(xiàn)一個(gè)排序算法」。這種需求描述通常以自然語言的形式表達(dá)，清晰且易于理解。接收到需求后，專門的代碼生成模型會(huì)根據(jù)描述生成對(duì)應(yīng)的 Python 代碼。

該模型經(jīng)過大量代碼訓(xùn)練，擅長(zhǎng)將自然語言需求轉(zhuǎn)化為準(zhǔn)確的代碼實(shí)現(xiàn)。生成的代碼通過編譯器執(zhí)行，執(zhí)行結(jié)果被返回給生成模型。生成模型根據(jù)結(jié)果調(diào)整后續(xù)推理路徑，確保整個(gè)過程連貫一致。

大模型邊思考邊行動(dòng)

大模型自主調(diào)用 Python 命令行

我們首先在簡(jiǎn)單數(shù)學(xué)題上驗(yàn)證模型能否通過強(qiáng)化學(xué)習(xí)學(xué)會(huì)調(diào)用工具計(jì)算器來輔助解決問題，并觀察其泛化性。我們?cè)O(shè)定模型可在回答中通過「>>>」調(diào)用 Python 命令行，檢測(cè)到需要調(diào)用 python 程序時(shí)，編譯執(zhí)行并將代碼運(yùn)行結(jié)果插入到先前的生成過程中。以 Qwen2.5 - 7B 為基礎(chǔ)模型，在 GSM8K 上訓(xùn)練。

模型執(zhí)行復(fù)雜運(yùn)算時(shí)會(huì)自主調(diào)用命令行來計(jì)算

模型在訓(xùn)練時(shí)只接觸數(shù)學(xué)題，但推理時(shí)能自主泛化到其他問題上
3.11 和 3.9 誰大？

以前：瞎蒙（甚至理直氣壯答錯(cuò)）

現(xiàn)在：秒寫代碼 print(3.11 > 3.9)，輸出 False，鐵證如山！

strawberry 有幾個(gè)「r」？

以前：靠概率硬猜（結(jié)果常漏數(shù)）

現(xiàn)在：直接上代碼 "strawberry".count('r')，精準(zhǔn)輸出 3！

模型調(diào)用 Python 程序

面對(duì)更難的問題時(shí)，我們發(fā)現(xiàn)命令行難以發(fā)揮作用。例如，模型使用 Python 來解方程時(shí)，需要導(dǎo)入相應(yīng)的包，如果使用互相獨(dú)立的命令行難以完成，將多個(gè)命令行一起執(zhí)行則模型容易在格式和代碼編寫上出錯(cuò)。因此，我們嘗試讓模型自己寫整段的 python 程序。

基礎(chǔ)模型：Qwen2.5 - Math - 7B - Base
算法：Reinforce++ ? 數(shù)據(jù)集：MATH level3 - 5 上進(jìn)行訓(xùn)練
訓(xùn)練重要參數(shù)設(shè)置：temperature：0；學(xué)習(xí)率：4e - 7；batch_size: 32；
獎(jiǎng)勵(lì)設(shè)置：回答中包含 \boxed{} 且其中答案正確，則獎(jiǎng)勵(lì)為 1，否則獎(jiǎng)勵(lì)為 0

訓(xùn)練結(jié)果如下：

復(fù)雜一元三次方程求解借助編程解決

模型內(nèi)心 OS：「這題手算會(huì)崩，看我召喚 Python！」

大模型主動(dòng)提出調(diào)用工具需求

實(shí)驗(yàn)細(xì)節(jié)

1、訓(xùn)練數(shù)據(jù)集構(gòu)建：

從 MATH、Numina、OpenThoughts 中篩選訓(xùn)練問題時(shí)按照以下原則：

使用 Qwen2.5 - 7B - Base 對(duì)問題生成多個(gè)答案，過濾掉對(duì)模型而言較為簡(jiǎn)單的題（正確率為 100%）
過濾掉選擇題、概念題等沒有標(biāo)準(zhǔn)答案的問題

2、測(cè)試數(shù)據(jù)集：以 GSM8K 題目為原型，將其中的數(shù)值替換成超大（9～11 位）或者更加復(fù)雜（小數(shù)）的數(shù)值。

數(shù)據(jù)集開源地址：https://huggingface.co/datasets/JinyiHan/big-value-gsm

3、算法：GRPO

4、訓(xùn)練技巧：

獎(jiǎng)勵(lì)設(shè)置：我們注重對(duì)格式的獎(jiǎng)懲，這樣可以保證在模型訓(xùn)練前期能快速學(xué)習(xí)到格式，格式準(zhǔn)確率能夠逐漸達(dá)到 95% 以上；從而在后期訓(xùn)練階段模型能夠?qū)Ｗ⒂谔嵘卮鸬臏?zhǔn)確率。

課程學(xué)習(xí)：按照模型正確回答的概率從大到小進(jìn)行排列
避免 GRPO 同組得分同質(zhì)化：在訓(xùn)練過程中，得分完全相同的樣本直接過濾掉

5、模型選擇：

生成模型：Qwen2.5 - 7B - Instruct

代碼模型：Qwen2.5 - 7B - Instruct

實(shí)驗(yàn)結(jié)果

模型反復(fù)多次提需求調(diào)用工具

以前：硬著頭皮硬算，強(qiáng)行編答案

現(xiàn)在：思考后主動(dòng)使用工具輔助解決

其他有意思的觀察：

模型能夠根據(jù)代碼編譯結(jié)果能進(jìn)一步反思

當(dāng)模型編寫的 python 代碼出現(xiàn)編譯報(bào)錯(cuò)、沒有輸出或運(yùn)行超時(shí)：

以前：出現(xiàn)錯(cuò)誤后，后續(xù)生成的內(nèi)容全部出錯(cuò)

現(xiàn)在：模型會(huì)根據(jù)報(bào)錯(cuò)信息繼續(xù)調(diào)整策略

自主調(diào)用工具的能力能在未見的任務(wù)上進(jìn)行泛化

以前：特定領(lǐng)域微調(diào)后并不會(huì)遷移到未見任務(wù)上

現(xiàn)在：掌握工具后可以在其他領(lǐng)域靈活使用

case1: Knight & Knave (Logic - RL)

case2: CountDown

解鎖新能力，使用 python 來驗(yàn)證生成答案的正確性

總結(jié)

我們探索了結(jié)合大模型的深度思考能力提升大模型自主工具調(diào)用的能力的兩種方式，包括讓大模型邊思考邊行動(dòng)、以及讓大模型提出調(diào)用工具的需求。

我們發(fā)現(xiàn)，通過強(qiáng)化學(xué)習(xí)的訓(xùn)練方式，邊想邊干和專業(yè)分工兩種方式都能夠使大模型靈活、自主地調(diào)用工具，并在生成過程中多次調(diào)用工具，將工具調(diào)用的結(jié)果無縫融入后續(xù)的推理與決策流程中。

更重要的是，這種自主工具調(diào)用能力展現(xiàn)出強(qiáng)大的泛化性，能夠成功應(yīng)用于完全未見過的任務(wù)場(chǎng)景，表現(xiàn)出令人驚嘆的潛力。

這一研究成果為未來大模型深度思考能力的實(shí)際應(yīng)用提供了重要的參考價(jià)值和技術(shù)基礎(chǔ)。我們計(jì)劃在不久后發(fā)布相關(guān)技術(shù)報(bào)告或論文，對(duì)這些方法進(jìn)行更詳細(xì)的闡述和討論，敬請(qǐng)期待。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型 AI 智能體

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)