偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ReSum:讓AI智能體學(xué)會(huì)“記筆記”,突破長(zhǎng)程推理瓶頸

人工智能
上下文窗口限制了AI的思考深度?ReSum通過周期性總結(jié)與重啟機(jī)制,首次實(shí)現(xiàn)LLM智能體的無(wú)限探索能力,為長(zhǎng)程推理打開新可能。

大家好,我是肆〇柒。本文分享的這篇工作來(lái)自通義實(shí)驗(yàn)室(Tongyi Lab, Alibaba Group)的最新研究成果——ReSum。他們提出了一種全新的推理范式,讓大模型智能體在面對(duì)復(fù)雜問題時(shí),能夠像人類一樣“停下來(lái)復(fù)盤、做筆記”,從而突破傳統(tǒng)上下文長(zhǎng)度限制,實(shí)現(xiàn)真正意義上的長(zhǎng)程探索。這項(xiàng)工作不僅刷新了多個(gè)基準(zhǔn)性能,更揭示了通往更高級(jí)智能體的關(guān)鍵路徑。本篇是通義 Deepresearch 發(fā)布的系列研究之一。

當(dāng)Web智能體能夠主動(dòng)搜索、瀏覽、提取并綜合開放網(wǎng)絡(luò)信息時(shí),復(fù)雜知識(shí)密集型任務(wù)的解決似乎觸手可及。然而,一個(gè)看似簡(jiǎn)單卻影響深遠(yuǎn)的限制——上下文窗口——正阻礙著智能體向更復(fù)雜問題發(fā)起挑戰(zhàn)。下面,我們就一起探索這項(xiàng)創(chuàng)新性的工作:ReSum,看看它如何通過精巧的"上下文總結(jié)"機(jī)制,為智能體解鎖長(zhǎng)程搜索智能的新境界。

ReAct —— 一個(gè)經(jīng)典范式

ReAct(Reasoning and Acting)范式自2023年提出以來(lái),已成為當(dāng)前最主流的Agentic Workflow。它定義了簡(jiǎn)潔而強(qiáng)大的Thought-Action-Observation交互循環(huán):LLM基于現(xiàn)有上下文生成推理步驟(Thought),執(zhí)行可解析的工具調(diào)用(Action),并接收環(huán)境反饋(Observation)。這種范式使LLM能夠有效調(diào)用搜索、瀏覽等工具解決復(fù)雜問題,奠定了現(xiàn)代Web智能體的基礎(chǔ)。

在形式化定義中,一個(gè)包含T次迭代的完整軌跡可表示為:

然而,ReAct的簡(jiǎn)潔背后隱藏著一個(gè)矛盾:其"線性增長(zhǎng)"的上下文管理策略與"指數(shù)復(fù)雜"的現(xiàn)實(shí)問題之間的不匹配。在ReAct中,每個(gè)交互步驟(Thought、Action、Observation)都被附加到對(duì)話歷史中,隨著探索深入,上下文長(zhǎng)度線性增長(zhǎng)。當(dāng)面臨需要大量工具調(diào)用的復(fù)雜查詢時(shí)——例如"一位畫家,其父親死于心臟病,有一個(gè)姐姐和五個(gè)孩子,后來(lái)婚姻破裂又有三段關(guān)系,基于此人的文學(xué)作品叫什么?"這類涉及多實(shí)體、交織關(guān)系和高度不確定性的任務(wù)——智能體往往在找到答案前就耗盡了上下文預(yù)算。

ReAct與ReSum范式對(duì)比

如上圖所示,ReAct范式在多輪探索完成前就耗盡了上下文預(yù)算,而ReSum通過周期性調(diào)用總結(jié)工具壓縮歷史并從壓縮摘要中恢復(fù)推理,實(shí)現(xiàn)了無(wú)限探索。對(duì)WebSailor-7B在BrowseComp-en基準(zhǔn)上的行為分析進(jìn)一步揭示了這一限制:

ReAct上下文限制對(duì)探索的約束

如上圖所示,WebSailor-7B在BrowseComp-en上的行為分析顯示,成功解決的案例通常在10次工具調(diào)用內(nèi)完成,token消耗相對(duì)較低;而失敗案例往往超過10次,甚至20次,導(dǎo)致token使用量急劇上升,超過32k限制。這一數(shù)據(jù)直觀揭示了ReAct范式在面對(duì)復(fù)雜查詢時(shí)的"硬性天花板"——當(dāng)智能體需要超過32k token的上下文時(shí),被迫提前終止,導(dǎo)致復(fù)雜問題無(wú)法解決。

現(xiàn)有解決方案如A-Mem和MemOS等外部記憶模塊雖能結(jié)構(gòu)化管理上下文,但增加了系統(tǒng)復(fù)雜度和計(jì)算開銷,且與策略模型的集成不夠緊密。相比之下,ReSum探索了一條更輕量、內(nèi)聚的路徑——將記憶管理內(nèi)化為推理流程本身,無(wú)需額外組件即可實(shí)現(xiàn)上下文約束的突破。

ReSum的誕生——一種"內(nèi)生壓縮"的新范式

ReSum的核心哲學(xué)不是增加外部組件,而是優(yōu)化內(nèi)部工作流,將"記憶管理"作為推理過程的自然延伸。這一設(shè)計(jì)靈感源于人類認(rèn)知:當(dāng)解決復(fù)雜問題時(shí),我們會(huì)不斷"復(fù)盤"和"記筆記",提煉關(guān)鍵信息并重新組織思路。ReSum正是模擬了這一高級(jí)認(rèn)知行為,使智能體具備"自我反思"能力。

ReSum  結(jié)合周期性上下文摘要的 Rollout 算法偽代碼

ReSum的工作流程嚴(yán)格遵循上圖算法,其核心在于"觸發(fā)-總結(jié)-重置"的閉環(huán):

軌跡初始化:軌跡始于用戶查詢q,初始化H?=(q)。遵循ReAct范式,智能體交替進(jìn)行內(nèi)部推理和工具使用:(τ?, a?)~πθ(·|H???)。

上下文總結(jié):當(dāng)觸發(fā)條件滿足(如達(dá)到token預(yù)算),調(diào)用總結(jié)工具π???將歷史壓縮為結(jié)構(gòu)化摘要s~π???(·|H?),形成壓縮狀態(tài)q'=(q, s)并重置工作歷史。

軌跡終止:通過周期性總結(jié),ReSum動(dòng)態(tài)維持上下文在模型窗口內(nèi),同時(shí)保留關(guān)鍵證據(jù)。雖然理論上允許無(wú)限探索,但實(shí)際部署中會(huì)設(shè)置資源預(yù)算(如工具調(diào)用次數(shù)限制)。

這種設(shè)計(jì)既保留了ReAct的簡(jiǎn)潔高效,又規(guī)避了其上下文限制,為長(zhǎng)程探索開辟了新可能。正如論文所述:"ReSum實(shí)現(xiàn)了長(zhǎng)程推理,同時(shí)最小化對(duì)ReAct的修改,避免了架構(gòu)復(fù)雜性,確保了即插即用的兼容性。"這種設(shè)計(jì)不僅保留了ReAct的簡(jiǎn)潔高效,還使其能夠無(wú)縫集成到現(xiàn)有agent生態(tài)系統(tǒng)中,無(wú)需重構(gòu)整個(gè)系統(tǒng)即可獲得長(zhǎng)程推理能力。

ReSum的三大創(chuàng)新點(diǎn)彰顯其范式價(jià)值:

  • 狀態(tài)壓縮(State Compression):將歷史對(duì)話轉(zhuǎn)化為緊湊的推理狀態(tài),其中是結(jié)構(gòu)化摘要,包含驗(yàn)證證據(jù)和信息缺口
  • 重啟能力(Restartability):從壓縮狀態(tài)繼續(xù)推理,打破了上下文長(zhǎng)度的硬性限制,理論上允許無(wú)限探索
  • 最小侵入性(Minimal Intrusion):僅需在標(biāo)準(zhǔn)ReAct流程中插入可選的"總結(jié)-重置"環(huán)節(jié),其余交互協(xié)議完全不變,使其能夠"即插即用"地適配現(xiàn)有WebSailor、WebExplorer等主流Agent架構(gòu)

假想一位偵探調(diào)查復(fù)雜案件:隨著線索增多,他的筆記本逐漸寫滿。與其繼續(xù)添加新頁(yè)導(dǎo)致混亂,聰明的偵探會(huì)定期將關(guān)鍵線索整理到一張新紙上,丟棄冗余信息,然后基于這張"線索摘要"繼續(xù)調(diào)查。ReSum正是模擬了這種高級(jí)認(rèn)知行為——當(dāng)思維過于龐雜時(shí),提煉關(guān)鍵信息并重新組織思路,從而突破記憶限制。

這種"內(nèi)生壓縮"機(jī)制雖然優(yōu)雅,但對(duì)總結(jié)工具提出了更高要求——它必須能夠從嘈雜的交互歷史中提取關(guān)鍵證據(jù),而非簡(jiǎn)單壓縮文本。這引出了ReSumTool的設(shè)計(jì)挑戰(zhàn),也是ReSum范式成功的關(guān)鍵所在。

專業(yè)化分工——ReSumTool作為"認(rèn)知壓縮器"

在ReSum范式中,總結(jié)工具的角色遠(yuǎn)非簡(jiǎn)單的摘要器,而是智能體的"認(rèn)知伙伴",負(fù)責(zé)將原始感知升華為結(jié)構(gòu)化知識(shí)。它必須執(zhí)行邏輯推理、從嘈雜交互歷史中提取可驗(yàn)證證據(jù)、識(shí)別信息缺口并提出下一步行動(dòng)建議。通用摘要模型往往難以勝任這一任務(wù)——實(shí)驗(yàn)表明,小型模型在長(zhǎng)對(duì)話中難以有效提取關(guān)鍵證據(jù),而大型模型雖有優(yōu)勢(shì)但API成本和部署開銷過高。

ReSumTool的提示工程經(jīng)過精心設(shè)計(jì),包含嚴(yán)格的信息處理規(guī)則:

  • 僅提取對(duì)話中明確存在的相關(guān)信息
  • 不做假設(shè)、猜測(cè)或超出明確陳述的推斷
  • 僅包含確定且明確的信息
  • 以特定格式輸出關(guān)鍵信息:<summary>? Essential Information:[組織相關(guān)信息]</summary>
  • 明確要求"Strictly avoid fabricating, inferring, or exaggerating any information"

這種嚴(yán)格約束確保了摘要的忠實(shí)度和無(wú)幻覺,為后續(xù)推理提供了可靠基礎(chǔ)。論文特別指出,研究團(tuán)隊(duì)"不明確要求摘要工具列出當(dāng)前信息缺口并提供清晰的行動(dòng)計(jì)劃",以避免兩種潛在問題:(1)摘要工具可能偏離其主要任務(wù),過度關(guān)注信息缺口;(2)強(qiáng)制指定信息缺口可能導(dǎo)致智能體陷入重復(fù)自我驗(yàn)證的循環(huán)。

值得注意的是,這種設(shè)計(jì)避免了兩種潛在問題:(1)摘要工具可能偏離其主要任務(wù),過度關(guān)注信息缺口;(2)強(qiáng)制指定信息缺口可能導(dǎo)致智能體陷入重復(fù)自我驗(yàn)證的循環(huán)。實(shí)驗(yàn)證明,當(dāng)需要時(shí),摘要工具能夠直觀且智能地識(shí)別信息缺口并提出下一步計(jì)劃。

為解決這一挑戰(zhàn),研究團(tuán)隊(duì)開發(fā)了ReSumTool-30B,通過目標(biāo)導(dǎo)向的專門訓(xùn)練實(shí)現(xiàn)了"小模型辦大事"的工程智慧。其開發(fā)過程基于以下關(guān)鍵洞察:

1. 選擇Qwen3-30B-A3B-Thinking作為基礎(chǔ)模型,在性能與部署效率間取得平衡

2. 使用SailorFog-QA這一挑戰(zhàn)性基準(zhǔn)收集?對(duì)話, 摘要?配對(duì)數(shù)據(jù),確保數(shù)據(jù)質(zhì)量

3. 通過監(jiān)督微調(diào)將強(qiáng)大的總結(jié)能力蒸餾到較小模型中

不同范式下訓(xùn)練免費(fèi)設(shè)置的性能比較

如上表所示,ReSumTool-30B在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色。從上表可見,ReSumTool-30B在WebSailor-3B上作為總結(jié)工具時(shí),不僅在BrowseComp-zh上達(dá)到15.2% Pass@1,更在GAIA基準(zhǔn)上實(shí)現(xiàn)40.5% Pass@1,遠(yuǎn)超其基礎(chǔ)模型Qwen3-30B(27.5%)。這一差距凸顯了專業(yè)化訓(xùn)練的價(jià)值——通過在任務(wù)特定數(shù)據(jù)上的精細(xì)調(diào)優(yōu),30B規(guī)模模型能夠充分發(fā)揮其潛力,而不僅僅是依賴模型規(guī)模。

在BrowseComp-zh上,當(dāng)作為WebSailor-3B的總結(jié)工具時(shí),它實(shí)現(xiàn)了15.2%的Pass@1,顯著超過Qwen3-235B(11.1%)和DeepSeek-R1-671B(13.0%)。這一結(jié)果證明,針對(duì)特定任務(wù)精細(xì)調(diào)優(yōu)的30B規(guī)模模型,完全可以超越更大規(guī)模的通用模型。

協(xié)同進(jìn)化——ReSum-GRPO自適應(yīng)學(xué)習(xí)

ReSum范式創(chuàng)造了一種新型查詢q'=(q,s),將原始用戶查詢q與摘要s結(jié)合。這種模式對(duì)標(biāo)準(zhǔn)智能體而言是分布外(OOD)數(shù)據(jù),因?yàn)樗鼈冊(cè)谟?xùn)練中從未接觸過基于摘要的推理。為使智能體掌握這一新范式,研究團(tuán)隊(duì)提出了ReSum-GRPO算法,通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)范式適應(yīng)。

與監(jiān)督微調(diào)(SFT)相比,強(qiáng)化學(xué)習(xí)提供了更優(yōu)雅的解決方案:SFT需要昂貴的專家級(jí)ReSum軌跡數(shù)據(jù),且風(fēng)險(xiǎn)覆蓋智能體的現(xiàn)有技能;而強(qiáng)化學(xué)習(xí)允許智能體通過自我進(jìn)化適應(yīng)新范式,同時(shí)保留其固有推理能力。

ReSum-GRPO的核心創(chuàng)新在于"軌跡分割"和"優(yōu)勢(shì)廣播"機(jī)制:

  • 軌跡分割:當(dāng)總結(jié)發(fā)生時(shí),ReSum自然將長(zhǎng)軌跡分割為多個(gè)片段。例如,經(jīng)歷K次總結(jié)事件的軌跡被劃分為K+1個(gè)片段,每個(gè)片段形成獨(dú)立的訓(xùn)練片段
  • 優(yōu)勢(shì)廣播:從最終答案計(jì)算單一軌跡級(jí)獎(jiǎng)勵(lì),并在組內(nèi)歸一化為優(yōu)勢(shì)值,然后廣播到同一軌跡的所有片段

ReSum-GRPO工作機(jī)制示意圖

如上圖所示,ReSum-GRPO通過周期性總結(jié)長(zhǎng)軌跡并從壓縮狀態(tài)重啟,自然形成分段軌跡。系統(tǒng)從最終答案計(jì)算單一軌跡級(jí)獎(jiǎng)勵(lì),然后在組內(nèi)歸一化為軌跡級(jí)優(yōu)勢(shì)值,并廣播至同一rollout的所有片段。這種設(shè)計(jì)使智能體既能有效利用摘要狀態(tài)進(jìn)行推理,又能戰(zhàn)略性收集有助于生成高質(zhì)量摘要的信息。

ReSum-GRPO的核心在于其優(yōu)化目標(biāo)函數(shù):

這種機(jī)制確保了每個(gè)決策節(jié)點(diǎn)都能接收與整體任務(wù)成敗相關(guān)的反饋信號(hào),有效引導(dǎo)智能體學(xué)會(huì)如何利用摘要狀態(tài)繼續(xù)推理,并主動(dòng)收集有助于生成高質(zhì)量摘要的信息。論文明確指出:"ReSum-GRPO不僅鼓勵(lì)智能體有效利用摘要從壓縮狀態(tài)進(jìn)行推理,還鼓勵(lì)其戰(zhàn)略性收集能生成高質(zhì)量摘要的信息。"

GRPO與ReSum-GRPO的訓(xùn)練動(dòng)態(tài)比較

如上圖所示,ReSum-GRPO在訓(xùn)練過程中始終獲得比標(biāo)準(zhǔn)GRPO更高的獎(jiǎng)勵(lì),表明其更有效地鼓勵(lì)智能體熟悉這一推理模式。這種機(jī)制產(chǎn)生雙重激勵(lì):(1) 有效利用摘要從壓縮狀態(tài)進(jìn)行推理;(2) 戰(zhàn)略性收集能生成高質(zhì)量摘要的信息。

實(shí)證結(jié)果令人信服:WebSailor-3B經(jīng)過ReSum-GRPO訓(xùn)練后,在BrowseComp-zh上的Pass@1從8.2%提升至20.5%。更重要的是,標(biāo)準(zhǔn)GRPO無(wú)法使智能體掌握基于摘要的推理——當(dāng)應(yīng)用于ReSum范式時(shí),其性能無(wú)法顯著超過ReSum-GRPO訓(xùn)練的對(duì)應(yīng)體,證明了范式適應(yīng)的必要性。

實(shí)證與啟示——數(shù)據(jù)驗(yàn)證的范式優(yōu)越性

ReSum的實(shí)證力量無(wú)需多言。在無(wú)需任何訓(xùn)練的情況下,ReSum范式即可為各類智能體帶來(lái)平均4.5%的絕對(duì)性能提升。更令人振奮的是,經(jīng)過ReSum-GRPO在僅1,000條樣本上的輕量訓(xùn)練,WebResummer-30B(即經(jīng)過ReSum-GRPO訓(xùn)練的WebSailor-30B)在BrowseComp-zh上達(dá)到33.3%的Pass@1,在BrowseComp-en上達(dá)到18.3%,已超越多個(gè)使用萬(wàn)級(jí)數(shù)據(jù)訓(xùn)練的強(qiáng)大開源競(jìng)品。

RL算法性能比較

如上表所示,WebSailor-3B經(jīng)過ReSum-GRPO訓(xùn)練后,在BrowseComp-zh上的Pass@1從8.2%提升至20.5%,提升幅度達(dá)150%。相比之下,WebSailor-30B僅從23.9%提升至33.3%,提升幅度約40%。這一現(xiàn)象表明,ReSum對(duì)資源受限的小模型具有更大的相對(duì)價(jià)值——它使小模型能夠突破固有局限,實(shí)現(xiàn)原本只有大模型才能完成的長(zhǎng)程推理任務(wù)。

以BrowseComp-en上的一個(gè)實(shí)際案例為例,當(dāng)智能體需要回答"跳蚤研究中50%個(gè)體的測(cè)量值"問題時(shí),ReSum使智能體能夠基于摘要狀態(tài)繼續(xù)推理。摘要明確指出"C. felis felis的測(cè)量值為15.5cm,而C. canis的值未完全提供"后,智能體精準(zhǔn)地針對(duì)缺失信息進(jìn)行搜索,最終成功找到13.2cm的答案。這一案例生動(dòng)展示了ReSum如何使智能體保持對(duì)關(guān)鍵信息的追蹤,避免在長(zhǎng)程推理中迷失方向。

不同范式的資源消耗與性能比較

如上圖所示,ReSum范式在合理增加資源消耗的情況下實(shí)現(xiàn)了顯著的性能提升。在訓(xùn)練免費(fèi)設(shè)置中,ReSum相比ReAct僅略微增加資源成本,但帶來(lái)明顯性能提升;經(jīng)過ReSum-GRPO訓(xùn)練后,智能體更傾向于依賴摘要進(jìn)行持續(xù)推理,雖然帶來(lái)額外資源成本,但性能進(jìn)一步提高。具體而言,ReSum范式通常消耗約2倍的token和工具調(diào)用次數(shù),但帶來(lái)的性能提升遠(yuǎn)超成本增加,特別是在解決復(fù)雜問題時(shí)。

不同RL算法單步訓(xùn)練時(shí)間對(duì)比

如上表所示,ReSum-GRPO相比GRPO的訓(xùn)練時(shí)間增加幅度在33%至69%之間,具體取決于模型規(guī)模。WebSailor-3B從0.62小時(shí)增至1.05小時(shí)(+69%),WebSailor-7B從0.96小時(shí)增至1.44小時(shí)(+50%),WebSailor-30B從0.94小時(shí)增至1.25小時(shí)(+33%)。這種增量在獲得"無(wú)限探索"能力的背景下是可接受的。

ReSum的普適性不僅體現(xiàn)在模型規(guī)模上,更體現(xiàn)在其對(duì)小模型的"賦能"效應(yīng)。WebSailor-3B通過ReSum-GRPO訓(xùn)練后,在BrowseComp-zh上Pass@1從8.2%提升至20.5%,提升幅度達(dá)150%。相比之下,WebSailor-30B僅從23.9%提升至33.3%,提升幅度約40%。這一現(xiàn)象表明,ReSum對(duì)資源受限的小模型具有更大的相對(duì)價(jià)值——它使小模型能夠突破固有局限,實(shí)現(xiàn)原本只有大模型才能完成的長(zhǎng)程推理任務(wù),有效縮小了小模型與大模型在復(fù)雜任務(wù)上的性能差距。

關(guān)于效率與性能的權(quán)衡,ReSum-GRPO的訓(xùn)練時(shí)間約為GRPO的1.5倍,這是為獲得"無(wú)限探索"能力所必須付出的、可接受的代價(jià)。在推理階段,ReSum僅增加約2倍的資源消耗,卻能大幅提升解決復(fù)雜問題的能力,這種權(quán)衡在處理真正復(fù)雜的長(zhǎng)程任務(wù)時(shí)顯得尤為合理。

總結(jié)

ReSum不僅解鎖了"長(zhǎng)程搜索智能",更揭示了通向更高級(jí)智能體的關(guān)鍵路徑:真正的智能體必須具備管理自身認(rèn)知狀態(tài)的能力。它表明,智能不僅是"反應(yīng)",更應(yīng)該是"反思"與"重構(gòu)"。當(dāng)智能體能夠突破上下文限制,進(jìn)行真正長(zhǎng)程的探索與推理時(shí),它們將能夠解決更復(fù)雜、更貼近人類認(rèn)知水平的問題。

ReSum不僅是一項(xiàng)技術(shù)改進(jìn),也是對(duì)智能體本質(zhì)的重新思考。真正的智能體必須能夠管理自身的認(rèn)知狀態(tài),而不僅僅是對(duì)輸入做出反應(yīng)。正如人類在復(fù)雜問題解決過程中會(huì)不斷"復(fù)盤"和"記筆記",ReSum使LLM智能體具備了類似的元認(rèn)知能力。這種從"反應(yīng)式工具"向"戰(zhàn)略性思考者"的轉(zhuǎn)變,正是通向AGI的關(guān)鍵一步——當(dāng)智能體能夠自主管理認(rèn)知狀態(tài)、持續(xù)反思與重構(gòu)知識(shí)時(shí),我們便離真正的"思考伙伴"更近了一步。

盡管ReSum取得了顯著成效,其當(dāng)前實(shí)現(xiàn)仍依賴于規(guī)則觸發(fā)(如達(dá)到token預(yù)算),而非智能體自主判斷何時(shí)需要總結(jié)。研究團(tuán)隊(duì)未來(lái)將聚焦于使智能體能夠智能地自主發(fā)起總結(jié)調(diào)用,消除對(duì)基于規(guī)則的總結(jié)調(diào)用的依賴。研究將探索從規(guī)則觸發(fā)(如token上限)到基于不確定性的自主觸發(fā)的轉(zhuǎn)變,讓智能體學(xué)會(huì)判斷何時(shí)需要總結(jié),實(shí)現(xiàn)更高效的認(rèn)知管理。

未來(lái)研究方向已在論文中清晰展現(xiàn):

  • 智能觸發(fā)機(jī)制:從規(guī)則觸發(fā)(如token上限)到基于不確定性的自主觸發(fā),讓智能體學(xué)會(huì)判斷何時(shí)需要總結(jié),實(shí)現(xiàn)更高效的認(rèn)知管理
  • 摘要的可驗(yàn)證性:確保摘要的忠實(shí)度和無(wú)幻覺,這是保證推理可靠性的關(guān)鍵。論文中已通過嚴(yán)格提示工程(如"Strictly avoid fabricating, inferring, or exaggerating any information")來(lái)約束摘要質(zhì)量

ReSum的高性能也預(yù)示著LLM智能體將從"反應(yīng)式工具"向"戰(zhàn)略性思考者"演進(jìn)。當(dāng)智能體能夠突破上下文限制,進(jìn)行真正長(zhǎng)程的探索與推理時(shí),它們將能夠解決更復(fù)雜、更貼近人類認(rèn)知水平的問題。

從ReAct到ReSum,提醒我們,在追求更大規(guī)模模型的同時(shí),優(yōu)化推理范式同樣能帶來(lái)質(zhì)的飛躍。當(dāng)智能體學(xué)會(huì)"總結(jié)過去、重啟未來(lái)",它們離真正的自主智能又近了一步。

責(zé)任編輯:龐桂玉 來(lái)源: 覺察流
相關(guān)推薦

2024-12-13 14:30:00

AI模型數(shù)據(jù)

2024-12-25 09:06:44

2022-01-06 22:29:35

人工智能機(jī)器人自動(dòng)化

2023-12-26 12:12:01

模型訓(xùn)練

2025-09-25 12:42:33

2025-08-14 09:00:00

模型訓(xùn)練數(shù)據(jù)

2025-06-03 14:17:18

WebDancerAgenticAI

2025-08-21 09:10:00

2025-07-10 10:21:19

2025-05-26 08:40:00

2025-05-30 15:53:27

智能體模型AI

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-03-25 09:12:00

LIMAI模型

2024-01-22 12:31:18

模型訓(xùn)練

2025-05-13 15:13:28

AI模型訓(xùn)練

2025-08-28 09:09:00

AI強(qiáng)化學(xué)習(xí)模型

2011-08-30 22:39:22

筆記本技巧

2025-10-29 09:42:55

2021-07-13 18:57:33

人工智能AI

2013-05-22 13:06:14

aerohive協(xié)同控制WLAN
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)