偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

新范式!字節(jié)提出智能體上下文折疊框架,1/10活躍量突破長周期任務(wù)瓶頸

人工智能
在復(fù)雜長周期任務(wù)(Deep Research與軟件工程)測試中,基于Seed-OSS-36B-Instruct的折疊智能體僅使用1/10的活躍上下文,持平或優(yōu)于ReAct基線,顯著優(yōu)于基于摘要的上下文管理方法,并與基于100B+參數(shù)量大模型所構(gòu)建智能體的性能相媲美。

智能體在執(zhí)行長周期任務(wù)時(shí),始終受限于上下文長度。為此,字節(jié)聯(lián)合提出上下文折疊(Context-Folding)框架,使智能體能夠主動(dòng)管理其工作上下文。該框架允許智能體通過程序分支進(jìn)入子軌跡以處理子任務(wù),完成后將中間步驟折疊壓縮,僅保留結(jié)果摘要。為使該行為可學(xué)習(xí),研究人員開發(fā)了端到端強(qiáng)化學(xué)習(xí)框架FoldGRPO,通過特定過程獎(jiǎng)勵(lì)鼓勵(lì)有效的任務(wù)分解與上下文管理。

在復(fù)雜長周期任務(wù)(Deep Research與軟件工程)測試中,基于Seed-OSS-36B-Instruct的折疊智能體僅使用1/10的活躍上下文,持平或優(yōu)于ReAct基線,顯著優(yōu)于基于摘要的上下文管理方法,并與基于100B+參數(shù)量大模型所構(gòu)建智能體的性能相媲美。

  • 論文標(biāo)題:Scaling Long-Horizon LLM Agent via Context-Folding
  • 論文鏈接:https://arxiv.org/abs/2510.11967
  • 項(xiàng)目地址:https://context-folding.github.io/

一、方法

1.上下文折疊框架

為應(yīng)對(duì)智能體在執(zhí)行長周期任務(wù)時(shí)的上下文挑戰(zhàn),論文提出上下文折疊,允許智能體通過分支與折疊主動(dòng)管理其工作上下文。具體而言,論文設(shè)計(jì)了兩個(gè)可供智能體調(diào)用的上下文管理工具。從主線程開始解決問題q,智能體可以:

  • branch(description,prompt):從主線程分支,使用獨(dú)立工作上下文完成用于解決q的子任務(wù)q′。其中“description”是子任務(wù)的簡要摘要,“prompt”是該分支的詳細(xì)指令。該工具返回一個(gè)模板消息,表明分支已創(chuàng)建。
  • return(message):折疊本分支中生成的上下文并返回主線程?!癿essage”用于描述該分支的執(zhí)行結(jié)果。調(diào)用此工具后,智能體上下文將切換回主線程,并附加來自分支的模板消息。

上下文折疊智能體的公式建模為:

此處τ<i=(a1, o1, ..., ai-1, oi-1)表示第i步之前所有動(dòng)作-觀測對(duì)的完整歷史記錄,F(xiàn)是上下文管理器,負(fù)責(zé)折疊branch與return工具調(diào)用之間交互歷史。

在上述示例中,a2至a4之間以及a5至a8之間的交互片段均被折疊。

推理效率:在推理過程中,智能體管理著上下文KV-cache:當(dāng)調(diào)用return操作時(shí),KV-cache將回滾至對(duì)應(yīng)的branch位置,該位置的上下文前綴需與調(diào)用branch操作前的狀態(tài)保持一致。這一機(jī)制使得上下文折疊方法在推理效率方面表現(xiàn)優(yōu)異。

實(shí)例化:為在長周期任務(wù)中實(shí)例化上下文折疊,采用規(guī)劃-執(zhí)行框架,其中智能體在兩種狀態(tài)間交替:

  • 規(guī)劃狀態(tài):智能體在主線程進(jìn)行高層推理,分解任務(wù),并決定何時(shí)為子任務(wù)創(chuàng)建分支。在此狀態(tài)下,為保持主上下文聚焦高層策略,不鼓勵(lì)使用消耗大量token的工具。
  • 執(zhí)行狀態(tài):智能體在分支內(nèi)運(yùn)行以完成指定子任務(wù)。為保持清晰的結(jié)構(gòu)并避免復(fù)雜嵌套,執(zhí)行狀態(tài)下禁止創(chuàng)建新的分支。

2.FoldGRPO強(qiáng)化學(xué)習(xí)

為優(yōu)化上下文折疊智能體,論文提出一種端到端強(qiáng)化學(xué)習(xí)訓(xùn)練框架FoldGRPO。該框架聯(lián)合優(yōu)化包含主線程及子任務(wù)分支的完整交互軌跡,并基于上下文折疊建模(公式1)對(duì)rollout歷史進(jìn)行折疊,從而在訓(xùn)練過程中保持緊湊的工作上下文。此外,F(xiàn)oldGRPO采用創(chuàng)新的過程獎(jiǎng)勵(lì)設(shè)計(jì),可有效指導(dǎo)智能體分支行為的訓(xùn)練。

(1)整體算法設(shè)計(jì)

在FoldGRPO的每個(gè)訓(xùn)練步驟中,對(duì)于訓(xùn)練數(shù)據(jù)集D的任務(wù)q,根據(jù)上下文折疊建模(公式1)從舊策略圖片中采樣G條軌跡圖片。每條完整軌跡(例如圖片)被定義為token序列圖片。每條軌跡τ?對(duì)應(yīng)最終獎(jiǎng)勵(lì)R?∈{0,1},遵循可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)。

學(xué)習(xí)目標(biāo):FoldGRPO的學(xué)習(xí)目標(biāo)定義為:

圖片

其中重要性采樣比率與組相對(duì)優(yōu)勢估計(jì)為:

圖片

此處圖片確保僅優(yōu)化LLM生成的token,并掩碼工具觀察token。

其中,F(xiàn)oldGRPO以紅色標(biāo)出兩個(gè)關(guān)鍵特性:

  • 上下文折疊:與在策略優(yōu)化時(shí)將完整交互歷史追加至上下文的標(biāo)準(zhǔn)多輪LLM強(qiáng)化學(xué)習(xí)算法不同,F(xiàn)oldGRPO將上下文管理器F(?)應(yīng)用于歷史τi,<t,基于branch-return操作對(duì)token τi,t的上下文進(jìn)行折疊。
  • 過程獎(jiǎng)勵(lì)信號(hào):在計(jì)算優(yōu)勢圖片時(shí),加入token級(jí)過程獎(jiǎng)勵(lì)圖片以規(guī)范模型的branch-return行為。

(2)過程獎(jiǎng)勵(lì)設(shè)計(jì)

在RLVR中,智能體通常通過基于任務(wù)成功或失敗的二元結(jié)果獎(jiǎng)勵(lì)進(jìn)行優(yōu)化。然而研究人員發(fā)現(xiàn),這種稀疏獎(jiǎng)勵(lì)信號(hào)不足以有效學(xué)習(xí)上下文折疊行為。具體表現(xiàn)為兩種關(guān)鍵失敗模式:

  • 智能體未能進(jìn)行策略性規(guī)劃,將token密集型操作保留在主上下文中未作折疊,迅速耗盡可用token預(yù)算;
  • 智能體難以進(jìn)行有效的分支管理,常在子任務(wù)完成后未能從子分支返回,反而在同一分支內(nèi)繼續(xù)后續(xù)工作。

為有效優(yōu)化折疊智能體,分別針對(duì)主軌跡token和分支軌跡token引入token級(jí)過程獎(jiǎng)勵(lì)。

未折疊token懲罰:當(dāng)主線程的總上下文長度超過工作上下文限制的50%時(shí),對(duì)主線程中所有token(創(chuàng)建分支的回合對(duì)應(yīng)的token除外)施加Qi,t=-1的懲罰。此舉旨在懲罰智能體在主線程非分支環(huán)境下執(zhí)行的token密集型操作,并鼓勵(lì)其將此類操作在分支中執(zhí)行。

超范圍懲罰:針對(duì)每個(gè)分支,采用GPT-5-nano模型,基于分支提示詞與返回消息判斷智能體是否執(zhí)行了指定子任務(wù)范圍之外的操作。若存在此類行為,對(duì)該分支內(nèi)所有token施加Qi,t=-0.2的懲罰,這促使智能體僅執(zhí)行當(dāng)前分支既定的確切子任務(wù)。

失敗懲罰:對(duì)失敗工具調(diào)用回合中的所有token施加Qi,t=-1的懲罰。其余所有情況下,Qi,t=0。

3.上下文折疊與其他方法的關(guān)聯(lián)

與多智能體系統(tǒng)的關(guān)系:上下文折疊可被視為廣義多智能體系統(tǒng)的一種特定實(shí)現(xiàn)形式,主智能體將子任務(wù)委托給子智能體執(zhí)行。但與主流多智能體系統(tǒng)相比存在以下差異:

  • 上下文折疊不采用預(yù)定義的子智能體,而是由主智能體動(dòng)態(tài)創(chuàng)建;
  • 所有智能體共享相同的上下文前綴,使其對(duì)KV-cache友好;
  • 主智能體與子智能體交替運(yùn)行而非并行執(zhí)行。

與基于上下文摘要方法的關(guān)系:相較于基于啟發(fā)式摘要的上下文管理方法(其在任意節(jié)點(diǎn)丟棄細(xì)節(jié)信息),上下文折疊可視為一種與子任務(wù)邊界對(duì)齊的可學(xué)習(xí)摘要機(jī)制。這能確保推理在執(zhí)行期間得以完整保留,僅在其效用實(shí)現(xiàn)后才被壓縮。

二、實(shí)驗(yàn)

圖片圖片

表1總結(jié)了在BrowseComp-Plus(Deep Research任務(wù))和SWE-Bench Verified(軟件工程任務(wù))數(shù)據(jù)集上的主要結(jié)果。對(duì)于折疊智能體,論文將LLM的最大上下文長度設(shè)定為32,768個(gè)token,并允許最多創(chuàng)建10個(gè)分支,從而實(shí)現(xiàn)327,680個(gè)token的理論上下文上限。

在未進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí),折疊智能體的表現(xiàn)已超越32K上下文的ReAct及上下文摘要基線,但尚未達(dá)到長上下文ReAct智能體的性能水平。經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后,智能體性能顯著提升:在BrowseComp-Plus數(shù)據(jù)集上Pass@1達(dá)到0.620(+20%),在SWE-Bench Verified數(shù)據(jù)集上Pass@1達(dá)到0.580(+8.8%)。折疊智能體不僅超越了所有基線(包括具有相同327K最大上下文長度的長上下文ReAct智能體),更與基于100B+參數(shù)量大模型所構(gòu)建智能體的性能相媲美。

深入分析表明,F(xiàn)oldGRPO性能顯著優(yōu)于基準(zhǔn)GRPO(如在BrowseComp上提升7.7%,在SWE-Bench上提升1.6%);其次,性能提升與工具調(diào)用頻率的增加相關(guān),而強(qiáng)化學(xué)習(xí)訓(xùn)練進(jìn)一步促進(jìn)了該行為。表明論文框架使智能體能夠?qū)Νh(huán)境進(jìn)行更全面的探索,從而發(fā)現(xiàn)更魯棒的解決方案。

圖片圖片

上圖展示了折疊智能體在BrowseComp-Plus上的定性案例。針對(duì)需要滿足特定條件的文獻(xiàn)檢索任務(wù),智能體首先探索高層主題并確定候選文獻(xiàn),隨后通過分支搜索驗(yàn)證具體條件,在獲得關(guān)鍵信息但未能完全確認(rèn)所有要求后,進(jìn)一步擴(kuò)展搜索范圍并最終找到正確答案。在此過程中,4個(gè)分支將完整的107K token上下文壓縮至僅6K。

責(zé)任編輯:武曉燕 來源: 智猩猩AI
相關(guān)推薦

2025-10-11 04:22:00

人工海馬體網(wǎng)絡(luò)LV-Eval

2025-10-10 09:16:47

2023-10-23 13:23:03

數(shù)據(jù)訓(xùn)練

2025-08-14 08:20:38

2024-12-13 14:30:00

AI模型數(shù)據(jù)

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2025-10-15 01:00:00

ACE代理上下文工程

2025-06-16 14:40:40

模型AI訓(xùn)練

2025-03-21 10:08:37

2025-08-08 01:45:00

上下文工程優(yōu)化框架

2025-10-14 10:03:11

CompLLMLLMRAG

2025-10-13 08:00:00

2024-12-06 18:48:39

2012-12-31 10:01:34

SELinuxSELinux安全

2025-05-09 09:15:00

2022-09-14 13:13:51

JavaScript上下文

2025-07-29 00:00:00

LLM上下文窗口系統(tǒng)

2025-08-08 14:06:48

MemToolLLM智能體

2024-04-07 08:50:00

谷歌框架

2025-07-22 08:50:00

AI模型框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)