偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="9my7i"><strike id="9my7i"></strike></pre>

<nobr id="9my7i"></nobr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

新范式！字節(jié)提出智能體上下文折疊框架，1/10活躍量突破長周期任務(wù)瓶頸

作者：六一 2025-10-28 15:53:21

在復(fù)雜長周期任務(wù)（Deep Research與軟件工程）測試中，基于Seed-OSS-36B-Instruct的折疊智能體僅使用1/10的活躍上下文，持平或優(yōu)于ReAct基線，顯著優(yōu)于基于摘要的上下文管理方法，并與基于100B+參數(shù)量大模型所構(gòu)建智能體的性能相媲美。

智能體在執(zhí)行長周期任務(wù)時(shí)，始終受限于上下文長度。為此，字節(jié)聯(lián)合提出上下文折疊（Context-Folding）框架，使智能體能夠主動(dòng)管理其工作上下文。該框架允許智能體通過程序分支進(jìn)入子軌跡以處理子任務(wù)，完成后將中間步驟折疊壓縮，僅保留結(jié)果摘要。為使該行為可學(xué)習(xí)，研究人員開發(fā)了端到端強(qiáng)化學(xué)習(xí)框架FoldGRPO，通過特定過程獎(jiǎng)勵(lì)鼓勵(lì)有效的任務(wù)分解與上下文管理。

在復(fù)雜長周期任務(wù)（Deep Research與軟件工程）測試中，基于Seed-OSS-36B-Instruct的折疊智能體僅使用1/10的活躍上下文，持平或優(yōu)于ReAct基線，顯著優(yōu)于基于摘要的上下文管理方法，并與基于100B+參數(shù)量大模型所構(gòu)建智能體的性能相媲美。

論文標(biāo)題：Scaling Long-Horizon LLM Agent via Context-Folding
論文鏈接：https://arxiv.org/abs/2510.11967
項(xiàng)目地址：https://context-folding.github.io/

一、方法

1.上下文折疊框架

為應(yīng)對(duì)智能體在執(zhí)行長周期任務(wù)時(shí)的上下文挑戰(zhàn)，論文提出上下文折疊，允許智能體通過分支與折疊主動(dòng)管理其工作上下文。具體而言，論文設(shè)計(jì)了兩個(gè)可供智能體調(diào)用的上下文管理工具。從主線程開始解決問題q，智能體可以：

branch（description，prompt）：從主線程分支，使用獨(dú)立工作上下文完成用于解決q的子任務(wù)q′。其中“description”是子任務(wù)的簡要摘要，“prompt”是該分支的詳細(xì)指令。該工具返回一個(gè)模板消息，表明分支已創(chuàng)建。
return（message）：折疊本分支中生成的上下文并返回主線程?！癿essage”用于描述該分支的執(zhí)行結(jié)果。調(diào)用此工具后，智能體上下文將切換回主線程，并附加來自分支的模板消息。

上下文折疊智能體的公式建模為：

此處τ<i=(a1, o1, ..., ai-1, oi-1)表示第i步之前所有動(dòng)作-觀測對(duì)的完整歷史記錄，F(xiàn)是上下文管理器，負(fù)責(zé)折疊branch與return工具調(diào)用之間交互歷史。

在上述示例中，a2至a4之間以及a5至a8之間的交互片段均被折疊。

推理效率：在推理過程中，智能體管理著上下文KV-cache：當(dāng)調(diào)用return操作時(shí)，KV-cache將回滾至對(duì)應(yīng)的branch位置，該位置的上下文前綴需與調(diào)用branch操作前的狀態(tài)保持一致。這一機(jī)制使得上下文折疊方法在推理效率方面表現(xiàn)優(yōu)異。

實(shí)例化：為在長周期任務(wù)中實(shí)例化上下文折疊，采用規(guī)劃-執(zhí)行框架，其中智能體在兩種狀態(tài)間交替：

規(guī)劃狀態(tài)：智能體在主線程進(jìn)行高層推理，分解任務(wù)，并決定何時(shí)為子任務(wù)創(chuàng)建分支。在此狀態(tài)下，為保持主上下文聚焦高層策略，不鼓勵(lì)使用消耗大量token的工具。
執(zhí)行狀態(tài)：智能體在分支內(nèi)運(yùn)行以完成指定子任務(wù)。為保持清晰的結(jié)構(gòu)并避免復(fù)雜嵌套，執(zhí)行狀態(tài)下禁止創(chuàng)建新的分支。

2.FoldGRPO強(qiáng)化學(xué)習(xí)

為優(yōu)化上下文折疊智能體，論文提出一種端到端強(qiáng)化學(xué)習(xí)訓(xùn)練框架FoldGRPO。該框架聯(lián)合優(yōu)化包含主線程及子任務(wù)分支的完整交互軌跡，并基于上下文折疊建模（公式1）對(duì)rollout歷史進(jìn)行折疊，從而在訓(xùn)練過程中保持緊湊的工作上下文。此外，F(xiàn)oldGRPO采用創(chuàng)新的過程獎(jiǎng)勵(lì)設(shè)計(jì)，可有效指導(dǎo)智能體分支行為的訓(xùn)練。

（1）整體算法設(shè)計(jì)

在FoldGRPO的每個(gè)訓(xùn)練步驟中，對(duì)于訓(xùn)練數(shù)據(jù)集D的任務(wù)q，根據(jù)上下文折疊建模（公式1）從舊策略中采樣G條軌跡。每條完整軌跡（例如）被定義為token序列。每條軌跡τ?對(duì)應(yīng)最終獎(jiǎng)勵(lì)R?∈{0,1}，遵循可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)。

學(xué)習(xí)目標(biāo)：FoldGRPO的學(xué)習(xí)目標(biāo)定義為：

其中重要性采樣比率與組相對(duì)優(yōu)勢估計(jì)為：

此處確保僅優(yōu)化LLM生成的token，并掩碼工具觀察token。

其中，F(xiàn)oldGRPO以紅色標(biāo)出兩個(gè)關(guān)鍵特性：

上下文折疊：與在策略優(yōu)化時(shí)將完整交互歷史追加至上下文的標(biāo)準(zhǔn)多輪LLM強(qiáng)化學(xué)習(xí)算法不同，F(xiàn)oldGRPO將上下文管理器F(?)應(yīng)用于歷史τi,<t，基于branch-return操作對(duì)token τi,t的上下文進(jìn)行折疊。
過程獎(jiǎng)勵(lì)信號(hào)：在計(jì)算優(yōu)勢時(shí)，加入token級(jí)過程獎(jiǎng)勵(lì)以規(guī)范模型的branch-return行為。

（2）過程獎(jiǎng)勵(lì)設(shè)計(jì)

在RLVR中，智能體通常通過基于任務(wù)成功或失敗的二元結(jié)果獎(jiǎng)勵(lì)進(jìn)行優(yōu)化。然而研究人員發(fā)現(xiàn)，這種稀疏獎(jiǎng)勵(lì)信號(hào)不足以有效學(xué)習(xí)上下文折疊行為。具體表現(xiàn)為兩種關(guān)鍵失敗模式：

智能體未能進(jìn)行策略性規(guī)劃，將token密集型操作保留在主上下文中未作折疊，迅速耗盡可用token預(yù)算；
智能體難以進(jìn)行有效的分支管理，常在子任務(wù)完成后未能從子分支返回，反而在同一分支內(nèi)繼續(xù)后續(xù)工作。

為有效優(yōu)化折疊智能體，分別針對(duì)主軌跡token和分支軌跡token引入token級(jí)過程獎(jiǎng)勵(lì)。

未折疊token懲罰：當(dāng)主線程的總上下文長度超過工作上下文限制的50%時(shí)，對(duì)主線程中所有token（創(chuàng)建分支的回合對(duì)應(yīng)的token除外）施加Qi,t=-1的懲罰。此舉旨在懲罰智能體在主線程非分支環(huán)境下執(zhí)行的token密集型操作，并鼓勵(lì)其將此類操作在分支中執(zhí)行。

超范圍懲罰：針對(duì)每個(gè)分支，采用GPT-5-nano模型，基于分支提示詞與返回消息判斷智能體是否執(zhí)行了指定子任務(wù)范圍之外的操作。若存在此類行為，對(duì)該分支內(nèi)所有token施加Qi,t=-0.2的懲罰，這促使智能體僅執(zhí)行當(dāng)前分支既定的確切子任務(wù)。

失敗懲罰：對(duì)失敗工具調(diào)用回合中的所有token施加Qi,t=-1的懲罰。其余所有情況下，Qi,t=0。

3.上下文折疊與其他方法的關(guān)聯(lián)

與多智能體系統(tǒng)的關(guān)系：上下文折疊可被視為廣義多智能體系統(tǒng)的一種特定實(shí)現(xiàn)形式，主智能體將子任務(wù)委托給子智能體執(zhí)行。但與主流多智能體系統(tǒng)相比存在以下差異：

上下文折疊不采用預(yù)定義的子智能體，而是由主智能體動(dòng)態(tài)創(chuàng)建；
所有智能體共享相同的上下文前綴，使其對(duì)KV-cache友好；
主智能體與子智能體交替運(yùn)行而非并行執(zhí)行。

與基于上下文摘要方法的關(guān)系：相較于基于啟發(fā)式摘要的上下文管理方法（其在任意節(jié)點(diǎn)丟棄細(xì)節(jié)信息），上下文折疊可視為一種與子任務(wù)邊界對(duì)齊的可學(xué)習(xí)摘要機(jī)制。這能確保推理在執(zhí)行期間得以完整保留，僅在其效用實(shí)現(xiàn)后才被壓縮。

二、實(shí)驗(yàn)

圖片

表1總結(jié)了在BrowseComp-Plus（Deep Research任務(wù)）和SWE-Bench Verified（軟件工程任務(wù)）數(shù)據(jù)集上的主要結(jié)果。對(duì)于折疊智能體，論文將LLM的最大上下文長度設(shè)定為32,768個(gè)token，并允許最多創(chuàng)建10個(gè)分支，從而實(shí)現(xiàn)327,680個(gè)token的理論上下文上限。

在未進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)，折疊智能體的表現(xiàn)已超越32K上下文的ReAct及上下文摘要基線，但尚未達(dá)到長上下文ReAct智能體的性能水平。經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后，智能體性能顯著提升：在BrowseComp-Plus數(shù)據(jù)集上Pass@1達(dá)到0.620（+20%），在SWE-Bench Verified數(shù)據(jù)集上Pass@1達(dá)到0.580（+8.8%）。折疊智能體不僅超越了所有基線（包括具有相同327K最大上下文長度的長上下文ReAct智能體），更與基于100B+參數(shù)量大模型所構(gòu)建智能體的性能相媲美。

深入分析表明，F(xiàn)oldGRPO性能顯著優(yōu)于基準(zhǔn)GRPO（如在BrowseComp上提升7.7%，在SWE-Bench上提升1.6%）；其次，性能提升與工具調(diào)用頻率的增加相關(guān)，而強(qiáng)化學(xué)習(xí)訓(xùn)練進(jìn)一步促進(jìn)了該行為。表明論文框架使智能體能夠?qū)Νh(huán)境進(jìn)行更全面的探索，從而發(fā)現(xiàn)更魯棒的解決方案。

圖片

上圖展示了折疊智能體在BrowseComp-Plus上的定性案例。針對(duì)需要滿足特定條件的文獻(xiàn)檢索任務(wù)，智能體首先探索高層主題并確定候選文獻(xiàn)，隨后通過分支搜索驗(yàn)證具體條件，在獲得關(guān)鍵信息但未能完全確認(rèn)所有要求后，進(jìn)一步擴(kuò)展搜索范圍并最終找到正確答案。在此過程中，4個(gè)分支將完整的107K token上下文壓縮至僅6K。

責(zé)任編輯：武曉燕來源：智猩猩AI

字節(jié)ReAct 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="6wvnw"></abbr>

<kbd id="6wvnw"></kbd>