偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Manus 揭秘自己的七大核心技術(shù):上下文工程架構(gòu)設(shè)計與落地經(jīng)驗 原創(chuàng) 精華

發(fā)布于 2025-7-21 10:11
瀏覽
0收藏

隨著 AI 智能體技術(shù)的快速發(fā)展,如何高效構(gòu)建和優(yōu)化 AI 智能體系統(tǒng)已成為業(yè)界關(guān)注的焦點。本文是對 7月19日 Manus 聯(lián)合創(chuàng)始人兼首席科學(xué)家季逸超(Yichao 'Peak' Ji)在撰寫的《Context Engineering for AI Agents: Lessons from Building Manus》一文的整理。


Manus 揭秘自己的七大核心技術(shù):上下文工程架構(gòu)設(shè)計與落地經(jīng)驗-AI.x社區(qū)Image

Manus 團隊在構(gòu)建 AI 智能體過程中關(guān)于上下文工程的寶貴經(jīng)驗,包括: KV 緩存優(yōu)化設(shè)計、動態(tài)動作空間管理設(shè)計以及利用文件系統(tǒng)作為擴展上下文等7大核心技術(shù)架構(gòu)設(shè)計。

這些經(jīng)驗不僅揭示了當前 AI 智能體開發(fā)的技術(shù)架構(gòu)設(shè)計的挑戰(zhàn)和解決思路,也為未來  AI 智能體技術(shù)的發(fā)展提供了重要參考。

下文我們詳細剖析之,

Manus 智能體6大核心技術(shù)剖析

1、圍繞 KV 緩存進行設(shè)計

如果必須選擇一個關(guān)鍵指標,KV 緩存命中率無疑是生產(chǎn)環(huán)境中 AI 智能體最重要的指標。KV 緩存是 Transformer 模型中用于存儲注意力計算結(jié)果的機制,高命中率意味著可以重用之前的計算結(jié)果,從而顯著降低延遲和成本。

第一、KV 緩存的重要性

典型 AI 智能體的運作流程如下:

用戶輸入后,AI 智能體通過一系列工具調(diào)用來完成任務(wù)。在每次迭代中,模型根據(jù)當前上下文從預(yù)定義的動作空間中選擇一個動作,并在環(huán)境中執(zhí)行(比如:Manus 的虛擬機沙盒環(huán)境,用于確保代碼安全運行),從而產(chǎn)生觀測結(jié)果。動作和觀測結(jié)果被附加到上下文中,形成下一次迭代的輸入,循環(huán)直到任務(wù)完成。

由于 AI 智能體的上下文隨著每一步增長,而輸出(通常是結(jié)構(gòu)化的函數(shù)調(diào)用)相對較短,因此 AI 智能體的預(yù)填充(prefilling,一次性處理輸入 token 的階段)和解碼(decoding,逐個生成輸出 token 的階段)比例與聊天機器人相比高度傾斜。比如:在 Manus 中,平均輸入與輸出 token 比例約為100:1。

幸運的是,具有相同前綴的上下文可以利用 KV 緩存,這大大減少了首 token 時間(TTFT,Time-To-First-Token)和推理成本。比如:使用Claude Sonnet 時,緩存的輸入 token 成本為0.30美元/百萬 token,而未緩存的成本為3美元/百萬 token,相差10倍。


Manus 揭秘自己的七大核心技術(shù):上下文工程架構(gòu)設(shè)計與落地經(jīng)驗-AI.x社區(qū)

第二、提高 KV 緩存命中率的關(guān)鍵實踐

  • 保持提示詞前綴穩(wěn)定

由于 LLMs 的自回歸特性(模型按順序生成 token,每個 token 的生成都依賴于之前的所有 token),即使是單個 token 的差異也可能使該 token 之后的緩存失效。一個常見錯誤是在系統(tǒng)提示詞的開頭包含時間戳(特別是精確到秒的時間戳),這雖然能讓模型告訴你當前時間,但會直接降低緩存命中率。

  • 使上下文僅追加(append-only)

避免修改之前的動作或觀測結(jié)果,確保序列化過程是確定性的。許多編程語言和庫在序列化 JSON 對象時不保證穩(wěn)定的鍵排序,這可能會悄無聲息地破壞緩存。

  • 明確標記緩存斷點

一些模型提供商或推理框架不支持自動增量前綴緩存,而是需要在上下文中手動插入緩存斷點。分配這些斷點時,要考慮潛在的緩存過期時間,并確保斷點包含在系統(tǒng)提示詞的末尾。

此外,如果你使用 vLLM(一個高性能的 LLM 推理框架)等框架自托管模型,請確保啟用前綴/提示詞緩存,并使用會話 ID 等技術(shù)在分布式工作節(jié)點間一致地路由請求。

2、遮蔽(Mask),而非移除

隨著 AI 智能體能力的提升,其動作空間(action space)會變得愈發(fā)復(fù)雜,工具數(shù)量也會呈爆炸式增長。最近 MCP 的流行更是加劇了這一問題。如果允許用戶配置工具,總有人會將大量不明來源的工具塞入精心設(shè)計的動作空間中,導(dǎo)致模型更容易選錯行動或采取低效路徑,從而使 AI 智能體變得遲鈍。

一種自然的想法是設(shè)計一個動態(tài)的動作空間,按需動態(tài)加載工具,在 Manus 中也嘗試過這種方法。但實驗表明,除非絕對必要,否則應(yīng)避免在迭代中途動態(tài)增刪工具,原因主要有以下兩點:

  1. 在大多數(shù)大模型中,工具定義在序列化后通常位于上下文的靠前位置,通常在系統(tǒng)提示詞之前或之后。因此,任何更改都會導(dǎo)致后續(xù)所有動作和觀測的 KV 緩存失效。
  2. 當此前的動作和觀測仍然引用著當前上下文中不再定義的工具時,模型會感到困惑。如果沒有約束解碼(constrained decoding),這通常會導(dǎo)致模式違規(guī)或產(chǎn)生幻覺動作。

為了解決這個問題,同時又能優(yōu)化動作選擇,Manus 使用一個上下文感知的狀態(tài)機來管理工具的可用性。它并不移除工具,而是在解碼階段遮蔽掉 token logits,從而根據(jù)當前上下文,阻止(或強制)模型選擇某些動作。


Manus 揭秘自己的七大核心技術(shù):上下文工程架構(gòu)設(shè)計與落地經(jīng)驗-AI.x社區(qū)Image

在實踐中,大多數(shù)模型提供商和推理框架都支持某種形式的響應(yīng)預(yù)填充,這允許你在不修改工具定義的情況下約束動作空間。函數(shù)調(diào)用通常有以下三種模式(以 NousResearch 的 Hermes format 為例):

  • 自動(Auto):模型可以選擇調(diào)用函數(shù),也可以不調(diào)用。通過僅預(yù)填充回復(fù)前綴實現(xiàn):??<|im_start|>assistant??。
  • 必需(Required):模型必須調(diào)用一個函數(shù),但具體調(diào)用哪個不受限制。通過預(yù)填充至工具調(diào)用token實現(xiàn):??<|im_start|>assistant<tool_call>??。
  • 指定(Specified):模型必須從一個特定的子集中調(diào)用函數(shù)。通過預(yù)填充至函數(shù)名的開頭實現(xiàn):??<|im_start|>assistant<tool_call>{"name": "browser_"}??。

利用這一點,我們通過直接遮蔽 token logits 來約束動作選擇。比如:當用戶提供新輸入時,Manus 必須立即回復(fù),而不是執(zhí)行動作。

我們還設(shè)計了具有一致性前綴的動作名稱,比如:所有瀏覽器相關(guān)的工具都以??browser_???開頭,而命令行工具則以 ??shell_ ??開頭。這使得我們能夠在特定狀態(tài)下,輕松地強制 AI 智能體只能從某一類工具中進行選擇,而無需使用有狀態(tài)的 logits 處理器。

這些設(shè)計有助于確保 Manus 的 AI 智能體 loop 在模型驅(qū)動的架構(gòu)下,依然保持可靠穩(wěn)定。

3、將文件系統(tǒng)作為上下文

盡管現(xiàn)代前沿大模型已經(jīng)能夠支持高達 128K 甚至更長的上下文窗口,但在實際的 AI 智能體應(yīng)用場景中,這往往仍然不夠,甚至有時會成為負擔。以下是三個常見的痛點:

  • 觀測結(jié)果過于龐大

當 AI 智能體與網(wǎng)頁、PDF 等非結(jié)構(gòu)化數(shù)據(jù)交互時,觀測結(jié)果可能極其龐大,很容易超出上下文長度的限制。

  • 模型性能下降

即使模型在技術(shù)上支持長上下文窗口,其性能通常會在上下文長度超過一定閾值后顯著下降。

  • 成本高昂

長輸入的成本非常高,即使有前綴緩存,你仍然需要為每個 token 的傳輸和預(yù)填充支付費用。

為了解決這些問題,許多 AI 智能體系統(tǒng)采用了上下文截斷或壓縮策略。然而,過于激進的壓縮不可避免地會導(dǎo)致信息丟失。這是一個根本性問題,因為 AI 智能體需要基于所有先前的狀態(tài)來預(yù)測下一個動作,而你無法可靠地預(yù)測哪些觀測結(jié)果在未來會變得至關(guān)重要。從邏輯上講,任何不可逆的壓縮都伴隨著風(fēng)險。

第一、文件系統(tǒng)作為終極上下文

因此,我們將文件系統(tǒng)視為 Manus 的終極上下文解決方案。文件系統(tǒng)具有以下優(yōu)勢:


Manus 揭秘自己的七大核心技術(shù):上下文工程架構(gòu)設(shè)計與落地經(jīng)驗-AI.x社區(qū)

  • 無限容量:文件系統(tǒng)的容量幾乎是無限的。
  • 天然持久:文件系統(tǒng)是持久化的,數(shù)據(jù)不會因為上下文的限制而丟失。
  • 直接操作:AI 智能體可以直接操作文件系統(tǒng),按需讀寫文件。

模型不僅將文件系統(tǒng)用作存儲,更是將其視為一個結(jié)構(gòu)化的外部記憶體。通過這種方式,模型可以按需讀寫文件,而不是將所有信息都保留在上下文中。

第二、可恢復(fù)的壓縮策略

我們的壓縮策略始終被設(shè)計為可恢復(fù)的,比如:

  • 網(wǎng)頁內(nèi)容:只要保留了網(wǎng)頁的 URL,其內(nèi)容就可以從上下文中丟棄。
  • 文檔路徑:只要文檔在其沙箱中的路徑可用,其內(nèi)容也可以被省略。

通過這種方式,Manus 可以在不永久丟失信息的前提下,有效縮減上下文長度。

第三、對狀態(tài)空間模型的思考

在開發(fā)此功能時,我常常思考,如何讓一個狀態(tài)空間模型(SSM)在 AI 智能體場景中有效工作。與 Transformer 不同,SSM 缺乏全局注意力,難以處理長程的回溯依賴。但如果它們能夠掌握基于文件的記憶——將長期狀態(tài)外化,而不是保留在上下文中——那么它們的速度和效率或許能開啟一類全新的 AI 智能體。具備 AI 智能體能力的 SSM,或許才是 Neural Turing Machines 真正的繼承者。

4、通過“復(fù)述”來操控注意力

如果你使用過 Manus,可能已經(jīng)注意到一個有趣的現(xiàn)象:在處理復(fù)雜任務(wù)時,Manus 會創(chuàng)建一個名為 ??todo.md ??的文件,并隨著任務(wù)的進展逐步更新它,勾掉已完成的項。這并非只是為了看起來“可愛”,而是一種精心設(shè)計的注意力操控機制。


Manus 揭秘自己的七大核心技術(shù):上下文工程架構(gòu)設(shè)計與落地經(jīng)驗-AI.x社區(qū)

在 Manus 中,一個典型任務(wù)平均需要約50次工具調(diào)用。這是一個相當長的循環(huán),由于 Manus 依賴大模型進行決策,很容易出現(xiàn)偏離主題或忘記早期目標的問題,尤其是在長上下文或復(fù)雜任務(wù)中。

通過不斷更新待辦事項列表,Manus 實際上是在將任務(wù)目標“復(fù)述”到上下文的末尾。這將全局計劃注入到模型的近期注意力范圍,從而避免“中間遺忘”(lost-in-the-middle)問題,并減少目標偏離。實際上,這是一種用自然語言引導(dǎo)自身注意力的方式,使其聚焦于任務(wù)目標,而無需依賴特殊的架構(gòu)。

5、保留出錯記錄

 AI 智能體會犯錯,這不是一個缺陷,而是現(xiàn)實的一部分。語言模型可能會產(chǎn)生幻覺,運行環(huán)境可能會返回錯誤,外部工具可能會出現(xiàn)故障,各種意想不到的邊界情況也屢見不鮮。在多步驟任務(wù)中,失敗并不是例外,而是整個流程的組成部分。

然而,一個常見的做法是隱藏這些錯誤:清理錯誤痕跡、重試動作,或者重置模型狀態(tài),然后將其交給所謂的“溫度(Temperature)”參數(shù)來調(diào)整。這種做法看似更安全、更可控,但卻有代價:它消除了失敗的記錄,也就抹去了過往行動的證據(jù)。而沒有這些證據(jù),模型就無法從中學(xué)習(xí)和適應(yīng)。


Manus 揭秘自己的七大核心技術(shù):上下文工程架構(gòu)設(shè)計與落地經(jīng)驗-AI.x社區(qū)

根據(jù)我們的經(jīng)驗,提升 AI 智能體行為表現(xiàn)最有效的方法之一其實非常簡單:將失敗的嘗試保留在上下文中。當模型看到一個失敗的動作——以及由此產(chǎn)生的觀測結(jié)果或堆棧跟蹤(stack trace)——它會隱式地更新其內(nèi)部認知,改變對相似動作的先驗判斷,從而減少重復(fù)犯同樣錯誤的可能性。

事實上,我們認為錯誤恢復(fù)能力是真正 AI 智能體行為最明確的標志之一。然而,在大多數(shù)學(xué)術(shù)研究和公開基準測試中,這一點仍然沒有得到充分的體現(xiàn),它們往往只關(guān)注理想條件下的任務(wù)成功率。

6、不要陷入 Few-Shot 陷阱

Few-shot Prompting 是一種常用技術(shù),用于通過少量示例提升大語言模型的輸出表現(xiàn)。然而,在構(gòu)建 AI 智能體系統(tǒng)時,它可能會帶來一些意想不到的問題。

語言模型本質(zhì)上是出色的模仿者,它們會學(xué)習(xí)并模仿上下文中呈現(xiàn)的行為模式。如果上下文中充斥著大量相似的“動作-觀測結(jié)果”對,模型往往會傾向于遵循這些模式,即使這些模式已經(jīng)不再是最優(yōu)選擇。

這在涉及重復(fù)性決策或動作的任務(wù)中尤其危險。比如 :在使用 Manus 協(xié)助審閱 20 份簡歷時,AI 智能體可能會陷入一種慣性節(jié)奏,僅僅因為它在上下文中看到了類似的行為,就不斷重復(fù)相似的動作。這不僅會導(dǎo)致行為漂移和過度泛化,有時甚至?xí)a(chǎn)生幻覺。


Manus 揭秘自己的七大核心技術(shù):上下文工程架構(gòu)設(shè)計與落地經(jīng)驗-AI.x社區(qū)

為了解決這一問題,Manus 在動作和觀測結(jié)果中引入了少量結(jié)構(gòu)化的變動,比如:使用不同的序列化模板、變換措辭、在順序或格式上引入微小的噪音。這種受控的隨機性有助于打破單一的模式,調(diào)整模型的注意力,使其更加靈活。

簡而言之,不要讓自己陷入“少樣本”的思維定勢中。上下文的模式越單一,AI 智能體的行為就越脆弱。多樣化是提升 AI 智能體穩(wěn)定性和適應(yīng)性的關(guān)鍵。

7、上下文工程:AI 智能體系統(tǒng)的核心

上下文工程雖然還是一門新興學(xué)科,但對于 AI 智能體系統(tǒng)來說,它已經(jīng)變得至關(guān)重要。無論模型變得多么強大、快速或低成本,都無法替代對記憶、環(huán)境和反饋的需求。你如何塑造上下文,最終決定了AI 智能體的行為方式:它的運行速度、恢復(fù)能力和擴展?jié)摿Α?/p>

第一、Manus 的經(jīng)驗

在 Manus,我們通過不斷的重構(gòu)、失敗的嘗試以及面向數(shù)百萬用戶的真實世界測試,才逐步積累了這些寶貴的經(jīng)驗。我們分享的這些經(jīng)驗并非放之四海而皆準的真理,但它們對 Manus 來說是行之有效的。如果這些經(jīng)驗?zāi)軒椭銣p少哪怕一次痛苦的迭代,那么我們的分享就達到了目的。

第二、AI 智能體的未來

AI 智能體的未來將由一個個精心設(shè)計的上下文構(gòu)建而成。希望你能精心設(shè)計它們,讓AI 智能體發(fā)揮出最大的潛力。


本文轉(zhuǎn)載自???玄姐聊AGI??  作者:玄姐

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
已于2025-7-22 17:40:59修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦