用「傳心術(shù)」替代「對話」,清華大學(xué)聯(lián)合無問芯穹、港中文等機構(gòu)提出Cache-to-Cache模型通信新范式
隨著大語言模型的快速進步,為了適應(yīng)越來越多樣的工作場景,模型越來越多在指定場景進行針對性訓(xùn)練,例如代碼、數(shù)學(xué)計算、視覺理解、邊緣計算等。而在面對復(fù)雜任務(wù)與特定場景時,通過多智能體進行探索、決策、信息交換,可以實現(xiàn)相比單智能體更好的綜合表現(xiàn)。
在多智能體系統(tǒng)中,現(xiàn)有的智能體多以 Text to Text(T2T)方式進行交流,即通過生成交流文本進行智能體之間的信息傳遞,而這種方式則會帶來信息丟失(多維語義被壓縮到一維文字)、語義模糊 [3][4]、巨大延遲(逐個 token 生成)三大問題?;诖藖碜郧迦A大學(xué)、無問芯穹、香港中文大學(xué)、上海人工智能實驗室和上海交通大學(xué)的研究團隊在論文中創(chuàng)新提出了 Cache to Cache(C2C)方式的信息傳遞,將模型的 KV-Cache 作為傳播媒介,實現(xiàn)了直接的「腦對腦」交流,相比 T2T 的對話交流實現(xiàn)了 3%-5% 的正確率提升以及平均兩倍的速度提升,為多智能體系統(tǒng)提供了一種全新的通信范式。
論文的核心貢獻在于:
- 驗證了超越文本的模型間通信的可行性
- 提出了以 KV-Cache 作為媒介進行通信的方案 - C2C
- 為多智能體通信提供了新的技術(shù)基礎(chǔ)

a) T2T 通過顯式文本生成傳遞信息 b) C2C 直接將不同模型的 KV-Cache 進行投影與融合
本工作現(xiàn)已開源,歡迎交流討論。

- 代碼鏈接:https://github.com/thu-nics/C2C
- 主頁鏈接:https://github.com/thu-nics
- 論文鏈接: https://arxiv.org/pdf/2510.03215
背景:現(xiàn)有文本通信的局限性
在面對復(fù)雜任務(wù)與特定場景時,多智能體系統(tǒng)能夠展現(xiàn)出超越單智能體的顯著優(yōu)勢。然而,現(xiàn)有的 Text to Text(T2T)極大地限制了模型間的信息交流,尤其是在傳遞具有豐富語義的上下文時,產(chǎn)生了以下三大問題:
1. 信息丟失:作為低帶寬的傳播媒介,在將信息壓縮為一維文本序列并輸出時,很容易造成高維語義降維時的信息丟失。
2. 語義模糊:自然語言本身包含的模糊表達,盡管 MCP 等智能體交流協(xié)議希望可以標準化文本信息 [3][4],但是固定的模版依舊難以滿足靈活、開放的協(xié)作場景。
3. 巨大延遲:T2T 傳遞采取逐個 token 輸出,極大地限制了通信速度。

核心洞見:KV-Cache 的獨特優(yōu)勢
KV-Cache 天然包含模型對話過程中的多維語義信息,無需額外二次處理。通過預(yù)實驗,我們發(fā)現(xiàn):
1. 在相同文本長度下,優(yōu)化后的 KV-Cache 能夠顯著提升模型的準確率;
2. 不同模型之間的 KV-Cache 可以進行相互轉(zhuǎn)換與傳遞,具備良好的通用性;
3. 不同模型針對相同上下文會生成各自獨特的 KV-Cache 表示,體現(xiàn)了模型間能力的互補性。
此外,KV-Cache 在并行處理方面具有天然優(yōu)勢,能夠精準彌補現(xiàn)有 T2T(Text-to-Text)方式的不足。例如,KV-Cache 可通過投影對不同詞元實現(xiàn)完全并行的信息交流,有效避免低效的一維文本輸出流程。
基于上述優(yōu)勢,我們團隊探索了以 KV-Cache 為媒介的模型通信方式。實驗表明,KV-Cache 不僅拓展了模型間交流的表達空間,還顯著提升了效率和可擴展性。

源模型、目標模型以及轉(zhuǎn)換后KV-Cache的t-SNE圖

KV-Cache 優(yōu)化實驗
深入解析:C2C 直接語義通信的實現(xiàn)路徑
1. Sharer 與 Receiver
團隊將提供額外上下文理解的模型定義為 Sharer(分享者),而負責(zé)接收完整上下文并結(jié)合這些理解生成回復(fù)的模型定義為 Receiver(接收者)。


2. 核心機制:C2C-Fuser
C2C 的核心在于 KV-Cache 的融合。為此,我們設(shè)計了融合器 F 以及層映射策略 G。
- 在 prefill 階段,第 n 層的融合器 F (n) 會用 Receiver 的第 n 層 KV 和 Sharer 的第 G (n) 層 KV 進行融合,生成新的 KV 表示。
- 在 解碼階段,模型則利用融合后的 KV-Cache 和當(dāng)前前綴,進行自回歸生成,實現(xiàn)信息的有效利用。

3. 融合器設(shè)計:殘差式信息注入
為防止融合過程破壞 Receiver 原有語義,F(xiàn)user 采用殘差融合結(jié)構(gòu),分為投影層、動態(tài)權(quán)重層和可學(xué)習(xí)門控三部分。
- 投影層:將兩側(cè) KV 在頭 / 通道維度拼接,通過線性投影與特征融合映射到統(tǒng)一表征空間;實現(xiàn)初步的信息整合;
- 動態(tài)權(quán)重層:用輸入感知的 head-modulation 對投影后的各注意力頭 / 通道做自適應(yīng)加權(quán);促使模型可以判斷:在何時應(yīng)當(dāng)保留 Receiver 的輸入,何時應(yīng)當(dāng)增強 Sharer 的引導(dǎo);
- 可學(xué)習(xí)門控:每層有可訓(xùn)練門控,使用帶溫度退火的 Gumbel-sigmoid,從開始訓(xùn)練時的可微加權(quán)平滑過渡到推理時的 0/1 決策。最終以殘差形式與 Receiver 原 KV 相加,保留原始表征;保證了訓(xùn)練的有效性以及 Receiver 輸出的穩(wěn)定性。
這樣可以自適應(yīng)地將 Sharer 的信息以殘差方式注入 Receiver,實現(xiàn)更有效的信息整合與傳遞。
4. 模型對齊:跨模型、跨層級的映射
為保證不同模型(系列、尺寸)之間 KV 表示的兼容性,C2C 引入模型對齊機制。
- Token 對齊:將 Receiver 的每個 token 解碼為字符串,再用 Sharer 的分詞器重新編碼;遇到一對多映射時,選取覆蓋字符串最長的 Sharer token 以最大限度保障信息精準傳遞。
- Layer 對齊(也即層映射策略):采用「末端對齊」策略 —— 先對齊兩模型的最頂層,然后按逆序逐層對齊直到較淺模型的第一層,優(yōu)先保障深層語義的融合傳輸。
5. 訓(xùn)練框架:專注于 C2C Fuser 模塊
在訓(xùn)練過程中,團隊凍結(jié) Sharer 和 Receiver 的參數(shù),僅訓(xùn)練 C2C 融合器模塊,采用類似 SFT 的 next token prediction 損失。訓(xùn)練流程包括前向傳播、KV-Cache 融合,以及最終的監(jiān)督學(xué)習(xí)與傳播,確保 C2C 能穩(wěn)定高效地實現(xiàn)模型間的信息傳遞。
結(jié)果與分析:C2C 的性能與效率優(yōu)勢
訓(xùn)練數(shù)據(jù):OpenHermes2.5 [14]
為確保泛化能力,團隊在通用微調(diào)語料庫 OpenHermes2.5 [14] 中選取前 50 萬個樣本來訓(xùn)練 C2C Fusers。
模型組合:
涵蓋不同系列(Qwen2.5 [5]、Qwen3 [6]、Llama3.2 [7]、Gemma3 [8] )、不同規(guī)模(0.6B~14B)、不同專業(yè)領(lǐng)域(通用、代碼、數(shù)學(xué))以及不同訓(xùn)練階段(預(yù)訓(xùn)練、指令微調(diào))模型。例如,用 Qwen2.5-Math 作為 Sharer,Qwen3-0.6B 作為 Receiver,測試學(xué)科知識傳遞。
基線方法:
- T2T:Sharer 生成解析文本,Receiver 接收解析文本以及原問題后進行回答
- query-level routing:根據(jù)問題難度動態(tài)選擇 Sharer 或 Receiver 回答
- 單模型:Sharer 和 Receiver 分別單獨回答
評測基準:
- OpenBookQA [9]:考察模型對科學(xué)常識和開放性知識推理能力
- MMLU-Redux [10]:考察多領(lǐng)域、多任務(wù)的專業(yè)知識理解與綜合能力
- ARC-C [11]:考察復(fù)雜科學(xué)推理任務(wù)
- C-Eval [12]:考察模型在中文環(huán)境下的多學(xué)科知識與應(yīng)用能力
整體表現(xiàn)

在主要評測基準上的測試結(jié)果,使用Qwen-0.6B作為Receiver
如表所示,C2C 在不同設(shè)置和基準上持續(xù)提升了 Receiver 的性能。
準確性提升:顯著超越個體與文本通信:
- 針對三種不同的 Sharer,分別觀察到 C2C 相比單個 Sharer 平均準確率提升 11.00%、9.64% 和 11.88%。
- 與 T2T 相比,C2C 的平均準確率分別額外提升了 5.36%、4.15% 和 3.06%。
效率增益:延遲大幅降低:
由于省去了中間文本消息的生成,相比 T2T,C2C 在推理時間上分別實現(xiàn)了約 3.46×、1.51× 和 14.41× 的加速。相較之下,query-level routing 更側(cè)重效率,但其準確率一般不超過兩個原始模型中的較好者。
值得注意的是,當(dāng)使用 Qwen3-4B Base 作為 Sharer 時,該模型生成的文本有時會忽視指令并超出預(yù)期長度,導(dǎo)致文本到文本通信時間顯著增長,而 C2C 能繞過該問題。這一設(shè)置展示了一個有趣的用例:即使是弱的 SFT 模型,也能幫助強大的預(yù)訓(xùn)練基礎(chǔ)模型更好地遵循指令。
泛化實驗
分別在規(guī)模擴展、序列長度擴展與不同模型組合三個層面上進行泛化實驗,結(jié)果說明 C2C 在三個層面上均能有效泛化,具體實驗結(jié)果詳見正文部分。
消融實驗

Single 表示在沒有 Sharer 的情況下對 Receiver 進行標準的完整微調(diào);Identical 表示 Sharer 與 Receiver 均為 Qwen3-0.6B 的 C2C 配置。
實驗結(jié)果說明 C2C 的改進并非單純來源于增大的可訓(xùn)練參數(shù)量或?qū)τ?xùn)練集的過擬合,而是來自異構(gòu) Sharer 提供的互補性上下文理解。即便是 Identical 相較于 Single 也有提升,表明 Cache 級別的自我通信(cache-level self-communication)能提供有益的輔助表征,這與在隱空間推理和循環(huán) Transformer 中觀察到的效應(yīng)一致 [15][16]。
未來展望
Cache to Cache 及其思想的應(yīng)用前景十分廣泛,可能的場景包括:
1. 多智能體系統(tǒng)中實現(xiàn)協(xié)作效率與效果的大幅提高。例如在一些多智能體系統(tǒng)的應(yīng)用中,可以進一步提升智能體系統(tǒng)響應(yīng)與處理速度,適配當(dāng)前快節(jié)奏、多需求的 AI 訓(xùn)練浪潮。
2. 多模態(tài)的便捷融合。借助 C2C 可以對齊并融合語言模型、視覺 - 語言模型(VLM)及視覺 - 語言 - 動作(VLA)策略的緩存,使視覺與語言上下文共同驅(qū)動更精確的理解與決策執(zhí)行。
3. 與推理加速方法整合。將 C2C 用于增強推測解碼(speculative decoding)、 token 級路由等方法中小模型的表現(xiàn),進一步降低延遲與推理成本。
4. 隱私感知的云 — 邊協(xié)作。云端模型將經(jīng)挑選的 KV-Cache 段傳輸?shù)竭叾四P?,以在不暴露原始文本的前提下提升邊端能力,減少帶寬并降低數(shù)據(jù)泄露風(fēng)險。
5. 高維語義空間的協(xié)作與推理。與隱空間推理結(jié)合后可以實現(xiàn)完全在高維語義空間的模型推理與溝通協(xié)作,有望進一步提升系統(tǒng)工作效率,減少計算開銷。
本文提出的 Cache-to-Cache(C2C)范式,成功實現(xiàn)了大模型間高效、通用的直接語義通信。其在性能、效率與泛化性上的優(yōu)異表現(xiàn)也讓我們期待,在智能體時代,C2C 有潛力成為構(gòu)建新一代多智能體系統(tǒng)的關(guān)鍵使能技術(shù)之一,推動其交流方式從低效的文本中轉(zhuǎn)邁向高效的「思想同步」。


































