用「傳心術(shù)」替代「對話」，清華大學(xué)聯(lián)合無問芯穹、港中文等機構(gòu)提出Cache-to-Cache模型通信新范式

2025-10-30 09:55:48

本文提出的 Cache-to-Cache（C2C）范式，成功實現(xiàn)了大模型間高效、通用的直接語義通信。

隨著大語言模型的快速進步，為了適應(yīng)越來越多樣的工作場景，模型越來越多在指定場景進行針對性訓(xùn)練，例如代碼、數(shù)學(xué)計算、視覺理解、邊緣計算等。而在面對復(fù)雜任務(wù)與特定場景時，通過多智能體進行探索、決策、信息交換，可以實現(xiàn)相比單智能體更好的綜合表現(xiàn)。

在多智能體系統(tǒng)中，現(xiàn)有的智能體多以 Text to Text（T2T）方式進行交流，即通過生成交流文本進行智能體之間的信息傳遞，而這種方式則會帶來信息丟失（多維語義被壓縮到一維文字）、語義模糊 [3][4]、巨大延遲（逐個 token 生成）三大問題?；诖藖碜郧迦A大學(xué)、無問芯穹、香港中文大學(xué)、上海人工智能實驗室和上海交通大學(xué)的研究團隊在論文中創(chuàng)新提出了 Cache to Cache（C2C）方式的信息傳遞，將模型的 KV-Cache 作為傳播媒介，實現(xiàn)了直接的「腦對腦」交流，相比 T2T 的對話交流實現(xiàn)了 3%-5% 的正確率提升以及平均兩倍的速度提升，為多智能體系統(tǒng)提供了一種全新的通信范式。

論文的核心貢獻在于：

驗證了超越文本的模型間通信的可行性
提出了以 KV-Cache 作為媒介進行通信的方案 - C2C
為多智能體通信提供了新的技術(shù)基礎(chǔ)

a) T2T 通過顯式文本生成傳遞信息 b) C2C 直接將不同模型的 KV-Cache 進行投影與融合

本工作現(xiàn)已開源，歡迎交流討論。

代碼鏈接：https://github.com/thu-nics/C2C
主頁鏈接：https://github.com/thu-nics
論文鏈接: https://arxiv.org/pdf/2510.03215

背景：現(xiàn)有文本通信的局限性

在面對復(fù)雜任務(wù)與特定場景時，多智能體系統(tǒng)能夠展現(xiàn)出超越單智能體的顯著優(yōu)勢。然而，現(xiàn)有的 Text to Text（T2T）極大地限制了模型間的信息交流，尤其是在傳遞具有豐富語義的上下文時，產(chǎn)生了以下三大問題：

1. 信息丟失：作為低帶寬的傳播媒介，在將信息壓縮為一維文本序列并輸出時，很容易造成高維語義降維時的信息丟失。

2. 語義模糊：自然語言本身包含的模糊表達，盡管 MCP 等智能體交流協(xié)議希望可以標準化文本信息 [3][4]，但是固定的模版依舊難以滿足靈活、開放的協(xié)作場景。

3. 巨大延遲：T2T 傳遞采取逐個 token 輸出，極大地限制了通信速度。

核心洞見：KV-Cache 的獨特優(yōu)勢

KV-Cache 天然包含模型對話過程中的多維語義信息，無需額外二次處理。通過預(yù)實驗，我們發(fā)現(xiàn)：

1. 在相同文本長度下，優(yōu)化后的 KV-Cache 能夠顯著提升模型的準確率；

2. 不同模型之間的 KV-Cache 可以進行相互轉(zhuǎn)換與傳遞，具備良好的通用性；

3. 不同模型針對相同上下文會生成各自獨特的 KV-Cache 表示，體現(xiàn)了模型間能力的互補性。

此外，KV-Cache 在并行處理方面具有天然優(yōu)勢，能夠精準彌補現(xiàn)有 T2T（Text-to-Text）方式的不足。例如，KV-Cache 可通過投影對不同詞元實現(xiàn)完全并行的信息交流，有效避免低效的一維文本輸出流程。

基于上述優(yōu)勢，我們團隊探索了以 KV-Cache 為媒介的模型通信方式。實驗表明，KV-Cache 不僅拓展了模型間交流的表達空間，還顯著提升了效率和可擴展性。

源模型、目標模型以及轉(zhuǎn)換后KV-Cache的t-SNE圖

KV-Cache 優(yōu)化實驗

深入解析：C2C 直接語義通信的實現(xiàn)路徑

1. Sharer 與 Receiver

團隊將提供額外上下文理解的模型定義為 Sharer（分享者），而負責(zé)接收完整上下文并結(jié)合這些理解生成回復(fù)的模型定義為 Receiver（接收者）。

2. 核心機制：C2C-Fuser

C2C 的核心在于 KV-Cache 的融合。為此，我們設(shè)計了融合器 F 以及層映射策略 G。

在 prefill 階段，第 n 層的融合器 F (n) 會用 Receiver 的第 n 層 KV 和 Sharer 的第 G (n) 層 KV 進行融合，生成新的 KV 表示。
在解碼階段，模型則利用融合后的 KV-Cache 和當(dāng)前前綴，進行自回歸生成，實現(xiàn)信息的有效利用。

3. 融合器設(shè)計：殘差式信息注入

為防止融合過程破壞 Receiver 原有語義，F(xiàn)user 采用殘差融合結(jié)構(gòu)，分為投影層、動態(tài)權(quán)重層和可學(xué)習(xí)門控三部分。

投影層：將兩側(cè) KV 在頭 / 通道維度拼接，通過線性投影與特征融合映射到統(tǒng)一表征空間；實現(xiàn)初步的信息整合；
動態(tài)權(quán)重層：用輸入感知的 head-modulation 對投影后的各注意力頭 / 通道做自適應(yīng)加權(quán)；促使模型可以判斷：在何時應(yīng)當(dāng)保留 Receiver 的輸入，何時應(yīng)當(dāng)增強 Sharer 的引導(dǎo)；
可學(xué)習(xí)門控：每層有可訓(xùn)練門控，使用帶溫度退火的 Gumbel-sigmoid，從開始訓(xùn)練時的可微加權(quán)平滑過渡到推理時的 0/1 決策。最終以殘差形式與 Receiver 原 KV 相加，保留原始表征；保證了訓(xùn)練的有效性以及 Receiver 輸出的穩(wěn)定性。

這樣可以自適應(yīng)地將 Sharer 的信息以殘差方式注入 Receiver，實現(xiàn)更有效的信息整合與傳遞。

4. 模型對齊：跨模型、跨層級的映射

為保證不同模型（系列、尺寸）之間 KV 表示的兼容性，C2C 引入模型對齊機制。

Token 對齊：將 Receiver 的每個 token 解碼為字符串，再用 Sharer 的分詞器重新編碼；遇到一對多映射時，選取覆蓋字符串最長的 Sharer token 以最大限度保障信息精準傳遞。
Layer 對齊（也即層映射策略）：采用「末端對齊」策略 —— 先對齊兩模型的最頂層，然后按逆序逐層對齊直到較淺模型的第一層，優(yōu)先保障深層語義的融合傳輸。

5. 訓(xùn)練框架：專注于 C2C Fuser 模塊

在訓(xùn)練過程中，團隊凍結(jié) Sharer 和 Receiver 的參數(shù)，僅訓(xùn)練 C2C 融合器模塊，采用類似 SFT 的 next token prediction 損失。訓(xùn)練流程包括前向傳播、KV-Cache 融合，以及最終的監(jiān)督學(xué)習(xí)與傳播，確保 C2C 能穩(wěn)定高效地實現(xiàn)模型間的信息傳遞。

結(jié)果與分析：C2C 的性能與效率優(yōu)勢

訓(xùn)練數(shù)據(jù)：OpenHermes2.5 [14]

為確保泛化能力，團隊在通用微調(diào)語料庫 OpenHermes2.5 [14] 中選取前 50 萬個樣本來訓(xùn)練 C2C Fusers。

模型組合：

涵蓋不同系列（Qwen2.5 [5]、Qwen3 [6]、Llama3.2 [7]、Gemma3 [8] ）、不同規(guī)模（0.6B～14B）、不同專業(yè)領(lǐng)域（通用、代碼、數(shù)學(xué)）以及不同訓(xùn)練階段（預(yù)訓(xùn)練、指令微調(diào)）模型。例如，用 Qwen2.5-Math 作為 Sharer，Qwen3-0.6B 作為 Receiver，測試學(xué)科知識傳遞。

基線方法：

T2T：Sharer 生成解析文本，Receiver 接收解析文本以及原問題后進行回答
query-level routing：根據(jù)問題難度動態(tài)選擇 Sharer 或 Receiver 回答
單模型：Sharer 和 Receiver 分別單獨回答

評測基準：

OpenBookQA [9]：考察模型對科學(xué)常識和開放性知識推理能力
MMLU-Redux [10]：考察多領(lǐng)域、多任務(wù)的專業(yè)知識理解與綜合能力
ARC-C [11]：考察復(fù)雜科學(xué)推理任務(wù)
C-Eval [12]：考察模型在中文環(huán)境下的多學(xué)科知識與應(yīng)用能力

整體表現(xiàn)

在主要評測基準上的測試結(jié)果，使用Qwen-0.6B作為Receiver

如表所示，C2C 在不同設(shè)置和基準上持續(xù)提升了 Receiver 的性能。

準確性提升：顯著超越個體與文本通信：

針對三種不同的 Sharer，分別觀察到 C2C 相比單個 Sharer 平均準確率提升 11.00%、9.64% 和 11.88%。
與 T2T 相比，C2C 的平均準確率分別額外提升了 5.36%、4.15% 和 3.06%。

效率增益：延遲大幅降低：

由于省去了中間文本消息的生成，相比 T2T，C2C 在推理時間上分別實現(xiàn)了約 3.46×、1.51× 和 14.41× 的加速。相較之下，query-level routing 更側(cè)重效率，但其準確率一般不超過兩個原始模型中的較好者。

值得注意的是，當(dāng)使用 Qwen3-4B Base 作為 Sharer 時，該模型生成的文本有時會忽視指令并超出預(yù)期長度，導(dǎo)致文本到文本通信時間顯著增長，而 C2C 能繞過該問題。這一設(shè)置展示了一個有趣的用例：即使是弱的 SFT 模型，也能幫助強大的預(yù)訓(xùn)練基礎(chǔ)模型更好地遵循指令。

泛化實驗

分別在規(guī)模擴展、序列長度擴展與不同模型組合三個層面上進行泛化實驗，結(jié)果說明 C2C 在三個層面上均能有效泛化，具體實驗結(jié)果詳見正文部分。

消融實驗

Single 表示在沒有 Sharer 的情況下對 Receiver 進行標準的完整微調(diào)；Identical 表示 Sharer 與 Receiver 均為 Qwen3-0.6B 的 C2C 配置。

實驗結(jié)果說明 C2C 的改進并非單純來源于增大的可訓(xùn)練參數(shù)量或?qū)τ?xùn)練集的過擬合，而是來自異構(gòu) Sharer 提供的互補性上下文理解。即便是 Identical 相較于 Single 也有提升，表明 Cache 級別的自我通信（cache-level self-communication）能提供有益的輔助表征，這與在隱空間推理和循環(huán) Transformer 中觀察到的效應(yīng)一致 [15][16]。

未來展望

Cache to Cache 及其思想的應(yīng)用前景十分廣泛，可能的場景包括：

1. 多智能體系統(tǒng)中實現(xiàn)協(xié)作效率與效果的大幅提高。例如在一些多智能體系統(tǒng)的應(yīng)用中，可以進一步提升智能體系統(tǒng)響應(yīng)與處理速度，適配當(dāng)前快節(jié)奏、多需求的 AI 訓(xùn)練浪潮。

2. 多模態(tài)的便捷融合。借助 C2C 可以對齊并融合語言模型、視覺 - 語言模型（VLM）及視覺 - 語言 - 動作（VLA）策略的緩存，使視覺與語言上下文共同驅(qū)動更精確的理解與決策執(zhí)行。

3. 與推理加速方法整合。將 C2C 用于增強推測解碼（speculative decoding）、 token 級路由等方法中小模型的表現(xiàn)，進一步降低延遲與推理成本。

4. 隱私感知的云 — 邊協(xié)作。云端模型將經(jīng)挑選的 KV-Cache 段傳輸?shù)竭叾四Ｐ?，以在不暴露原始文本的前提下提升邊端能力，減少帶寬并降低數(shù)據(jù)泄露風(fēng)險。

5. 高維語義空間的協(xié)作與推理。與隱空間推理結(jié)合后可以實現(xiàn)完全在高維語義空間的模型推理與溝通協(xié)作，有望進一步提升系統(tǒng)工作效率，減少計算開銷。

本文提出的 Cache-to-Cache（C2C）范式，成功實現(xiàn)了大模型間高效、通用的直接語義通信。其在性能、效率與泛化性上的優(yōu)異表現(xiàn)也讓我們期待，在智能體時代，C2C 有潛力成為構(gòu)建新一代多智能體系統(tǒng)的關(guān)鍵使能技術(shù)之一，推動其交流方式從低效的文本中轉(zhuǎn)邁向高效的「思想同步」。

責(zé)任編輯：張燕妮來源：機器之心

AI 模型通信

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p