偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="hqbhz"><strike id="hqbhz"></strike></tfoot>

<code id="hqbhz"><strong id="hqbhz"></strong></code>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

CompLLM：無(wú)需微調(diào)，4倍加速長(zhǎng)上下文問(wèn)答的軟壓縮新范式

作者：肆零柒 2025-10-14 10:03:11

長(zhǎng)上下文問(wèn)答的 O(N2) 瓶頸如何破？Amazon 新作 CompLLM 提出分段軟壓縮，在不微調(diào) LLM 的前提下，實(shí)現(xiàn) 4 倍 TTFT 加速、KV Cache 減半，且壓縮表示可跨查詢復(fù)用——RAG 與代碼助手場(chǎng)景的工程利器。

大家好，我是肆〇柒。今天要介紹的是一項(xiàng)來(lái)自 Amazon 與中佛羅里達(dá)大學(xué)計(jì)算機(jī)視覺(jué)研究中心（Center For Research in Computer Vision, University of Central Florida）的最新研究成果——CompLLM。這項(xiàng)工作直面長(zhǎng)上下文問(wèn)答中的核心瓶頸：自注意力機(jī)制帶來(lái)的 O(N2) 計(jì)算開(kāi)銷。研究團(tuán)隊(duì)沒(méi)有追求更高的壓縮率，而是從工程可部署性出發(fā)，設(shè)計(jì)了一種分段獨(dú)立壓縮的軟壓縮方法，在不修改原生 LLM 的前提下，實(shí)現(xiàn)了高達(dá) 4 倍的首令牌加速、50% 的 KV Cache 節(jié)省，并在 128k tokens 的極限場(chǎng)景中反超原始模型性能。對(duì)于正在為 RAG 延遲、代碼庫(kù)加載慢而頭疼的工程師來(lái)說(shuō)，這或許正是你需要的解決方案。

長(zhǎng)上下文的"甜蜜負(fù)擔(dān)"——從32秒到7.5秒的質(zhì)變

在部署RAG系統(tǒng)時(shí)，你是否經(jīng)歷過(guò)這樣的場(chǎng)景：用戶上傳了一份50頁(yè)的技術(shù)文檔進(jìn)行問(wèn)答，系統(tǒng)響應(yīng)時(shí)間從2秒飆升至32秒，吞吐量下降80%，用戶體驗(yàn)急劇惡化？這正是LLM處理長(zhǎng)上下文時(shí)面臨的核心挑戰(zhàn)——自注意力機(jī)制的O(N²)復(fù)雜度導(dǎo)致計(jì)算成本呈二次方增長(zhǎng)。當(dāng)上下文達(dá)到128k tokens時(shí)（相當(dāng)于一本中等篇幅的小說(shuō)），標(biāo)準(zhǔn)LLM的KV cache操作將高達(dá)16,384M，使推理過(guò)程變得極其昂貴甚至不可行。

高上下文長(zhǎng)度下CompLLM帶來(lái)的顯著加速與性能提升

上圖展示了一個(gè)令人振奮的事實(shí)：在128k tokens的極限場(chǎng)景下，CompLLM不僅將Time To First Token (TTFT)加速4倍（從30秒降至7.5秒），還能在長(zhǎng)上下文中反超原始模型的性能表現(xiàn)。這一突破源于對(duì)現(xiàn)有技術(shù)瓶頸的精準(zhǔn)把握——現(xiàn)有壓縮方法通常將上下文作為單一單元壓縮，導(dǎo)致二次壓縮復(fù)雜度、無(wú)法跨查詢重用計(jì)算、難以擴(kuò)展至超長(zhǎng)上下文。CompLLM的創(chuàng)新點(diǎn)在于摒棄"整體壓縮"，采用"分段獨(dú)立壓縮"策略，實(shí)現(xiàn)了效率、可擴(kuò)展性和可復(fù)用性的完美統(tǒng)一。

CompLLM 的核心思想：分而治之的軟壓縮

CompLLM的核心突破在于將上下文分割為獨(dú)立段落（每段≤20 tokens），并為每段生成概念嵌入（Concept Embeddings, CEs）。這種看似簡(jiǎn)單的改變，卻解決了長(zhǎng)上下文處理的三大核心痛點(diǎn)。

詞元嵌入與概念嵌入的概念化對(duì)比

上圖直觀展示了CompLLM的工作原理：詞元嵌入（Token Embeddings, TEs）是LLM嵌入表中預(yù)定義的離散向量，數(shù)量受限于約200k個(gè)token（如Gemma3模型有262k個(gè)TEs，Qwen3-4B有151k個(gè)）；而CEs則是位于相同特征空間但連續(xù)的表示，不受數(shù)量限制。關(guān)鍵突破在于，CEs無(wú)需微調(diào)即可直接輸入LLM——這是因?yàn)長(zhǎng)LM的嵌入層本質(zhì)上是線性投影，只要CEs保持在相同特征空間，LLM就能正確處理。例如，"golden dogs are called"這4個(gè)TEs可壓縮為2個(gè)CEs，仍能生成LLM retrievers的正確答案。

CompLLM的架構(gòu)設(shè)計(jì)極為精巧：在原生LLM基礎(chǔ)上附加一個(gè)LoRA（Low-Rank Adaptation）和單一線性層。這種設(shè)計(jì)巧妙復(fù)用了LLM的參數(shù)，顯著減少了額外存儲(chǔ)開(kāi)銷，同時(shí)保持了原生LLM的完整性——當(dāng)不需要壓縮時(shí)，系統(tǒng)可以無(wú)縫切換回標(biāo)準(zhǔn)LLM模式。例如，當(dāng)壓縮率為2時(shí)，CompLLM將每20個(gè)TEs壓縮為10個(gè)CEs，大幅減少了輸入序列長(zhǎng)度。

三大關(guān)鍵特性詳解：同一設(shè)計(jì)思想的自然延伸

效率：線性擴(kuò)展的壓縮過(guò)程

CompLLM的效率優(yōu)勢(shì)源于其分段壓縮機(jī)制。在傳統(tǒng)軟壓縮方法中，每個(gè)token需要關(guān)注之前的所有token，導(dǎo)致O(N²)的二次復(fù)雜度；而在CompLLM中，每個(gè)token僅需關(guān)注其所在段落內(nèi)的前序token，使得段內(nèi)復(fù)雜度為O(S²)（S為段長(zhǎng)），整體復(fù)雜度為O(NS)，實(shí)現(xiàn)了線性擴(kuò)展。

不同上下文長(zhǎng)度下的推理速度對(duì)比

上圖的實(shí)驗(yàn)數(shù)據(jù)揭示了三個(gè)關(guān)鍵規(guī)律：(1)對(duì)于僅生成1個(gè)token的場(chǎng)景(TTFT)，加速比隨上下文增長(zhǎng)漸近趨近于4倍(C2)；(2)對(duì)于生成10k tokens的長(zhǎng)序列，加速比漸近趨近于2倍(C)；(3)壓縮時(shí)間占比隨上下文增長(zhǎng)而急劇下降，當(dāng)上下文超過(guò)50k tokens時(shí)幾乎可忽略。這完美驗(yàn)證了理論分析：KV cache預(yù)填充具有二次復(fù)雜度O(N²)，而壓縮過(guò)程僅具線性復(fù)雜度O(NS)。從計(jì)算復(fù)雜度看，標(biāo)準(zhǔn)LLM的KV cache預(yù)填充成本為O(N²)，而CompLLM將其降至O(N²/C²)。當(dāng)C=2時(shí)，128k tokens上下文的KV cache操作從16,384M降至4,096M，減少75%。

可擴(kuò)展性：從小訓(xùn)練到大推理的飛躍

CompLLM展現(xiàn)出驚人的可擴(kuò)展性：盡管訓(xùn)練時(shí)使用的序列長(zhǎng)度不超過(guò)2k tokens，但模型能夠有效壓縮長(zhǎng)達(dá)100k tokens的上下文，且在性能上不降反升。這一特性在長(zhǎng)上下文問(wèn)答任務(wù)中尤為寶貴，因?yàn)閷?shí)際應(yīng)用場(chǎng)景中的上下文長(zhǎng)度往往遠(yuǎn)超訓(xùn)練數(shù)據(jù)。

CompLLM的三大特性實(shí)為同一設(shè)計(jì)思想的自然延伸：分段獨(dú)立壓縮。效率源于段內(nèi)注意力復(fù)雜度O(S²)與整體線性擴(kuò)展O(NS)；可擴(kuò)展性源于訓(xùn)練僅需短序列(≤2k tokens)而推理支持100k+ tokens；可復(fù)用性則直接來(lái)自段落獨(dú)立性。這三者共同構(gòu)成一個(gè)自洽系統(tǒng)——線性復(fù)雜度使超長(zhǎng)上下文處理可行，段落獨(dú)立性使壓縮表示可跨查詢復(fù)用，而無(wú)需修改原生LLM的架構(gòu)確保了部署簡(jiǎn)便性。

不同上下文長(zhǎng)度下四個(gè)數(shù)據(jù)集的性能對(duì)比

上圖展示了CompLLM在長(zhǎng)上下文中的性能優(yōu)勢(shì)：當(dāng)上下文長(zhǎng)度超過(guò)50k tokens時(shí)，CompLLM不僅能夠維持與未壓縮基線相當(dāng)?shù)男阅埽踔猎谀承┤蝿?wù)上表現(xiàn)更優(yōu)。研究者推測(cè)，這是因?yàn)檫m當(dāng)減少輸入token數(shù)量可以減輕"注意力稀釋"（attention dilution）現(xiàn)象，使模型能夠更聚焦于關(guān)鍵信息。當(dāng)輸入序列過(guò)長(zhǎng)時(shí)，注意力權(quán)重被迫分散到大量無(wú)關(guān)token上，導(dǎo)致關(guān)鍵信息被稀釋。通過(guò)壓縮，CompLLM將注意力集中到更少但信息更密集的CEs上，使模型能更聚焦于關(guān)鍵語(yǔ)義。這解釋了為何適當(dāng)減少輸入token不僅加速推理，還能提升模型表現(xiàn)——在信息過(guò)載的長(zhǎng)上下文中，少即是多。

可復(fù)用性：跨查詢的壓縮表示共享

可復(fù)用性是CompLLM最具實(shí)用價(jià)值的特性之一。由于每個(gè)段落的壓縮表示獨(dú)立于其他段落，因此在不同查詢中可以重復(fù)利用已壓縮的表示。例如，當(dāng)用戶先查詢文檔A和B，再查詢文檔A和C時(shí)，文檔A的壓縮表示可以直接復(fù)用，無(wú)需重新計(jì)算。

這一特性在實(shí)際應(yīng)用中具有廣泛價(jià)值：

在RAG系統(tǒng)中，文檔可以離線壓縮并存儲(chǔ)，當(dāng)用戶查詢時(shí)只需加載相關(guān)壓縮表示
在代碼助手場(chǎng)景中，當(dāng)代碼庫(kù)的某個(gè)文件被修改時(shí)，只需重新壓縮該文件的修改部分，而非整個(gè)代碼庫(kù)
在網(wǎng)絡(luò)智能體處理HTML頁(yè)面時(shí)，靜態(tài)內(nèi)容的壓縮表示可以緩存并在后續(xù)查詢中復(fù)用

在RAG系統(tǒng)中，可復(fù)用性帶來(lái)顯著收益：假設(shè)文檔庫(kù)含1000個(gè)文檔(每文檔1k tokens)，用戶查詢涉及50個(gè)文檔。無(wú)壓縮時(shí)，每次查詢需處理50k tokens；使用CompLLM后，文檔可離線壓縮(50k tokens→25k CEs)，且90%的文檔在后續(xù)查詢中可復(fù)用。實(shí)測(cè)表明，這使系統(tǒng)吞吐量提升3.5倍，同時(shí)將GPU內(nèi)存需求降低50%，特別適合高并發(fā)場(chǎng)景。

訓(xùn)練與推理機(jī)制

CompLLM的訓(xùn)練協(xié)議精心設(shè)計(jì)，以反映真實(shí)應(yīng)用場(chǎng)景：上下文被壓縮（可離線計(jì)算），而問(wèn)題保持原始token形式（在線提供）。這種設(shè)計(jì)符合實(shí)際部署需求——上下文通常較長(zhǎng)且可預(yù)先獲取，而問(wèn)題則較短且實(shí)時(shí)提供。

CompLLM的上下文問(wèn)答訓(xùn)練協(xié)議

CompLLM的訓(xùn)練協(xié)議精心反映了真實(shí)應(yīng)用場(chǎng)景：上下文可離線壓縮，問(wèn)題需實(shí)時(shí)處理。上圖揭示了關(guān)鍵設(shè)計(jì)：(1)僅壓縮上下文，問(wèn)題保持原始token；(2)蒸餾目標(biāo)聚焦答案部分的隱藏狀態(tài)，而非輸出分布；(3)損失僅計(jì)算在答案嵌入輸出上。這種設(shè)計(jì)提供了比輸出分布更密集的信號(hào)——例如，當(dāng)答案平均149 tokens（Gemma3-4B）時(shí)，模型能從每個(gè)答案token獲取訓(xùn)練信號(hào)，而非僅依賴最終輸出。

在訓(xùn)練過(guò)程中，CompLLM采用了一種獨(dú)特的蒸餾目標(biāo)：不是匹配輸出分布，而是對(duì)齊答案token在各層的隱藏狀態(tài)。具體而言，系統(tǒng)最小化教師模型（未壓縮）和學(xué)生模型（壓縮后）在答案部分的隱藏狀態(tài)之間的Smooth-L1損失，并通過(guò)層歸一化補(bǔ)償跨層激活范數(shù)的差異。這種設(shè)計(jì)提供了比輸出分布更密集、更豐富的信號(hào)，使壓縮表示能夠保留生成答案所需的關(guān)鍵信息。

關(guān)鍵的設(shè)計(jì)細(xì)節(jié)是，損失僅計(jì)算在答案嵌入的輸出上，而忽略其他嵌入對(duì)應(yīng)輸出。這種選擇為訓(xùn)練提供了更密集豐富的信號(hào)，因?yàn)槟Ｐ椭恍桕P(guān)注生成答案所需的表示質(zhì)量，而不必完美重建整個(gè)上下文。CompLLM訓(xùn)練使用的答案長(zhǎng)度平均為149 tokens（Gemma3-4B）和273 tokens（Qwen3-4B），表明模型在相對(duì)較短的答案上進(jìn)行了訓(xùn)練，卻能在長(zhǎng)上下文問(wèn)答中表現(xiàn)出色。

推理流程簡(jiǎn)潔高效：首先將上下文分割為不超過(guò)20 tokens的段落，然后對(duì)每段獨(dú)立應(yīng)用CompLLM生成概念嵌入，最后將這些CEs與問(wèn)題的原始TEs一起輸入LLM進(jìn)行推理。當(dāng)壓縮率為2時(shí)，每20個(gè)TEs被壓縮為10個(gè)CEs，顯著減少了輸入序列長(zhǎng)度。

實(shí)驗(yàn)驗(yàn)證與性能收益

速度與資源優(yōu)化

CompLLM在性能優(yōu)化方面表現(xiàn)卓越。在長(zhǎng)上下文場(chǎng)景下（>50k tokens），TTFT最高可加速4倍，KV cache大小減少50%，下一token生成延遲降低2倍。這些優(yōu)化對(duì)于實(shí)際部署至關(guān)重要，特別是在資源受限的環(huán)境中。

不同上下文長(zhǎng)度（x軸）和生成token數(shù)量下，有無(wú)CompLLM的推理速度對(duì)比。壓縮率C=2

上圖的實(shí)驗(yàn)數(shù)據(jù)清晰展示了這一優(yōu)勢(shì)：隨著上下文長(zhǎng)度增加，CompLLM帶來(lái)的加速效果愈發(fā)顯著。對(duì)于僅生成1個(gè)token的場(chǎng)景（TTFT），加速比漸近趨近于4倍；對(duì)于生成10k tokens的長(zhǎng)序列，加速比則漸近趨近于2倍。值得注意的是，壓縮時(shí)間在長(zhǎng)上下文中占比極小，進(jìn)一步驗(yàn)證了其線性復(fù)雜度的優(yōu)勢(shì)。

準(zhǔn)確率表現(xiàn)

CompLLM不僅提升了推理速度，還在準(zhǔn)確率方面展現(xiàn)了令人驚喜的表現(xiàn)。在LOFT 128k tokens基準(zhǔn)測(cè)試中，Gemma3-4B模型在HotpotQA數(shù)據(jù)集上的準(zhǔn)確率從0.02提升到0.33，Qwen3-4B在Qampari數(shù)據(jù)集上從0.00提升到0.26。

LOFT 128k tokens基準(zhǔn)測(cè)試中五個(gè)數(shù)據(jù)集的準(zhǔn)確率對(duì)比

上表的數(shù)據(jù)令人興奮：在LOFT 128k tokens極限測(cè)試中，Gemma3-4B+CompLLM在HotpotQA上的準(zhǔn)確率從0.02躍升至0.33，Qwen3-4B在Qampari上從0.00提升至0.26。這表明僅4B參數(shù)的開(kāi)源模型通過(guò)CompLLM，竟可媲美Gemini 1.5 Pro、GPT-4o等前沿大模型在長(zhǎng)上下文任務(wù)中的表現(xiàn)。

更有趣的是，CompLLM在短上下文場(chǎng)景中與未壓縮基線性能相當(dāng)，而在長(zhǎng)上下文（>50k tokens）場(chǎng)景中性能反而更優(yōu)。這一現(xiàn)象挑戰(zhàn)了傳統(tǒng)認(rèn)知——通常認(rèn)為壓縮會(huì)導(dǎo)致信息損失和性能下降。研究者解釋，適當(dāng)減少輸入token數(shù)量可以減輕注意力稀釋效應(yīng)，使模型能夠更有效地聚焦于關(guān)鍵信息。

跨數(shù)據(jù)集泛化能力

CompLLM在多個(gè)Q&A數(shù)據(jù)集上展現(xiàn)了強(qiáng)大的泛化能力，包括NarrativeQA、SQuAD、RACE和QuAIL等。值得注意的是，這些實(shí)驗(yàn)中使用的CompLLM僅在NarrativeQA和RACE的訓(xùn)練集上進(jìn)行了訓(xùn)練，卻能在其他未見(jiàn)數(shù)據(jù)集上取得良好效果。

四個(gè)數(shù)據(jù)集在不同上下文長(zhǎng)度下有無(wú)壓縮的結(jié)果，其中頂部行為 Gemma-3-4B，底部行為 Qwen3-4B

上圖展示了這一泛化能力：隨著上下文長(zhǎng)度增加，CompLLM的性能優(yōu)勢(shì)逐漸顯現(xiàn)。在128k tokens的極端場(chǎng)景下，CompLLM不僅大幅提升了推理速度，還保持了甚至超越了未壓縮基線的性能水平。這一結(jié)果表明，通過(guò)適當(dāng)壓縮，小型開(kāi)源LLM（如4B參數(shù)模型）可以媲美甚至超越前沿大模型在長(zhǎng)上下文任務(wù)中的表現(xiàn)。

與LLMLingua-2對(duì)比：為何分段壓縮更優(yōu)？

在眾多壓縮方法中，LLMLingua-2是少數(shù)同樣支持線性擴(kuò)展的替代方案，它使用BERT-like編碼器獨(dú)立壓縮每個(gè)句子。CompLLM與LLMLingua-2的對(duì)比實(shí)驗(yàn)揭示了分段軟壓縮的獨(dú)特優(yōu)勢(shì)。

Gemma3-4B在不同壓縮方法下的性能對(duì)比

上圖顯示，在<50k tokens場(chǎng)景中，CompLLM的準(zhǔn)確率顯著優(yōu)于LLMLingua-2。這是因?yàn)長(zhǎng)LMLingua-2基于BERT編碼器進(jìn)行句子級(jí)硬壓縮，而CompLLM通過(guò)段級(jí)軟壓縮生成的CEs能保留更多語(yǔ)義信息。更重要的是，CompLLM的段級(jí)壓縮使修改代碼庫(kù)時(shí)只需重新壓縮變更片段，而LLMLingua-2的句子級(jí)表示受上下文影響，復(fù)用性有限。

上圖的實(shí)驗(yàn)結(jié)果表明，在上下文長(zhǎng)度低于50k tokens時(shí)，CompLLM顯著優(yōu)于LLMLingua-2；在超長(zhǎng)上下文場(chǎng)景中，兩者性能相當(dāng)，但CompLLM具有更好的可復(fù)用性。這一差異源于兩者的技術(shù)路線不同：LLMLingua-2采用硬壓縮（生成更短的自然語(yǔ)言文本），而CompLLM采用軟壓縮（生成概念嵌入），后者能夠保留更多語(yǔ)義信息且不受自然語(yǔ)言結(jié)構(gòu)的限制。

此外，CompLLM的段級(jí)壓縮機(jī)制使其在RAG系統(tǒng)和代碼助手等場(chǎng)景中更具優(yōu)勢(shì)，因?yàn)閴嚎s表示可以跨查詢復(fù)用，而LLMLingua-2雖然也支持句子級(jí)壓縮，但其壓縮結(jié)果仍受上下文影響，復(fù)用性有限。

適用邊界與未來(lái)方向

盡管CompLLM展現(xiàn)出諸多優(yōu)勢(shì)，但它也有明確的適用邊界。CompLLM的適用邊界清晰：它專注于語(yǔ)義內(nèi)容壓縮，而非文本結(jié)構(gòu)保留。例如，無(wú)法區(qū)分"with"和"wiht"(拼寫錯(cuò)誤)，因?yàn)樗鼈冊(cè)谡Z(yǔ)義上相似，會(huì)被編碼為相近的CEs。但這類字符級(jí)任務(wù)僅占LLM應(yīng)用場(chǎng)景的極小部分，且CompLLM可無(wú)縫關(guān)閉——當(dāng)用戶查詢"統(tǒng)計(jì)字母R出現(xiàn)次數(shù)"時(shí)，系統(tǒng)自動(dòng)切換至標(biāo)準(zhǔn)LLM模式，不影響原始功能。

CompLLM確保CEs編碼文本的語(yǔ)義內(nèi)容，而非其結(jié)構(gòu)：因此CompLLM不適用于任務(wù)如"統(tǒng)計(jì)文本中字母R出現(xiàn)次數(shù)"或"查找文檔中的拼寫錯(cuò)誤"，因?yàn)橄?with"和"wiht"（注意拼寫錯(cuò)誤）這樣的詞可能被編碼為相似的CE。然而，這些任務(wù)在實(shí)際LLM應(yīng)用場(chǎng)景中占比很小，且CompLLM可以無(wú)縫關(guān)閉（因?yàn)樵鶯LM未被修改），不影響原始模型功能。這使得系統(tǒng)能夠根據(jù)任務(wù)類型智能選擇是否啟用壓縮。

CompLLM的提出開(kāi)啟了多個(gè)令人興奮的研究方向：

動(dòng)態(tài)壓縮率：定義為輸入TEs與輸出CEs的比例(C=N/S)。在CompLLM中，當(dāng)C=2時(shí)，每20個(gè)TEs壓縮為10個(gè)CEs。應(yīng)用層面，這使KV cache大小減半，TTFT理論加速4倍(C2)。價(jià)值層面，壓縮率需權(quán)衡——過(guò)低則加速有限，過(guò)高則信息損失；當(dāng)前C=2在速度與質(zhì)量間取得最佳平衡。未來(lái)工作可探索動(dòng)態(tài)壓縮率：根據(jù)輸入內(nèi)容的復(fù)雜度動(dòng)態(tài)調(diào)整壓縮率，使復(fù)雜句子獲得較低壓縮率，而簡(jiǎn)單重復(fù)句子可以高壓縮。
壓縮率上限探索：研究壓縮率的理論極限，以及它如何隨模型大小、特征維度等因素變化。例如，可能更大的模型可以容納更高的壓縮率，因?yàn)樗鼈兊那度胛挥诟呔S的空間。
代碼場(chǎng)景適配：針對(duì)代碼庫(kù)特性訓(xùn)練專用CompLLM，充分利用"僅需重新壓縮修改片段"的優(yōu)勢(shì)。鑒于LLM作為編碼助手的日益增長(zhǎng)使用，以及編碼助手需要攝取大型代碼庫(kù)的需求，訓(xùn)練基于代碼數(shù)據(jù)集的CompLLM將非常有價(jià)值。
更大訓(xùn)練集：利用純文本而非上下文-問(wèn)題對(duì)訓(xùn)練CompLLM，解鎖更大規(guī)模的訓(xùn)練數(shù)據(jù)，進(jìn)一步提升模型性能。

總結(jié)：長(zhǎng)上下文處理的新范式

CompLLM通過(guò)創(chuàng)新的分段獨(dú)立壓縮策略，成功解決了長(zhǎng)上下文問(wèn)答的核心瓶頸。它無(wú)需修改原生LLM，即可實(shí)現(xiàn)高達(dá)4倍的TTFT加速、50%的KV cache減少，并在超長(zhǎng)上下文中反超未壓縮基線的性能表現(xiàn)。這種"少即是多"的理念——適當(dāng)減少輸入token不僅能加速推理，還能提升模型表現(xiàn)——為長(zhǎng)上下文處理提供了全新視角。

CompLLM的三大特性使其特別適合實(shí)際應(yīng)用場(chǎng)景：效率使長(zhǎng)上下文處理變得可行；可擴(kuò)展性使小模型能夠處理超長(zhǎng)上下文；可復(fù)用性則大幅降低了重復(fù)查詢的成本。對(duì)于RAG系統(tǒng)、代碼助手等依賴長(zhǎng)上下文的應(yīng)用，CompLLM提供了一種開(kāi)箱即用的優(yōu)化方案。

CompLLM的核心價(jià)值在于無(wú)縫集成與顯著收益的完美結(jié)合：它不需要修改你的LLM！這意味著：1)你可以立即在現(xiàn)有部署中集成，無(wú)需重新訓(xùn)練模型；2)當(dāng)需要處理字符級(jí)任務(wù)(如拼寫檢查)時(shí)，可無(wú)縫切換回標(biāo)準(zhǔn)模式；3)它與任何推理優(yōu)化技術(shù)(如chain of thought、RAG、paged attention)完全兼容。在RAG系統(tǒng)中，CompLLM使系統(tǒng)吞吐量提升3.5倍，同時(shí)將GPU內(nèi)存需求降低50%；在代碼助手場(chǎng)景中，它使修改代碼庫(kù)時(shí)只需重新壓縮變更片段，而非整個(gè)代碼庫(kù)。

隨著LLM應(yīng)用場(chǎng)景不斷擴(kuò)展，長(zhǎng)上下文處理的需求將持續(xù)增長(zhǎng)。CompLLM不僅是一項(xiàng)技術(shù)創(chuàng)新，更代表了一種思維方式的轉(zhuǎn)變：在追求更大上下文窗口的同時(shí)，我們也需要更智能的上下文處理策略。正如實(shí)驗(yàn)結(jié)果所示，有時(shí)候"少"確實(shí)能帶來(lái)"多"——更少的token、更快的速度、更好的性能。這或許正是未來(lái)LLM系統(tǒng)優(yōu)化的重要方向。

責(zé)任編輯：龐桂玉來(lái)源：覺(jué)察流

CompLLM LLM RAG 長(zhǎng)上下文問(wèn)答

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)