偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="58lcd"><dfn id="58lcd"></dfn></pre>

<table id="58lcd"></table>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

KV-Cache 實(shí)戰(zhàn)策略：生產(chǎn)環(huán)境中的分頁、固定與復(fù)用技術(shù)解析

發(fā)布于 2025-9-26 00:32

瀏覽

0收藏

在大語言模型（LLM）推理場(chǎng)景中，KV-Cache（鍵值緩存）是平衡性能與成本的核心技術(shù)之一。它通過緩存 Transformer 層中注意力機(jī)制的鍵（Key）和值（Value）矩陣，避免重復(fù)計(jì)算，將推理速度提升數(shù)倍甚至數(shù)十倍。

然而，在生產(chǎn)環(huán)境中，單純的 KV-Cache 實(shí)現(xiàn)往往面臨內(nèi)存溢出、資源利用率低、動(dòng)態(tài)負(fù)載適配難等問題。本文將聚焦 KV-Cache 在生產(chǎn)環(huán)境中的三大關(guān)鍵戰(zhàn)術(shù) ——分頁（Paging）、固定（Pinning）與復(fù)用（Reuse），結(jié)合技術(shù)原理、工程實(shí)踐與優(yōu)化案例，為開發(fā)者提供可落地的解決方案。

一、為什么生產(chǎn)環(huán)境的 KV-Cache 需要 “戰(zhàn)術(shù)設(shè)計(jì)”？?

在實(shí)驗(yàn)室環(huán)境中，KV-Cache 的實(shí)現(xiàn)相對(duì)簡(jiǎn)單：為每個(gè)推理請(qǐng)求分配一塊連續(xù)內(nèi)存，緩存整個(gè)序列的 Key 和 Value。但生產(chǎn)環(huán)境的復(fù)雜性遠(yuǎn)超實(shí)驗(yàn)場(chǎng)景，主要面臨三大挑戰(zhàn)：

內(nèi)存碎片化問題：LLM 推理的請(qǐng)求序列長(zhǎng)度差異極大（如從幾十 Token 的短對(duì)話到數(shù)千 Token 的長(zhǎng)文檔處理），若為每個(gè)請(qǐng)求分配連續(xù)內(nèi)存，會(huì)導(dǎo)致大量?jī)?nèi)存碎片，最終引發(fā) “內(nèi)存充足卻無法分配” 的矛盾。
計(jì)算與內(nèi)存的權(quán)衡：KV-Cache 雖減少計(jì)算量，但會(huì)占用大量 GPU 顯存（例如，1 個(gè) 13B 模型處理 1K Token 的請(qǐng)求，KV-Cache 約占用 10GB 顯存）。生產(chǎn)環(huán)境中若緩存策略不當(dāng)，會(huì)導(dǎo)致 GPU 顯存利用率過高，反而限制并發(fā)量。
動(dòng)態(tài)負(fù)載適配：實(shí)際推理服務(wù)中，請(qǐng)求的 QPS（每秒查詢率）、序列長(zhǎng)度會(huì)動(dòng)態(tài)波動(dòng)。固定的 KV-Cache 分配方式無法適配負(fù)載變化，可能導(dǎo)致資源浪費(fèi)或請(qǐng)求排隊(duì)。

正是這些挑戰(zhàn)，催生了分頁、固定、復(fù)用三大戰(zhàn)術(shù) —— 它們分別從內(nèi)存管理、資源鎖定、緩存利用率三個(gè)維度，解決生產(chǎn)環(huán)境中 KV-Cache 的落地難題。

二、戰(zhàn)術(shù)一：分頁（Paging）—— 解決內(nèi)存碎片化的核心方案?

分頁是借鑒操作系統(tǒng)內(nèi)存管理的經(jīng)典思想，將 KV-Cache 的連續(xù)內(nèi)存需求拆解為多個(gè)固定大小的 “頁（Page）”，通過頁表管理離散內(nèi)存塊，從而消除碎片化問題。

1. 分頁 KV-Cache 的核心原理

頁大小設(shè)計(jì)：將 KV-Cache 按固定大小（如 256 Token / 頁、512 Token / 頁）分割為多個(gè)頁。頁大小需在 “內(nèi)存利用率” 與 “管理開銷” 間平衡 —— 頁越小，內(nèi)存碎片越少，但頁表?xiàng)l目越多；頁越大，管理開銷越低，但可能造成 “頁內(nèi)碎片”（如 100 Token 的請(qǐng)求占用 256 Token 的頁）。
頁表與地址映射：為每個(gè)請(qǐng)求維護(hù)一張頁表，記錄該請(qǐng)求的 KV-Cache 對(duì)應(yīng)的物理頁地址。推理時(shí)，通過頁表將邏輯地址（如 “第 0-255 Token”）映射到實(shí)際的物理內(nèi)存塊，實(shí)現(xiàn)離散內(nèi)存的連續(xù)訪問。
按需分配與回收：推理過程中按序列長(zhǎng)度動(dòng)態(tài)分配頁（如生成式推理中，每生成一批 Token 分配對(duì)應(yīng)頁數(shù)），請(qǐng)求結(jié)束后立即回收頁至 “空閑頁池”，供后續(xù)請(qǐng)求復(fù)用。

2. 生產(chǎn)環(huán)境中的分頁優(yōu)化實(shí)踐

多級(jí)頁表減少開銷：對(duì)于超長(zhǎng)序列（如 4K、8K Token），單級(jí)頁表的條目數(shù)過多（如 8K Token/256 Token / 頁 = 32 條），可引入二級(jí)頁表（如 “頁組 - 頁” 兩級(jí)），減少頁表存儲(chǔ)成本。
頁合并與預(yù)分配：當(dāng)空閑頁池中存在連續(xù)的物理頁時(shí)，通過頁合并減少碎片；同時(shí)根據(jù)歷史負(fù)載預(yù)分配一定數(shù)量的空閑頁，避免請(qǐng)求高峰期的頁分配延遲。
跨請(qǐng)求頁共享（可選）：對(duì)于相同前綴的請(qǐng)求（如多個(gè)用戶查詢同一篇文檔的摘要），可共享前綴對(duì)應(yīng)的 KV-Cache 頁，進(jìn)一步降低內(nèi)存占用（需注意線程安全與一致性）。

3. 典型案例：vLLM 的 PagedAttention

開源推理框架 vLLM 的核心創(chuàng)新 “PagedAttention” 正是基于分頁思想實(shí)現(xiàn)的 KV-Cache 管理。它通過將每個(gè) Attention 頭的 KV-Cache 分頁，結(jié)合頁表動(dòng)態(tài)映射，使 GPU 顯存利用率提升 2-4 倍，同時(shí)支持任意長(zhǎng)度的序列推理，徹底解決了傳統(tǒng)連續(xù)內(nèi)存分配的碎片化問題。在生產(chǎn)環(huán)境中，vLLM 通過 PagedAttention 可將 13B 模型的并發(fā)請(qǐng)求數(shù)提升 3 倍以上，且無內(nèi)存溢出風(fēng)險(xiǎn)。

三、戰(zhàn)術(shù)二：固定（Pinning）—— 保障高優(yōu)先級(jí)請(qǐng)求的資源穩(wěn)定性?

在多租戶、多服務(wù)共享 GPU 的生產(chǎn)環(huán)境中，KV-Cache 的內(nèi)存資源可能被低優(yōu)先級(jí)請(qǐng)求搶占，導(dǎo)致高優(yōu)先級(jí)請(qǐng)求（如核心業(yè)務(wù)的實(shí)時(shí)推理）延遲升高。固定（Pinning）戰(zhàn)術(shù)通過 “內(nèi)存鎖定”，為關(guān)鍵請(qǐng)求預(yù)留專屬 KV-Cache 資源，保障服務(wù)穩(wěn)定性。

1. 固定 KV-Cache 的核心邏輯

資源預(yù)留與隔離：在 GPU 顯存中劃分一塊 “固定內(nèi)存區(qū)域”，專門用于存儲(chǔ)高優(yōu)先級(jí)請(qǐng)求的 KV-Cache。該區(qū)域通過硬件或軟件方式鎖定，不允許低優(yōu)先級(jí)請(qǐng)求占用。
優(yōu)先級(jí)調(diào)度機(jī)制：結(jié)合請(qǐng)求的 QoS（服務(wù)質(zhì)量）等級(jí)，制定調(diào)度策略 —— 高優(yōu)先級(jí)請(qǐng)求優(yōu)先使用固定區(qū)域的 KV-Cache，低優(yōu)先級(jí)請(qǐng)求使用剩余的 “動(dòng)態(tài)內(nèi)存區(qū)域”；當(dāng)動(dòng)態(tài)區(qū)域不足時(shí)，低優(yōu)先級(jí)請(qǐng)求可排隊(duì)或降級(jí)（如減少并發(fā)量），但高優(yōu)先級(jí)請(qǐng)求不受影響。
動(dòng)態(tài)調(diào)整固定區(qū)域大?。和ㄟ^監(jiān)控高優(yōu)先級(jí)請(qǐng)求的負(fù)載變化（如峰值 QPS、平均序列長(zhǎng)度），動(dòng)態(tài)調(diào)整固定區(qū)域的內(nèi)存占比（如早高峰時(shí)擴(kuò)大固定區(qū)域，低峰時(shí)縮?。?，避免資源浪費(fèi)。

2. 生產(chǎn)環(huán)境中的固定策略注意事項(xiàng)

避免過度鎖定：固定區(qū)域過大會(huì)導(dǎo)致動(dòng)態(tài)區(qū)域內(nèi)存不足，降低整體 GPU 利用率。建議通過壓測(cè)確定固定區(qū)域的最小必要大?。ㄈ鐫M足 99% 高優(yōu)先級(jí)請(qǐng)求的內(nèi)存需求）。
降級(jí)機(jī)制設(shè)計(jì)：當(dāng)高優(yōu)先級(jí)請(qǐng)求突發(fā)超出固定區(qū)域容量時(shí)，需設(shè)計(jì)優(yōu)雅的降級(jí)策略（如臨時(shí)將部分高優(yōu)先級(jí)請(qǐng)求調(diào)度至動(dòng)態(tài)區(qū)域，或通過隊(duì)列緩存請(qǐng)求），避免服務(wù)中斷。
跨 GPU 資源調(diào)度：在多 GPU 集群環(huán)境中，可通過分布式固定策略（如將不同租戶的高優(yōu)先級(jí)請(qǐng)求固定到不同 GPU），實(shí)現(xiàn)資源的跨節(jié)點(diǎn)隔離。

3. 應(yīng)用場(chǎng)景：金融領(lǐng)域的 LLM 推理服務(wù)

在金融行業(yè)的實(shí)時(shí)風(fēng)控、智能投顧等場(chǎng)景中，推理請(qǐng)求的延遲要求極高（通常需 <100ms）。通過將核心業(yè)務(wù)的 KV-Cache 固定到 GPU 的高帶寬內(nèi)存（HBM）中，可避免資源搶占導(dǎo)致的延遲波動(dòng)，使服務(wù)的 P99 延遲穩(wěn)定在 50ms 以內(nèi)，同時(shí)低優(yōu)先級(jí)的非核心請(qǐng)求（如市場(chǎng)資訊生成）在動(dòng)態(tài)區(qū)域正常運(yùn)行，實(shí)現(xiàn) “核心保障、非核心高效利用” 的目標(biāo)。

四、戰(zhàn)術(shù)三：復(fù)用（Reuse）—— 提升 KV-Cache 利用率的關(guān)鍵手段?

KV-Cache 的復(fù)用是指將已緩存的 Key 和 Value 矩陣用于多個(gè)請(qǐng)求，減少重復(fù)計(jì)算，降低內(nèi)存與計(jì)算資源消耗。它是生產(chǎn)環(huán)境中提升 GPU 吞吐量的核心優(yōu)化方向。

1. 復(fù)用的兩大核心場(chǎng)景

（1）相同前綴復(fù)用：針對(duì) “前綴一致” 的請(qǐng)求

當(dāng)多個(gè)請(qǐng)求共享相同的輸入前綴（如 “基于以下文檔回答問題：[文檔內(nèi)容]”），前綴對(duì)應(yīng)的 KV-Cache 可被所有請(qǐng)求復(fù)用。例如：

場(chǎng)景：多個(gè)用戶查詢同一篇新聞的摘要，輸入前綴均為 “總結(jié)以下新聞：[新聞文本]”；
復(fù)用邏輯：緩存前綴（新聞文本）對(duì)應(yīng)的 KV-Cache，后續(xù)請(qǐng)求僅需計(jì)算 “摘要生成” 部分的 KV-Cache，無需重復(fù)計(jì)算前綴。

實(shí)現(xiàn)要點(diǎn)：

前綴哈希索引：為每個(gè)前綴計(jì)算哈希值（如基于輸入文本的 MD5），建立 “前綴哈希 - KV-Cache 地址” 的索引表，快速判斷前綴是否已緩存；
過期策略：當(dāng)前綴對(duì)應(yīng)的請(qǐng)求量下降到閾值時(shí)，刪除過期的前綴緩存，釋放內(nèi)存；
一致性保障：若前綴文本發(fā)生變更（如文檔更新），需立即失效對(duì)應(yīng)的緩存，避免錯(cuò)誤復(fù)用。

（2）會(huì)話上下文復(fù)用：針對(duì)多輪對(duì)話場(chǎng)景

在多輪對(duì)話中，每輪請(qǐng)求的輸入包含歷史對(duì)話上下文，對(duì)應(yīng)的 KV-Cache 可跨輪復(fù)用。例如：

場(chǎng)景：用戶與 LLM 的多輪對(duì)話中，第 1 輪請(qǐng)求的 KV-Cache 包含 “用戶問題 1” 和 “模型回答 1”，第 2 輪請(qǐng)求僅需新增 “用戶問題 2” 的 KV-Cache，復(fù)用歷史上下文的緩存；
復(fù)用邏輯：為每個(gè)會(huì)話維護(hù)一個(gè) “上下文緩存池”，每輪對(duì)話僅追加新 Token 的 KV-Cache，避免全序列重復(fù)計(jì)算。

實(shí)現(xiàn)要點(diǎn)：

會(huì)話 ID 綁定：將 KV-Cache 與會(huì)話 ID 關(guān)聯(lián)，確保緩存僅被同一會(huì)話的后續(xù)請(qǐng)求復(fù)用；
上下文截?cái)啵寒?dāng)會(huì)話上下文長(zhǎng)度超過模型最大序列長(zhǎng)度時(shí)，按策略截?cái)鄽v史上下文（如保留最近 N 輪），避免緩存無限增長(zhǎng)；
增量更新：每輪對(duì)話僅計(jì)算新 Token 的 KV-Cache，并追加到會(huì)話緩存中，減少計(jì)算量。

2. 復(fù)用的性能收益與風(fēng)險(xiǎn)控制

性能收益：在高并發(fā)的前綴一致場(chǎng)景（如批量文檔處理、公共問答），復(fù)用可使計(jì)算量減少 50% 以上，GPU 吞吐量提升 2-3 倍；在多輪對(duì)話場(chǎng)景，復(fù)用可使每輪推理的延遲降低 30%-60%。
風(fēng)險(xiǎn)控制：

緩存污染：避免低頻前綴或會(huì)話的緩存長(zhǎng)期占用內(nèi)存，需通過 LRU（最近最少使用）、LFU（最不經(jīng)常使用）等策略淘汰低效緩存；
內(nèi)存溢出：復(fù)用會(huì)增加緩存的累積量，需結(jié)合分頁技術(shù)動(dòng)態(tài)管理內(nèi)存，避免緩存過度占用導(dǎo)致 OOM（內(nèi)存溢出）；
一致性問題：若模型版本更新或輸入數(shù)據(jù)變更，需及時(shí)清理舊緩存，避免復(fù)用錯(cuò)誤的 KV-Cache 導(dǎo)致推理結(jié)果偏差。

五、三大戰(zhàn)術(shù)的協(xié)同應(yīng)用：構(gòu)建生產(chǎn)級(jí) KV-Cache 體系?

在實(shí)際生產(chǎn)環(huán)境中，分頁、固定、復(fù)用并非孤立使用，而是需要協(xié)同配合，形成完整的 KV-Cache 管理體系。以下是典型的協(xié)同架構(gòu)設(shè)計(jì)：

資源分層：

將 GPU 顯存分為 “固定區(qū)域”（用于高優(yōu)先級(jí)請(qǐng)求）和 “動(dòng)態(tài)區(qū)域”（用于低優(yōu)先級(jí)請(qǐng)求）；
固定區(qū)域和動(dòng)態(tài)區(qū)域均采用分頁管理，通過頁表實(shí)現(xiàn)離散內(nèi)存的高效利用；
在固定區(qū)域和動(dòng)態(tài)區(qū)域內(nèi)，分別建立前綴復(fù)用索引和會(huì)話復(fù)用緩存池，提升緩存利用率。

調(diào)度流程：

請(qǐng)求接入時(shí)，根據(jù) QoS 等級(jí)分配至 “固定區(qū)域” 或 “動(dòng)態(tài)區(qū)域”；
檢查請(qǐng)求是否存在可復(fù)用的 KV-Cache（前綴或會(huì)話上下文），若存在則直接復(fù)用，僅計(jì)算增量部分；
對(duì)需新增的 KV-Cache，通過分頁機(jī)制從對(duì)應(yīng)區(qū)域分配空閑頁，更新頁表；
請(qǐng)求結(jié)束后，回收動(dòng)態(tài)區(qū)域的頁至空閑頁池，固定區(qū)域的頁保留至?xí)捊Y(jié)束或過期；
定期執(zhí)行緩存淘汰（如 LRU）和頁合并，優(yōu)化內(nèi)存資源。

監(jiān)控與調(diào)優(yōu)：

實(shí)時(shí)監(jiān)控關(guān)鍵指標(biāo)：固定區(qū)域利用率、動(dòng)態(tài)區(qū)域頁命中率、緩存復(fù)用率、推理延遲；
基于監(jiān)控?cái)?shù)據(jù)動(dòng)態(tài)調(diào)整參數(shù)：頁大小、固定區(qū)域占比、緩存淘汰閾值；
離線分析負(fù)載特征：統(tǒng)計(jì)請(qǐng)求的序列長(zhǎng)度分布、前綴重復(fù)率、會(huì)話時(shí)長(zhǎng)，優(yōu)化復(fù)用策略。

六、未來趨勢(shì)：KV-Cache 戰(zhàn)術(shù)的技術(shù)演進(jìn)?

隨著 LLM 模型規(guī)模的擴(kuò)大（如 100B、1T 參數(shù)）和推理場(chǎng)景的復(fù)雜化（如多模態(tài)、實(shí)時(shí)交互），KV-Cache 的戰(zhàn)術(shù)設(shè)計(jì)將向以下方向演進(jìn)：

硬件感知的動(dòng)態(tài)分頁：結(jié)合 GPU 的內(nèi)存架構(gòu)（如 HBM、DDR），動(dòng)態(tài)調(diào)整頁大小 ——HBM 區(qū)域使用小頁（提升利用率），DDR 區(qū)域使用大頁（減少訪問延遲），實(shí)現(xiàn)跨內(nèi)存層級(jí)的優(yōu)化。
智能復(fù)用與預(yù)測(cè)：基于機(jī)器學(xué)習(xí)預(yù)測(cè)請(qǐng)求的前綴相似度和會(huì)話延續(xù)性，提前預(yù)緩存高復(fù)用潛力的 KV-Cache，進(jìn)一步降低延遲。
分布式 KV-Cache：在多 GPU、多節(jié)點(diǎn)集群中，通過分布式頁表和緩存同步機(jī)制，實(shí)現(xiàn) KV-Cache 的跨節(jié)點(diǎn)分頁與復(fù)用，支持超大規(guī)模模型的分布式推理。
內(nèi)存 - 計(jì)算融合優(yōu)化：結(jié)合硬件加速（如 GPU 的 Tensor Core、專用緩存芯片），將 KV-Cache 的分頁、復(fù)用邏輯嵌入硬件層面，減少軟件層面的管理開銷。

總結(jié)?

KV-Cache 的分頁、固定與復(fù)用三大戰(zhàn)術(shù)，分別解決了生產(chǎn)環(huán)境中的 “內(nèi)存碎片化”“資源穩(wěn)定性”“利用率低” 三大核心問題。

在實(shí)際落地中，需根據(jù)業(yè)務(wù)場(chǎng)景（如 QoS 要求、請(qǐng)求特征、硬件資源）靈活組合三大戰(zhàn)術(shù)，通過資源分層、智能調(diào)度、動(dòng)態(tài)調(diào)優(yōu)，構(gòu)建高性能、高可靠、高性價(jià)比的 KV-Cache 體系。

對(duì)于 LLM 推理服務(wù)而言，KV-Cache 的優(yōu)化不僅是技術(shù)問題，更是 “成本與體驗(yàn)的平衡藝術(shù)”—— 合理的戰(zhàn)術(shù)設(shè)計(jì)可使 GPU 資源利用率提升數(shù)倍，同時(shí)保障服務(wù)的低延遲與穩(wěn)定性，為業(yè)務(wù)規(guī)?；涞靥峁┖诵闹?。未來，隨著硬件與軟件技術(shù)的協(xié)同演進(jìn)，KV-Cache 將持續(xù)成為 LLM 推理優(yōu)化的核心戰(zhàn)場(chǎng)。

本文轉(zhuǎn)載自??CourseAI??，作者：CourseAI?

標(biāo)簽

復(fù)用技術(shù)

已于2025-9-26 11:14:17修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型推理優(yōu)化實(shí)踐：KV cache復(fù)用與投機(jī)采樣

wx5bbef785639a1 ? 8947瀏覽 ? 0回復(fù)
ICLR 2024：確定性與隨機(jī)環(huán)境中的effective horizon！

AIGC最前線 ? 4252瀏覽 ? 0回復(fù)
MiniCache 和 PyramidInfer 等 6 種優(yōu)化 LLM KV Cache 的最新工作

amei2000go ? 1.3w瀏覽 ? 0回復(fù)
MLKV：跨層 KV Cache 共享，降低內(nèi)存占用

amei2000go ? 6799瀏覽 ? 0回復(fù)
OpenAI在RAG技術(shù)上的最佳實(shí)踐與策略

AIGC觀察者 ? 5079瀏覽 ? 0回復(fù)
LLM 推理的 Attention 計(jì)算和 KV Cache 優(yōu)化：PagedAttention、vAttention 等

amei2000go ? 1.5w瀏覽 ? 0回復(fù)
智能體在連續(xù)環(huán)境中的路徑優(yōu)化與沖突解決

xuxiangda ? 5413瀏覽 ? 0回復(fù)
基于網(wǎng)格環(huán)境的模仿學(xué)習(xí)技術(shù)實(shí)戰(zhàn)探索

51CTO內(nèi)容精選 ? 3970瀏覽 ? 0回復(fù)
MixAttention：跨層 KV Cache 共享 + 滑動(dòng)窗口 Attention

amei2000go ? 4718瀏覽 ? 0回復(fù)
關(guān)于大模型在企業(yè)生產(chǎn)環(huán)境中的獨(dú)立部署問題

AI探索時(shí)代 ? 4173瀏覽 ? 0回復(fù)
為什么將RAG擴(kuò)展到生產(chǎn)環(huán)境如此困難？

丟翅膀的魚 ? 3150瀏覽 ? 0回復(fù)
KVSharer：基于不相似性實(shí)現(xiàn)跨層 KV Cache 共享

amei2000go ? 4728瀏覽 ? 0回復(fù)
生產(chǎn)環(huán)境測(cè)試模型的四種方法

魚蟲子 ? 3511瀏覽 ? 0回復(fù)
深度學(xué)習(xí)二分類評(píng)估詳細(xì)解析與代碼實(shí)戰(zhàn)

AI悠閑區(qū) ? 3659瀏覽 ? 0回復(fù)
DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進(jìn)大總結(jié)

大模型自然語言處理 ? 4648瀏覽 ? 0回復(fù)
Transformer中的位置編碼技術(shù)：從理論到實(shí)踐的深度解析！

南夏的算法驛站 ? 3957瀏覽 ? 0回復(fù)
智能體在企業(yè)環(huán)境中的應(yīng)用——怎么解決智能體在企業(yè)生產(chǎn)環(huán)境中的穩(wěn)定性問題？

AI探索時(shí)代 ? 1966瀏覽 ? 0回復(fù)
CLIP：打通圖文壁壘的多模態(tài)神器，原理與實(shí)戰(zhàn)全解析

鴻煊的學(xué)習(xí)筆記 ? 9024瀏覽 ? 0回復(fù)
企業(yè)RAG項(xiàng)目的五大隱形殺手：別讓AI項(xiàng)目在生產(chǎn)環(huán)境中翻車！

Halo咯咯 ? 1268瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Manus：三大核心策略，破解AI Agent上下文膨脹難題 2025-10-23 07:52:56發(fā)布
文檔級(jí)知識(shí)圖譜: RAKG(95.91%) VS GraphRAG(89.71%) 2025-10-23 07:52:31發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

DeepSeek團(tuán)隊(duì)開源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：谷歌發(fā)布首個(gè)AI+教育RCT實(shí)驗(yàn)，傳統(tǒng)教材要涼？

下一篇： Uber&WisdomAI揭露95%AI Agent落地失敗的真相！

社區(qū)精華內(nèi)容

目錄

<u id="iulbt"><strong id="iulbt"></strong></u>