偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="klonp"><font id="klonp"></font></ruby>

<fieldset id="klonp"><center id="klonp"><listing id="klonp"></listing></center></fieldset>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

騰訊Youtu Lab新突破：HiChunk如何用“分層分塊”讓RAG更聰明？

作者：Goldma 2025-09-22 09:17:48

騰訊優(yōu)圖實(shí)驗(yàn)室近期發(fā)布了新作 HiChunk——一個(gè)能“讀懂文檔結(jié)構(gòu)”的分層分塊框架，還配套了專門的評(píng)估基準(zhǔn) HiCBench。下面來聊聊這兩個(gè)工具如何讓RAG分塊“更聰明”。

在AI領(lǐng)域，RAG（檢索增強(qiáng)生成）早已不是新鮮詞——它就像給大模型裝了一個(gè)“外部知識(shí)庫(kù)”，通過檢索真實(shí)文檔來回答問題，避免“瞎編亂造”。但很多人不知道，RAG的效果好壞，很多時(shí)候卡在一個(gè)看似基礎(chǔ)的環(huán)節(jié)上：文檔分塊，對(duì)于在實(shí)際落地中，文檔分塊也是一個(gè)令人非常頭疼的難題。

簡(jiǎn)單說，“分塊”就是把長(zhǎng)文檔切成小片段（比如每200詞一段），方便后續(xù)檢索?？蓡栴}來了：傳統(tǒng)分塊要么“一刀切”（不管語義邏輯，固定長(zhǎng)度切分），要么“看局部”（只關(guān)注句子級(jí)關(guān)聯(lián)，忽略文檔的章節(jié)、子章節(jié)結(jié)構(gòu)）。這就導(dǎo)致大模型檢索時(shí)，要么漏了關(guān)鍵信息，要么抓了一堆無關(guān)內(nèi)容。

針對(duì)這個(gè)痛點(diǎn)，騰訊優(yōu)圖實(shí)驗(yàn)室近期發(fā)布了新作 HiChunk——一個(gè)能“讀懂文檔結(jié)構(gòu)”的分層分塊框架，還配套了專門的評(píng)估基準(zhǔn) HiCBench。下面來聊聊這兩個(gè)工具如何讓RAG分塊“更聰明”。

一、先搞懂：為什么“分塊”對(duì)RAG這么重要？

在聊HiChunk之前，得先明確一個(gè)前提：分塊不是“切豆腐”，而是決定RAG質(zhì)量的“第一道關(guān)卡”。

舉個(gè)例子：如果我們有一篇關(guān)于“氣候變化”的長(zhǎng)文檔，里面包含“原因”“影響”“解決方案”三個(gè)章節(jié)，每個(gè)章節(jié)下還有子主題。

若用“固定長(zhǎng)度分塊”（比如每200詞切一段），可能會(huì)把“氣候變化原因”的后半段和“影響”的前半段切到同一個(gè)塊里——檢索“原因”時(shí)，會(huì)把“影響”的內(nèi)容也帶進(jìn)來，干擾判斷；
若用傳統(tǒng)語義分塊（只看句子相似度），可能會(huì)把“解決方案”章節(jié)里的不同子主題拆成多個(gè)塊——檢索“解決方案”時(shí)，需要拼多個(gè)塊才能湊齊完整信息，效率低。

更關(guān)鍵的是，現(xiàn)有評(píng)估基準(zhǔn)“不給力”：之前的數(shù)據(jù)集（比如Wiki-727、HotpotQA）要么把文檔切成“扁平的句子/段落”（不考慮章節(jié)層級(jí)），要么只關(guān)注“檢索器準(zhǔn)不準(zhǔn)”“回答對(duì)不對(duì)”，卻沒專門評(píng)估“分塊好不好”。就像老師批改作文，只看最終得分，卻不看草稿紙的邏輯是否清晰——根本沒法判斷“分塊”這個(gè)環(huán)節(jié)的問題在哪。

這就是HiChunk要解決的核心矛盾：現(xiàn)有分塊方法沒利用文檔層級(jí)，現(xiàn)有評(píng)估標(biāo)準(zhǔn)沒管好分塊質(zhì)量。

針對(duì)上述問題，HiChunk給出了“一測(cè)一解”的方案：先用HiCBench基準(zhǔn)把“分塊質(zhì)量”的評(píng)估標(biāo)準(zhǔn)立起來，再用分層分塊框架+自動(dòng)合并算法解決分塊本身的問題。

二、先有“尺子”：HiCBench基準(zhǔn)——終于能精準(zhǔn)評(píng)估分塊了

之前評(píng)估分塊，就像用“體重秤量身高”，工具不對(duì)。HiCBench則是一把專門的“分塊尺子”，它的核心思路是：讓QA對(duì)的證據(jù)“綁定”文檔層級(jí)，分塊好不好，看證據(jù)能不能完整召回。

比如傳統(tǒng)數(shù)據(jù)集里，一個(gè)問題的證據(jù)可能只在1-2個(gè)句子里——哪怕分塊切得亂，只要找到這兩個(gè)句子，回答就對(duì)了，根本測(cè)不出分塊的問題。而HiCBench專門設(shè)計(jì)了三種任務(wù)，精準(zhǔn)覆蓋不同場(chǎng)景：

T0（稀疏證據(jù)）：證據(jù)只在1-2個(gè)句子里（對(duì)應(yīng)日常簡(jiǎn)單問答）；
T1（單塊密集證據(jù)）：證據(jù)全在一個(gè)完整語義塊里（比如一個(gè)章節(jié)下的“氣候變化原因”段落）；
T2（多塊密集證據(jù)）：證據(jù)分散在多個(gè)語義塊里（比如“解決方案”下的“政策”“技術(shù)”兩個(gè)子章節(jié)）。

舉個(gè)T1任務(wù)的例子：?jiǎn)栴}是“文檔中提到的氣候變化主要人為原因有哪些？”，證據(jù)全在“氣候變化原因”這個(gè)2000詞的語義塊里。如果分塊把這個(gè)塊切散了，哪怕找到部分句子，也會(huì)漏關(guān)鍵信息——這樣就能直接測(cè)出分塊的好壞。

為了保證質(zhì)量，HiCBench還做了兩件關(guān)鍵事：

人工標(biāo)層級(jí)：先給文檔標(biāo)好“章節(jié)-子章節(jié)-段落”的層級(jí)，確保語義塊清晰；
嚴(yán)篩QA對(duì)：用大模型生成候選QA對(duì)后，反復(fù)驗(yàn)證“證據(jù)是否完整”“回答是否符合事實(shí)”，最后只保留“證據(jù)占比超10%、事實(shí)準(zhǔn)確率超80%”的樣本。

有了HiCBench，終于能說清：“這個(gè)分塊方法在密集證據(jù)場(chǎng)景下更好”“那個(gè)方法在超長(zhǎng)文檔里不行”——評(píng)估不再是“憑感覺”。

三、再出“方案”：分層分塊框架——讓分塊懂文檔結(jié)構(gòu)

有了評(píng)估標(biāo)準(zhǔn)，下一步就是解決分塊本身的問題。HiChunk的核心是“讓分塊像人讀文檔一樣，先看章節(jié)，再看段落”，具體分兩步：

第一步：用大模型“讀懂”文檔層級(jí)

傳統(tǒng)分塊要么靠規(guī)則（固定長(zhǎng)度），要么靠相似度（相鄰句子像不像），而HiChunk直接用微調(diào)后的大模型（基于Qwen3-4B）“理解”文檔結(jié)構(gòu)，輸出“分層分塊點(diǎn)”。

比如處理一篇論文，大模型會(huì)自動(dòng)識(shí)別：

第1層級(jí)分塊點(diǎn)：摘要、引言、實(shí)驗(yàn)、結(jié)論的分隔處；
第2層級(jí)分塊點(diǎn)：引言下“研究背景”“現(xiàn)有問題”的分隔處；
第3層級(jí)分塊點(diǎn)：“現(xiàn)有問題”下“分塊問題”“評(píng)估問題”的分隔處。

這樣一來，文檔就從“扁平的文本流”變成了“有樹狀結(jié)構(gòu)的語義塊”，就像給文檔建了一個(gè)“目錄”，后續(xù)檢索能精準(zhǔn)定位到“章節(jié)-子章節(jié)”級(jí)別。

針對(duì)超長(zhǎng)文檔（比如50頁的報(bào)告），HiChunk還設(shè)計(jì)了“迭代推理”：先處理前N個(gè)句子，標(biāo)出局部分塊點(diǎn)，再銜接下一部分，避免大模型“看不完長(zhǎng)文檔”的問題。

第二步：自動(dòng)合并算法——?jiǎng)討B(tài)適配檢索需求

分層分塊解決了“結(jié)構(gòu)問題”，但新問題來了：HiChunk 構(gòu)建的分層樹結(jié)構(gòu)具備語義完整性，但語義分塊方法導(dǎo)致的分塊長(zhǎng)度分布差異可能引發(fā)語義粒度不一致問題，進(jìn)而影響檢索質(zhì)量。簡(jiǎn)單來說，不同語義塊的長(zhǎng)度不一樣（比如一個(gè)章節(jié)3000詞，一個(gè)子章節(jié)500詞），直接檢索可能要么“抓太多冗余”，要么“漏關(guān)鍵信息”。

為緩解這一問題，HiChunk 在分塊結(jié)果的基礎(chǔ)上采用固定大小分塊方式，得到分塊序列C[1:M]，并提出 自動(dòng)合并（Auto-Merge）檢索算法，以平衡語義粒度差異與檢索分塊的語義完整性問題。

它的核心邏輯是：根據(jù)查詢需求和Token預(yù)算，動(dòng)態(tài)把小分塊合并成大分塊，或保留小分塊。

舉個(gè)例子：假設(shè)檢索Token預(yù)算是4096詞，查詢是“文檔中氣候變化的解決方案有哪些？”，算法會(huì)這么做：

先檢索出和“解決方案”相關(guān)的小分塊（比如“政策方案”“技術(shù)方案”兩個(gè)子章節(jié)塊，各800詞）；
檢查條件：這兩個(gè)塊的父塊是“解決方案”（2000詞），且當(dāng)前用了1600詞（沒超預(yù)算），滿足“子塊交集≥2個(gè)、長(zhǎng)度夠、預(yù)算夠”的條件；
自動(dòng)合并：把兩個(gè)子塊合并成“解決方案”父塊，這樣檢索到的信息更完整，還沒超預(yù)算。

如果查詢是“政策方案里提到的碳稅措施有哪些？”，算法則會(huì)保留“政策方案”這個(gè)小分塊，不合并——避免把“技術(shù)方案”的內(nèi)容帶進(jìn)來，減少冗余。

簡(jiǎn)單說，這個(gè)算法讓RAG的檢索從“固定粒度”變成了“按需調(diào)整”，既不浪費(fèi)Token，又能保證信息完整。

四、實(shí)驗(yàn)說話：HiChunk到底好不好用？

HiChunk在多個(gè)數(shù)據(jù)集上做了對(duì)比實(shí)驗(yàn)，結(jié)果很直觀——我們挑幾個(gè)關(guān)鍵結(jié)論看：

分塊更準(zhǔn)：層級(jí)識(shí)別能力遠(yuǎn)超傳統(tǒng)方法

在Qasper（學(xué)術(shù)論文數(shù)據(jù)集）和Gov-report（政府報(bào)告數(shù)據(jù)集）上，HiChunk的分塊點(diǎn)F1值（越接近1越準(zhǔn)）比傳統(tǒng)語義分塊（SC、LumberChunker）高15%-20%。哪怕在沒見過的“域外數(shù)據(jù)集”（比如陌生領(lǐng)域的報(bào)告）上，優(yōu)勢(shì)更明顯——說明它真的“懂”文檔結(jié)構(gòu)，而不是死記硬背。

這些結(jié)果表明，HC 方法通過專注于分塊任務(wù)，有效提升了基礎(chǔ)模型在文檔分塊中的性能。

RAG效果更好：尤其在密集證據(jù)場(chǎng)景

在HiCBench的T1（單塊密集）和T2（多塊密集）任務(wù)中，HiChunk（HC200+AM）的回答F1值比固定分塊（FC200）高10%-12%，比傳統(tǒng)語義分塊（LC）高5%-8%。而在T0（稀疏證據(jù)）任務(wù)中，差距不大——這正好說明：在需要完整語義塊的場(chǎng)景下，HiChunk的優(yōu)勢(shì)才真正凸顯，而這正是企業(yè)知識(shí)庫(kù)、學(xué)術(shù)檢索等核心場(chǎng)景的需求。

速度夠快：兼顧質(zhì)量和效率

語義分塊LC 方法雖表現(xiàn)出較好的分塊質(zhì)量，但其分塊速度遠(yuǎn)慢于其他基于語義的分塊方法，處理一篇長(zhǎng)文檔要好幾分鐘，這限制了其在實(shí)際應(yīng)用中的適用性。而HiChunk的分塊速度是它的3-5倍，同時(shí)保持了更高的分塊質(zhì)量。對(duì)企業(yè)來說，這意味著“既能保證回答準(zhǔn)，又能讓用戶等得少”，落地性大大提升。

檢索 Token 預(yù)算的影響

結(jié)果表明，更大的檢索 Token 預(yù)算通常能帶來更優(yōu)的響應(yīng)質(zhì)量，因此在相同的檢索 Token 預(yù)算下對(duì)比不同分塊方法十分必要。在各種檢索 Token 預(yù)算設(shè)置下，HC200+AM 方法始終保持著更優(yōu)的響應(yīng)質(zhì)量，這些實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí)了 HC200+AM 方法的有效性。

文檔結(jié)構(gòu)最大層級(jí)的影響

文檔結(jié)構(gòu)的最大層級(jí)范圍設(shè)為 1 至 4，分別記為 L1 至 L4；其中 LA 代表不限制最大層級(jí)。通過實(shí)驗(yàn)驗(yàn)證HiChunk 所得到的文檔結(jié)構(gòu)最大層級(jí)對(duì)實(shí)驗(yàn)結(jié)果的影響。

結(jié)果顯示，在L1設(shè)置下（即僅保留第 1 層級(jí)分塊），由于分塊的語義粒度過于粗糙，自動(dòng)合并（Auto-Merge）檢索算法會(huì)導(dǎo)致 RAG 系統(tǒng)性能下降；當(dāng)最大層級(jí)從 1 增加到 3 時(shí)，證據(jù)召回率指標(biāo)逐漸提升，且在層級(jí)達(dá)到 3 之后基本保持穩(wěn)定。這些結(jié)果凸顯了文檔層級(jí)結(jié)構(gòu)對(duì)提升 RAG 系統(tǒng)性能的重要性。

五、總結(jié)

HiChunk不只是一個(gè)技術(shù)框架，更給RAG落地提供了明確方向：

分塊要“懂結(jié)構(gòu)”：別再只盯著“固定長(zhǎng)度”或“句子相似度”，優(yōu)先利用文檔的天然層級(jí)（章節(jié)、標(biāo)題），HiChunk的分層思路可直接參考；
檢索要“動(dòng)態(tài)調(diào)”：Auto-Merge算法的核心是“按需合并”，在設(shè)計(jì)檢索邏輯時(shí)，可加入“子塊數(shù)量”“Token預(yù)算”等條件，平衡召回率和冗余度；
場(chǎng)景優(yōu)先選“密集證據(jù)”：HiChunk在企業(yè)知識(shí)庫(kù)、學(xué)術(shù)問答、法律文檔檢索等“需要完整語義塊”的場(chǎng)景中價(jià)值最大，可優(yōu)先落地這些場(chǎng)景；
性能指標(biāo)看“雙維度”：評(píng)估RAG產(chǎn)品時(shí)，別只看“回答準(zhǔn)確率”，還要加“分塊完整性”（比如HiCBench的Fact-Cov指標(biāo)），避免“分塊差導(dǎo)致的準(zhǔn)確率低”被誤判為“檢索器不行”。

過去做RAG，很多人把精力放在“檢索器怎么調(diào)”“大模型怎么換”上，卻忽略了“分塊”這個(gè)基礎(chǔ)環(huán)節(jié)。HiChunk的價(jià)值在于：它讓“分塊”從“無差別切割”變成了“有結(jié)構(gòu)的語義組織”，讓RAG的每一步都更“精準(zhǔn)”。

對(duì)行業(yè)來說，這可能是一個(gè)信號(hào)：RAG的競(jìng)爭(zhēng)正在從“堆模型、堆數(shù)據(jù)”走向“精細(xì)化優(yōu)化”——誰能把分塊、檢索、生成的每個(gè)環(huán)節(jié)都打磨到位，誰就能做出更實(shí)用的AI產(chǎn)品。

最后，附上論文和項(xiàng)目地址，感興趣的同學(xué)可以深入研究：

論文地址：https://arxiv.org/pdf/2509.11552
項(xiàng)目地址（HiCBench數(shù)據(jù)集）：https://huggingface.co/datasets/Youtu-RAG/HiCBench

責(zé)任編輯：龐桂玉來源：小白學(xué)AI算法

騰訊 Youtu Lab HiChunk RAG

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<optgroup id="iihar"><strike id="iihar"></strike></optgroup>

<legend id="iihar"><track id="iihar"></track></legend>

<p id="iihar"><center id="iihar"></center></p>