騰訊Youtu Lab新突破:HiChunk如何用“分層分塊”讓RAG更聰明?

在AI領(lǐng)域,RAG(檢索增強(qiáng)生成)早已不是新鮮詞——它就像給大模型裝了一個(gè)“外部知識(shí)庫(kù)”,通過檢索真實(shí)文檔來回答問題,避免“瞎編亂造”。但很多人不知道,RAG的效果好壞,很多時(shí)候卡在一個(gè)看似基礎(chǔ)的環(huán)節(jié)上:文檔分塊,對(duì)于在實(shí)際落地中,文檔分塊也是一個(gè)令人非常頭疼的難題。
簡(jiǎn)單說,“分塊”就是把長(zhǎng)文檔切成小片段(比如每200詞一段),方便后續(xù)檢索??蓡栴}來了:傳統(tǒng)分塊要么“一刀切”(不管語義邏輯,固定長(zhǎng)度切分),要么“看局部”(只關(guān)注句子級(jí)關(guān)聯(lián),忽略文檔的章節(jié)、子章節(jié)結(jié)構(gòu))。這就導(dǎo)致大模型檢索時(shí),要么漏了關(guān)鍵信息,要么抓了一堆無關(guān)內(nèi)容。
針對(duì)這個(gè)痛點(diǎn),騰訊優(yōu)圖實(shí)驗(yàn)室近期發(fā)布了新作 HiChunk——一個(gè)能“讀懂文檔結(jié)構(gòu)”的分層分塊框架,還配套了專門的評(píng)估基準(zhǔn) HiCBench。下面來聊聊這兩個(gè)工具如何讓RAG分塊“更聰明”。

一、先搞懂:為什么“分塊”對(duì)RAG這么重要?
在聊HiChunk之前,得先明確一個(gè)前提:分塊不是“切豆腐”,而是決定RAG質(zhì)量的“第一道關(guān)卡”。
舉個(gè)例子:如果我們有一篇關(guān)于“氣候變化”的長(zhǎng)文檔,里面包含“原因”“影響”“解決方案”三個(gè)章節(jié),每個(gè)章節(jié)下還有子主題。
- 若用“固定長(zhǎng)度分塊”(比如每200詞切一段),可能會(huì)把“氣候變化原因”的后半段和“影響”的前半段切到同一個(gè)塊里——檢索“原因”時(shí),會(huì)把“影響”的內(nèi)容也帶進(jìn)來,干擾判斷;
- 若用傳統(tǒng)語義分塊(只看句子相似度),可能會(huì)把“解決方案”章節(jié)里的不同子主題拆成多個(gè)塊——檢索“解決方案”時(shí),需要拼多個(gè)塊才能湊齊完整信息,效率低。
更關(guān)鍵的是,現(xiàn)有評(píng)估基準(zhǔn)“不給力”:之前的數(shù)據(jù)集(比如Wiki-727、HotpotQA)要么把文檔切成“扁平的句子/段落”(不考慮章節(jié)層級(jí)),要么只關(guān)注“檢索器準(zhǔn)不準(zhǔn)”“回答對(duì)不對(duì)”,卻沒專門評(píng)估“分塊好不好”。就像老師批改作文,只看最終得分,卻不看草稿紙的邏輯是否清晰——根本沒法判斷“分塊”這個(gè)環(huán)節(jié)的問題在哪。
這就是HiChunk要解決的核心矛盾:現(xiàn)有分塊方法沒利用文檔層級(jí),現(xiàn)有評(píng)估標(biāo)準(zhǔn)沒管好分塊質(zhì)量。
針對(duì)上述問題,HiChunk給出了“一測(cè)一解”的方案:先用HiCBench基準(zhǔn)把“分塊質(zhì)量”的評(píng)估標(biāo)準(zhǔn)立起來,再用分層分塊框架+自動(dòng)合并算法解決分塊本身的問題。
二、先有“尺子”:HiCBench基準(zhǔn)——終于能精準(zhǔn)評(píng)估分塊了
之前評(píng)估分塊,就像用“體重秤量身高”,工具不對(duì)。HiCBench則是一把專門的“分塊尺子”,它的核心思路是:讓QA對(duì)的證據(jù)“綁定”文檔層級(jí),分塊好不好,看證據(jù)能不能完整召回。
比如傳統(tǒng)數(shù)據(jù)集里,一個(gè)問題的證據(jù)可能只在1-2個(gè)句子里——哪怕分塊切得亂,只要找到這兩個(gè)句子,回答就對(duì)了,根本測(cè)不出分塊的問題。而HiCBench專門設(shè)計(jì)了三種任務(wù),精準(zhǔn)覆蓋不同場(chǎng)景:
- T0(稀疏證據(jù)):證據(jù)只在1-2個(gè)句子里(對(duì)應(yīng)日常簡(jiǎn)單問答);
- T1(單塊密集證據(jù)):證據(jù)全在一個(gè)完整語義塊里(比如一個(gè)章節(jié)下的“氣候變化原因”段落);
- T2(多塊密集證據(jù)):證據(jù)分散在多個(gè)語義塊里(比如“解決方案”下的“政策”“技術(shù)”兩個(gè)子章節(jié))。
舉個(gè)T1任務(wù)的例子:?jiǎn)栴}是“文檔中提到的氣候變化主要人為原因有哪些?”,證據(jù)全在“氣候變化原因”這個(gè)2000詞的語義塊里。如果分塊把這個(gè)塊切散了,哪怕找到部分句子,也會(huì)漏關(guān)鍵信息——這樣就能直接測(cè)出分塊的好壞。
為了保證質(zhì)量,HiCBench還做了兩件關(guān)鍵事:
- 人工標(biāo)層級(jí):先給文檔標(biāo)好“章節(jié)-子章節(jié)-段落”的層級(jí),確保語義塊清晰;
- 嚴(yán)篩QA對(duì):用大模型生成候選QA對(duì)后,反復(fù)驗(yàn)證“證據(jù)是否完整”“回答是否符合事實(shí)”,最后只保留“證據(jù)占比超10%、事實(shí)準(zhǔn)確率超80%”的樣本。
有了HiCBench,終于能說清:“這個(gè)分塊方法在密集證據(jù)場(chǎng)景下更好”“那個(gè)方法在超長(zhǎng)文檔里不行”——評(píng)估不再是“憑感覺”。
三、再出“方案”:分層分塊框架——讓分塊懂文檔結(jié)構(gòu)
有了評(píng)估標(biāo)準(zhǔn),下一步就是解決分塊本身的問題。HiChunk的核心是“讓分塊像人讀文檔一樣,先看章節(jié),再看段落”,具體分兩步:

第一步:用大模型“讀懂”文檔層級(jí)
傳統(tǒng)分塊要么靠規(guī)則(固定長(zhǎng)度),要么靠相似度(相鄰句子像不像),而HiChunk直接用微調(diào)后的大模型(基于Qwen3-4B)“理解”文檔結(jié)構(gòu),輸出“分層分塊點(diǎn)”。
比如處理一篇論文,大模型會(huì)自動(dòng)識(shí)別:
- 第1層級(jí)分塊點(diǎn):摘要、引言、實(shí)驗(yàn)、結(jié)論的分隔處;
- 第2層級(jí)分塊點(diǎn):引言下“研究背景”“現(xiàn)有問題”的分隔處;
- 第3層級(jí)分塊點(diǎn):“現(xiàn)有問題”下“分塊問題”“評(píng)估問題”的分隔處。
這樣一來,文檔就從“扁平的文本流”變成了“有樹狀結(jié)構(gòu)的語義塊”,就像給文檔建了一個(gè)“目錄”,后續(xù)檢索能精準(zhǔn)定位到“章節(jié)-子章節(jié)”級(jí)別。
針對(duì)超長(zhǎng)文檔(比如50頁的報(bào)告),HiChunk還設(shè)計(jì)了“迭代推理”:先處理前N個(gè)句子,標(biāo)出局部分塊點(diǎn),再銜接下一部分,避免大模型“看不完長(zhǎng)文檔”的問題。

第二步:自動(dòng)合并算法——?jiǎng)討B(tài)適配檢索需求
分層分塊解決了“結(jié)構(gòu)問題”,但新問題來了:HiChunk 構(gòu)建的分層樹結(jié)構(gòu)具備語義完整性,但語義分塊方法導(dǎo)致的分塊長(zhǎng)度分布差異可能引發(fā)語義粒度不一致問題,進(jìn)而影響檢索質(zhì)量。簡(jiǎn)單來說,不同語義塊的長(zhǎng)度不一樣(比如一個(gè)章節(jié)3000詞,一個(gè)子章節(jié)500詞),直接檢索可能要么“抓太多冗余”,要么“漏關(guān)鍵信息”。
為緩解這一問題,HiChunk 在分塊結(jié)果的基礎(chǔ)上采用固定大小分塊方式,得到分塊序列C[1:M],并提出 自動(dòng)合并(Auto-Merge)檢索算法,以平衡語義粒度差異與檢索分塊的語義完整性問題。
它的核心邏輯是:根據(jù)查詢需求和Token預(yù)算,動(dòng)態(tài)把小分塊合并成大分塊,或保留小分塊。
舉個(gè)例子:假設(shè)檢索Token預(yù)算是4096詞,查詢是“文檔中氣候變化的解決方案有哪些?”,算法會(huì)這么做:
- 先檢索出和“解決方案”相關(guān)的小分塊(比如“政策方案”“技術(shù)方案”兩個(gè)子章節(jié)塊,各800詞);
- 檢查條件:這兩個(gè)塊的父塊是“解決方案”(2000詞),且當(dāng)前用了1600詞(沒超預(yù)算),滿足“子塊交集≥2個(gè)、長(zhǎng)度夠、預(yù)算夠”的條件;
- 自動(dòng)合并:把兩個(gè)子塊合并成“解決方案”父塊,這樣檢索到的信息更完整,還沒超預(yù)算。
如果查詢是“政策方案里提到的碳稅措施有哪些?”,算法則會(huì)保留“政策方案”這個(gè)小分塊,不合并——避免把“技術(shù)方案”的內(nèi)容帶進(jìn)來,減少冗余。
簡(jiǎn)單說,這個(gè)算法讓RAG的檢索從“固定粒度”變成了“按需調(diào)整”,既不浪費(fèi)Token,又能保證信息完整。

四、實(shí)驗(yàn)說話:HiChunk到底好不好用?
HiChunk在多個(gè)數(shù)據(jù)集上做了對(duì)比實(shí)驗(yàn),結(jié)果很直觀——我們挑幾個(gè)關(guān)鍵結(jié)論看:
分塊更準(zhǔn):層級(jí)識(shí)別能力遠(yuǎn)超傳統(tǒng)方法
在Qasper(學(xué)術(shù)論文數(shù)據(jù)集)和Gov-report(政府報(bào)告數(shù)據(jù)集)上,HiChunk的分塊點(diǎn)F1值(越接近1越準(zhǔn))比傳統(tǒng)語義分塊(SC、LumberChunker)高15%-20%。哪怕在沒見過的“域外數(shù)據(jù)集”(比如陌生領(lǐng)域的報(bào)告)上,優(yōu)勢(shì)更明顯——說明它真的“懂”文檔結(jié)構(gòu),而不是死記硬背。
這些結(jié)果表明,HC 方法通過專注于分塊任務(wù),有效提升了基礎(chǔ)模型在文檔分塊中的性能。

RAG效果更好:尤其在密集證據(jù)場(chǎng)景
在HiCBench的T1(單塊密集)和T2(多塊密集)任務(wù)中,HiChunk(HC200+AM)的回答F1值比固定分塊(FC200)高10%-12%,比傳統(tǒng)語義分塊(LC)高5%-8%。而在T0(稀疏證據(jù))任務(wù)中,差距不大——這正好說明:在需要完整語義塊的場(chǎng)景下,HiChunk的優(yōu)勢(shì)才真正凸顯,而這正是企業(yè)知識(shí)庫(kù)、學(xué)術(shù)檢索等核心場(chǎng)景的需求。

速度夠快:兼顧質(zhì)量和效率
語義分塊LC 方法雖表現(xiàn)出較好的分塊質(zhì)量,但其分塊速度遠(yuǎn)慢于其他基于語義的分塊方法,處理一篇長(zhǎng)文檔要好幾分鐘,這限制了其在實(shí)際應(yīng)用中的適用性。而HiChunk的分塊速度是它的3-5倍,同時(shí)保持了更高的分塊質(zhì)量。對(duì)企業(yè)來說,這意味著“既能保證回答準(zhǔn),又能讓用戶等得少”,落地性大大提升。

檢索 Token 預(yù)算的影響
結(jié)果表明,更大的檢索 Token 預(yù)算通常能帶來更優(yōu)的響應(yīng)質(zhì)量,因此在相同的檢索 Token 預(yù)算下對(duì)比不同分塊方法十分必要。在各種檢索 Token 預(yù)算設(shè)置下,HC200+AM 方法始終保持著更優(yōu)的響應(yīng)質(zhì)量,這些實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí)了 HC200+AM 方法的有效性。

文檔結(jié)構(gòu)最大層級(jí)的影響
文檔結(jié)構(gòu)的最大層級(jí)范圍設(shè)為 1 至 4,分別記為 L1 至 L4;其中 LA 代表不限制最大層級(jí)。通過實(shí)驗(yàn)驗(yàn)證HiChunk 所得到的文檔結(jié)構(gòu)最大層級(jí)對(duì)實(shí)驗(yàn)結(jié)果的影響。
結(jié)果顯示,在L1設(shè)置下(即僅保留第 1 層級(jí)分塊),由于分塊的語義粒度過于粗糙,自動(dòng)合并(Auto-Merge)檢索算法會(huì)導(dǎo)致 RAG 系統(tǒng)性能下降;當(dāng)最大層級(jí)從 1 增加到 3 時(shí),證據(jù)召回率指標(biāo)逐漸提升,且在層級(jí)達(dá)到 3 之后基本保持穩(wěn)定。這些結(jié)果凸顯了文檔層級(jí)結(jié)構(gòu)對(duì)提升 RAG 系統(tǒng)性能的重要性。

五、總結(jié)
HiChunk不只是一個(gè)技術(shù)框架,更給RAG落地提供了明確方向:
- 分塊要“懂結(jié)構(gòu)”:別再只盯著“固定長(zhǎng)度”或“句子相似度”,優(yōu)先利用文檔的天然層級(jí)(章節(jié)、標(biāo)題),HiChunk的分層思路可直接參考;
- 檢索要“動(dòng)態(tài)調(diào)”:Auto-Merge算法的核心是“按需合并”,在設(shè)計(jì)檢索邏輯時(shí),可加入“子塊數(shù)量”“Token預(yù)算”等條件,平衡召回率和冗余度;
- 場(chǎng)景優(yōu)先選“密集證據(jù)”:HiChunk在企業(yè)知識(shí)庫(kù)、學(xué)術(shù)問答、法律文檔檢索等“需要完整語義塊”的場(chǎng)景中價(jià)值最大,可優(yōu)先落地這些場(chǎng)景;
- 性能指標(biāo)看“雙維度”:評(píng)估RAG產(chǎn)品時(shí),別只看“回答準(zhǔn)確率”,還要加“分塊完整性”(比如HiCBench的Fact-Cov指標(biāo)),避免“分塊差導(dǎo)致的準(zhǔn)確率低”被誤判為“檢索器不行”。
過去做RAG,很多人把精力放在“檢索器怎么調(diào)”“大模型怎么換”上,卻忽略了“分塊”這個(gè)基礎(chǔ)環(huán)節(jié)。HiChunk的價(jià)值在于:它讓“分塊”從“無差別切割”變成了“有結(jié)構(gòu)的語義組織”,讓RAG的每一步都更“精準(zhǔn)”。
對(duì)行業(yè)來說,這可能是一個(gè)信號(hào):RAG的競(jìng)爭(zhēng)正在從“堆模型、堆數(shù)據(jù)”走向“精細(xì)化優(yōu)化”——誰能把分塊、檢索、生成的每個(gè)環(huán)節(jié)都打磨到位,誰就能做出更實(shí)用的AI產(chǎn)品。
最后,附上論文和項(xiàng)目地址,感興趣的同學(xué)可以深入研究:
論文地址:https://arxiv.org/pdf/2509.11552
項(xiàng)目地址(HiCBench數(shù)據(jù)集):https://huggingface.co/datasets/Youtu-RAG/HiCBench



























