偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

告別固定分塊!2024 EMNLP 新方法 LumberChunker:用 LLM 實(shí)現(xiàn)動(dòng)態(tài)語(yǔ)義分塊,檢索效果顯著提升

人工智能
2024 年 EMNLP 收錄的論文 LumberChunker 為這一痛點(diǎn)提供了新思路:不依賴固定規(guī)則,而是讓 LLM 直接 “讀懂” 文本語(yǔ)義,動(dòng)態(tài)判斷分塊邊界。本文將帶你深入拆解這一方法,看看它如何通過(guò)簡(jiǎn)單的提示詞策略,實(shí)現(xiàn)比傳統(tǒng)方法更優(yōu)的分塊效果,以及它為檢索和生成任務(wù)帶來(lái)的實(shí)際提升。

在大語(yǔ)言模型(LLM)主導(dǎo)的現(xiàn)代 NLP 領(lǐng)域,密集檢索已成為問(wèn)答、摘要、知識(shí)問(wèn)答等任務(wù)的核心支撐 —— 畢竟模型再?gòu)?qiáng)大,也需要精準(zhǔn)的外部上下文來(lái)避免 “幻覺(jué)”、獲取最新信息。但檢索效果的好壞,往往卡在一個(gè)容易被忽視的環(huán)節(jié):文本分塊。

傳統(tǒng)分塊方法(按句子、段落或固定長(zhǎng)度切割)就像用尺子機(jī)械丈量文本,完全忽略了內(nèi)容的語(yǔ)義關(guān)聯(lián)性:要么把一個(gè)完整的概念拆得七零八落,導(dǎo)致檢索片段上下文殘缺;要么把多個(gè)無(wú)關(guān)主題硬塞進(jìn)一個(gè)塊里,引入大量噪聲。這些問(wèn)題在處理長(zhǎng)篇敘事文本(如小說(shuō)、自傳、法律文檔)時(shí)尤為突出,直接拖累檢索性能,甚至讓后續(xù)的 RAG (檢索增強(qiáng)生成)系統(tǒng) “巧婦難為無(wú)米之炊”。

2024 年 EMNLP 收錄的論文 LumberChunker 為這一痛點(diǎn)提供了新思路:不依賴固定規(guī)則,而是讓 LLM 直接 “讀懂” 文本語(yǔ)義,動(dòng)態(tài)判斷分塊邊界。本文將帶你深入拆解這一方法,看看它如何通過(guò)簡(jiǎn)單的提示詞策略,實(shí)現(xiàn)比傳統(tǒng)方法更優(yōu)的分塊效果,以及它為檢索和生成任務(wù)帶來(lái)的實(shí)際提升。

論文地址:https://arxiv.org/pdf/2406.17526

項(xiàng)目地址:https://github.com/joaodsmarques/LumberChunker

1、為什么需要重新思考 “文檔分塊”?

在聊 LumberChunker 之前,我們先明確一個(gè)核心問(wèn)題:分塊到底有多重要?以及現(xiàn)有方法的瓶頸在哪里?

研究動(dòng)機(jī):分塊是檢索的“第一道門檻”

現(xiàn)代 NLP 任務(wù)對(duì)檢索的依賴越來(lái)越深,但傳統(tǒng)分塊方法正在拖后腿:

  • 語(yǔ)義獨(dú)立性缺失:按句子、段落分割時(shí),可能把“人物背景-事件起因”拆成兩個(gè)塊,或把“案件描述-判決結(jié)果”混在一個(gè)塊里,導(dǎo)致檢索到的片段要么“不完整”,要么“冗余”;
  • 長(zhǎng)篇文本處理乏力:面對(duì)小說(shuō)、自傳等敘事性文本,固定粒度分塊無(wú)法適應(yīng)內(nèi)容的邏輯跳轉(zhuǎn)(比如從“回憶”切換到“現(xiàn)實(shí)”),檢索時(shí)容易定位到錯(cuò)誤片段;
  • LLM“幻覺(jué)”風(fēng)險(xiǎn)加?。喝绻麢z索到的分塊上下文殘缺或無(wú)關(guān)信息過(guò)多,LLM 在生成響應(yīng)時(shí)可能基于錯(cuò)誤信息“胡編亂造”,這在法律、醫(yī)療等對(duì)準(zhǔn)確性要求極高的場(chǎng)景中風(fēng)險(xiǎn)巨大。

研究現(xiàn)狀:現(xiàn)有分塊方法的局限

學(xué)術(shù)界并非沒(méi)有嘗試解決分塊問(wèn)題,但現(xiàn)有方案仍有明顯短板:

分塊方法

核心思路

局限性

固定粒度分割(句子/段落)

按語(yǔ)法結(jié)構(gòu)或固定長(zhǎng)度切割

完全忽略語(yǔ)義關(guān)聯(lián)性,敘事文本中效果差

語(yǔ)義聚類分割

用文本嵌入向量聚類,找嵌入距離突變點(diǎn)作為分割點(diǎn)

依賴嵌入質(zhì)量,對(duì)長(zhǎng)文本的邏輯結(jié)構(gòu)捕捉不足

命題級(jí)分割

拆分成“單個(gè)事實(shí)”的最小單元

粒度過(guò)細(xì),破壞敘事文本的上下文連貫性

查詢調(diào)整方法(如 HyDE)

不優(yōu)化分塊,而是讓 LLM 改寫查詢以匹配文檔

回避分塊問(wèn)題,對(duì)“查詢無(wú)法覆蓋關(guān)鍵信息”的場(chǎng)景無(wú)效

正是這些局限,讓 LumberChunker 的出現(xiàn)有了明確的目標(biāo):用 LLM 的語(yǔ)義理解能力,實(shí)現(xiàn)“按需分塊”——該長(zhǎng)則長(zhǎng),該短則短,確保每個(gè)塊都是語(yǔ)義獨(dú)立且完整的單元

2、LumberChunker:動(dòng)態(tài)切割語(yǔ)義塊

LumberChunker 的名字很形象——把 LLM 比作“木匠(Lumberjack)”,文檔比作“木材”,木匠會(huì)根據(jù)木材的紋理(文本語(yǔ)義)決定切割位置,而不是用尺子硬切。  

核心理念:兩大突破  

  1. 動(dòng)態(tài)粒度,而非固定規(guī)則:每個(gè)分塊的大小由內(nèi)容語(yǔ)義決定,比如“人物生平”部分可能需要較大的塊來(lái)保持連貫性,而“事件時(shí)間線”則可能拆成多個(gè)小塊;
  2. LLM 直接判斷,無(wú)需微調(diào):不訓(xùn)練專門的分塊模型,而是通過(guò)精心設(shè)計(jì)的提示詞,讓 LLM 直接識(shí)別“內(nèi)容開始變化的段落”,從而確定分割點(diǎn)——這意味著實(shí)現(xiàn)成本極低,只需調(diào)用 LLM API 即可。

具體流程:四步完成動(dòng)態(tài)分塊

  1. 步驟 1:段落提取與編號(hào)
    先將文檔按原始段落拆分,給每個(gè)段落分配唯一的遞增 ID(如 P1、P2、P3...),確保后續(xù)能精準(zhǔn)定位分割點(diǎn)。
  2. 步驟 2:分組輸入(控制上下文長(zhǎng)度)
    把段落按順序拼接成“分組 G_i”,直到該分組的總 Token 數(shù)達(dá)到預(yù)設(shè)閾值 θ(論文中重點(diǎn)研究了 θ 的最優(yōu)值)。設(shè)置 θ 的目的是平衡:既不讓上下文太短導(dǎo)致 LLM 看不到完整語(yǔ)義,也不讓上下文太長(zhǎng)影響 LLM 的判斷精度。
  3. 步驟 3:LLM 判斷分割點(diǎn)
    將分組 G_i 輸入 LLM(論文使用 Gemini 1.0-Pro),通過(guò)提示詞讓 LLM 回答:“G_i 中哪個(gè)段落開始,內(nèi)容與前文發(fā)生了顯著變化?”
    比如輸入 P1-P5 的分組,LLM 可能判斷“P3 開始內(nèi)容切換”,那么 P1-P2 就構(gòu)成一個(gè)分塊,P3 則作為下一個(gè)分組 G_{i+1} 的起始點(diǎn)。
  4. 步驟 4:循環(huán)迭代,覆蓋全文檔
    重復(fù)“分組→判斷”過(guò)程,直到所有段落都被分配到對(duì)應(yīng)的分塊中,最終得到一系列語(yǔ)義獨(dú)立的塊。

關(guān)鍵細(xì)節(jié):提示詞設(shè)計(jì)  

LLM 能精準(zhǔn)判斷分割點(diǎn),離不開高質(zhì)量的提示詞。論文中的提示詞如下:

圖片

3、GutenQA

要證明 LumberChunker 有效,需要一個(gè)能精準(zhǔn)測(cè)試“分塊-檢索”能力的數(shù)據(jù)集——現(xiàn)有數(shù)據(jù)集要么問(wèn)題太泛(如“總結(jié)文檔大意”),要么文本太短(無(wú)法體現(xiàn)分塊價(jià)值)。因此,論文團(tuán)隊(duì)手動(dòng)構(gòu)建了 GutenQA 基準(zhǔn)數(shù)據(jù)集。  

數(shù)據(jù)集特點(diǎn):“針在草堆”式問(wèn)答

GutenQA 的核心設(shè)計(jì)目標(biāo)是:測(cè)試檢索系統(tǒng)能否從長(zhǎng)篇敘事文本中,精準(zhǔn)定位到“唯一且具體”的信息——就像在草堆里找一根特定的針。具體特點(diǎn)包括:

  • 數(shù)據(jù)來(lái)源:從 Project Gutenberg(古騰堡計(jì)劃,免費(fèi)公共領(lǐng)域書籍庫(kù))中手動(dòng)提取 100 本敘事類書籍(小說(shuō)、自傳等),避免自動(dòng)提取的編碼錯(cuò)誤(如亂碼、段落錯(cuò)位);
  • 問(wèn)題設(shè)計(jì):用 GPT-3.5 生成“事實(shí)性、低重復(fù)”的問(wèn)題,比如“主角在 1923 年居住的城市是哪里?”“第三章中提到的實(shí)驗(yàn)設(shè)備名稱是什么?”——這類問(wèn)題的答案只存在于文本的某個(gè)特定片段,無(wú)法通過(guò)泛泛檢索回答;
  • 數(shù)據(jù)規(guī)模:每本書篩選 30 個(gè)高質(zhì)量問(wèn)題,最終包含 3000 個(gè)問(wèn)答對(duì),覆蓋多種敘事風(fēng)格。

為什么 GutenQA 適合評(píng)估分塊?

傳統(tǒng)數(shù)據(jù)集的問(wèn)題可能有多個(gè)答案片段,或答案分布在多個(gè)位置,即使分塊不好,也能通過(guò)“湊信息”答對(duì)。而 GutenQA 的問(wèn)題答案高度集中且唯一——只有分塊精準(zhǔn),才能檢索到包含答案的塊;分塊一旦出錯(cuò),檢索必然失敗。這種設(shè)計(jì)能最大化區(qū)分不同分塊方法的優(yōu)劣。  

4、實(shí)驗(yàn)驗(yàn)證

論文通過(guò)三組核心實(shí)驗(yàn),從“參數(shù)優(yōu)化”“檢索效果”“生成質(zhì)量”三個(gè)維度驗(yàn)證了 LumberChunker 的價(jià)值,我們逐一拆解關(guān)鍵結(jié)果。

實(shí)驗(yàn) 1:最優(yōu) Token 閾值 θ 是多少?

問(wèn)題:分組 G_i 的 Token 閾值 θ(即每次輸入給 LLM 的上下文長(zhǎng)度)對(duì)分塊效果有影響嗎?最優(yōu)值是多少?

實(shí)驗(yàn)設(shè)計(jì):測(cè)試 θ ∈ [450, 1000] 時(shí),LumberChunker 在 GutenQA 上的檢索性能(用 DCG@k 和 Recall@k 衡量,分?jǐn)?shù)越高越好)。

關(guān)鍵結(jié)果

當(dāng) θ = 550 時(shí),LumberChunker 在所有 k 值下(k=1,5,10,20)均獲得最高 DCG 分?jǐn)?shù)。

  • θ 太?。ㄈ?450):LLM 看不到足夠的上下文,容易誤判分割點(diǎn);
  • θ 太大(如 1000):上下文過(guò)長(zhǎng),LLM 難以聚焦語(yǔ)義變化,判斷精度下降;
  • θ=550:在“上下文完整性”和“判斷精度”之間達(dá)到最佳平衡。

圖片

實(shí)驗(yàn) 2:LumberChunker 比傳統(tǒng)分塊方法好嗎?

問(wèn)題:在檢索任務(wù)中,LumberChunker 能否超越語(yǔ)義分塊、段落分塊、遞歸分塊等基線方法?

實(shí)驗(yàn)設(shè)計(jì):用 GutenQA 的 3000 個(gè)問(wèn)題,對(duì)比 LumberChunker 與 5 種基線方法的檢索性能。

關(guān)鍵結(jié)果

LumberChunker 在所有指標(biāo)上全面領(lǐng)先:

  • 在 DCG@20 上,LumberChunker 得分為 62.09,而最接近的基線(遞歸分塊)僅為 54.72;
  • 在 Recall@20 上,LumberChunker 同樣顯著高于其他方法,說(shuō)明它能更精準(zhǔn)地定位到包含答案的塊。

圖片

基線方法的局限

  • 段落分塊/語(yǔ)義分塊:粒度過(guò)細(xì),塊數(shù)量多,檢索時(shí)容易混入無(wú)關(guān)塊;
  • 命題級(jí)分塊:破壞敘事連貫性,答案可能被拆到多個(gè)塊中,導(dǎo)致檢索失?。?/span>
  • HyDE(查詢調(diào)整方法):雖然優(yōu)化了查詢,但分塊本身質(zhì)量差,無(wú)法彌補(bǔ)基礎(chǔ)缺陷。

實(shí)驗(yàn) 3:分塊好,生成質(zhì)量就一定高嗎?  

問(wèn)題:LumberChunker 的分塊能否提升 RAG 系統(tǒng)的生成質(zhì)量(即問(wèn)答準(zhǔn)確率)?

實(shí)驗(yàn)設(shè)計(jì):將 LumberChunker 集成到 RAG 流程中,基于 4 本自傳創(chuàng)建 280 個(gè)測(cè)試問(wèn)題,對(duì)比它與“手動(dòng)分塊(黃金標(biāo)準(zhǔn))”“Gemini 1.5 Pro 分塊”“閉卷生成”的問(wèn)答準(zhǔn)確率。

關(guān)鍵結(jié)果

LumberChunker 集成的 RAG 系統(tǒng)表現(xiàn)出色:

  • 在 k=20 時(shí),LumberChunker 的問(wèn)答準(zhǔn)確率顯著高于遞歸分塊、Gemini 1.5 Pro 分塊;
  • 僅略低于“手動(dòng)分塊”(手動(dòng)分塊準(zhǔn)確率最高,但成本極高,無(wú)法大規(guī)模應(yīng)用);
  • 閉卷生成(不檢索)的準(zhǔn)確率最低,再次證明“好分塊→好檢索→好生成”的邏輯鏈。

圖片

這一結(jié)果說(shuō)明:LumberChunker 不僅能優(yōu)化檢索,還能直接為下游生成任務(wù)帶來(lái)實(shí)際價(jià)值,是 RAG 系統(tǒng)的“優(yōu)質(zhì)燃料”。

補(bǔ)充:分塊數(shù)量與效率對(duì)比

除了性能,分塊的“實(shí)用性”也很重要——比如塊數(shù)量太多會(huì)增加檢索成本,處理時(shí)間太長(zhǎng)會(huì)影響實(shí)時(shí)性。論文給出的統(tǒng)計(jì)結(jié)果如下:

  • 分塊數(shù)量:
    LumberChunker:由于其動(dòng)態(tài)分割的特性,生成的塊數(shù)量會(huì)根據(jù)文檔內(nèi)容的變化而變化,但總體上能夠保持塊的獨(dú)立性和連貫性。
    語(yǔ)義分割和段落級(jí)分割:由于分割粒度較細(xì),生成的塊數(shù)量較多,導(dǎo)致每個(gè)塊的上下文信息可能不足。
    遞歸分割:生成的塊數(shù)量適中,但塊的大小固定,無(wú)法動(dòng)態(tài)調(diào)整。
    命題級(jí)分割:生成的塊數(shù)量最多,但每個(gè)塊的粒度過(guò)細(xì),可能導(dǎo)致上下文信息丟失。

圖片

  • 處理效率:

    LumberChunker:雖然處理時(shí)間較長(zhǎng),但其動(dòng)態(tài)分割方法在語(yǔ)義獨(dú)立性和檢索性能上具有顯著優(yōu)勢(shì)。未來(lái)可通過(guò)“減少 LLM 查詢次數(shù)”“并行處理”進(jìn)一步優(yōu)化速度。
    遞歸分割:處理時(shí)間最短,但缺乏語(yǔ)義理解。適用于對(duì)效率要求極高的場(chǎng)景,但可能犧牲一定的語(yǔ)義分割精度。
    語(yǔ)義分割和命題級(jí)分割:處理時(shí)間較長(zhǎng),但能夠捕捉一定的語(yǔ)義信息。優(yōu)化方向包括優(yōu)化嵌入計(jì)算和簡(jiǎn)化聚類算法。
    HyDE:處理時(shí)間適中,但分割粒度固定,靈活性較差。

圖片


5、總結(jié)

LumberChunker 給我們的最大啟示是:在 LLM 時(shí)代,分塊不需要“另起爐灶”訓(xùn)練模型,而是可以直接利用 LLM 已有的語(yǔ)義理解能力,通過(guò)提示詞實(shí)現(xiàn)低成本、高質(zhì)量的動(dòng)態(tài)分塊

核心優(yōu)勢(shì)

  1. 效果優(yōu):在長(zhǎng)篇敘事文本的檢索和 RAG 任務(wù)中,顯著超越傳統(tǒng)分塊方法;
  2. 易實(shí)現(xiàn):無(wú)需微調(diào),僅靠提示詞+LLM 調(diào)用即可落地,代碼開源(見(jiàn)文末鏈接);
  3. 普適性強(qiáng):不局限于特定文本類型,理論上可應(yīng)用于法律、醫(yī)療、文學(xué)等多種領(lǐng)域的長(zhǎng)文檔。

待優(yōu)化方向

  • 效率:調(diào)用 LLM 導(dǎo)致分塊時(shí)間較長(zhǎng),需探索“批量處理”“輕量模型替代”等方案;
  • 極端長(zhǎng)文檔:對(duì)于百萬(wàn) Token 級(jí)別的超長(zhǎng)篇文檔,如何進(jìn)一步優(yōu)化分組策略,減少 LLM 上下文壓力。

在實(shí)際應(yīng)用過(guò)程中,分塊效果對(duì)RAG的影響確實(shí)遠(yuǎn)優(yōu)于固定分塊,并且LumberChunker同樣適用于中文文本分塊。如果你正在做 RAG 系統(tǒng)優(yōu)化,或被長(zhǎng)文檔分塊問(wèn)題困擾,不妨試試 LumberChunker——畢竟,好的分塊,是讓 LLM 發(fā)揮實(shí)力的第一步。

責(zé)任編輯:龐桂玉 來(lái)源: 小白學(xué)AI算法
相關(guān)推薦

2025-08-29 09:09:00

AI模型數(shù)據(jù)

2025-04-02 04:00:00

RAG分塊優(yōu)化

2025-05-07 08:35:11

2015-06-05 09:27:13

無(wú)線WiFi

2025-05-09 03:55:00

2025-01-23 08:00:00

2025-07-25 10:35:12

2025-07-24 04:00:00

2025-08-19 08:54:57

2024-12-23 08:03:13

2025-03-27 02:50:00

2009-11-13 09:58:55

釣魚網(wǎng)站網(wǎng)絡(luò)安全

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2025-08-15 10:45:45

2010-06-18 09:48:22

2025-03-07 09:24:00

2025-06-11 09:17:00

2025-06-30 04:15:00

2024-09-03 14:10:00

模型測(cè)試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)