攻克結構化長文檔檢索難題!新框架讓模型告別“結構性失明”
AI讀不懂HTML、Markdown長文檔的標題和結構,找信息總踩坑?
解決方案來了——
SEAL全新對比學習框架通過帶結構感知+元素對齊,讓模型更懂長文。

該方法創(chuàng)新性地將文檔的宏觀層級結構和微觀元素語義同時融入到統(tǒng)一的Embedding空間中,顯著增強了預訓練語言模型對結構化數(shù)據(jù)的理解和表示能力。
在BGE-M3模型上將MRR@10(信息檢索能力評估集)指標從73.96%提升到77.84%,并在真實的線上A/B測試中驗證了其有效性。

團隊不僅提升了長文檔檢索準確率,還開源了萬級字數(shù)長文檔數(shù)據(jù)集。
下面具體來看。
對Embedding模型進行的兩項專門“輔導”
結構化長文檔檢索中的常見挑戰(zhàn)
在日常工作和學習中,我們常常需要從篇幅浩繁的文檔中尋找特定信息,例如技術手冊、法律文書或研究報告。面對這些結構復雜的長文本,即便是先進的Embedding模型,也可能在信息檢索時表現(xiàn)不佳。
一個關鍵原因是,現(xiàn)有方法在處理結構化長文檔時,大多將其視為一長串無差別的純文本,忽略了標題、段落、列表等固有的結構信息。
這種對文檔層次脈絡的“視而不見”,可以稱之為結構性失明(Structural Blindness),它限制了Embedding模型對文檔深層語義的理解能力。
針對這一挑戰(zhàn),團隊提出了名為SEAL (Structure and Element Aware Learning) 的對比學習框架,嘗試讓Embedding模型更好地理解和利用文檔的結構信息。
核心解讀:SEAL框架的設計思路
該研究旨在解決長文檔檢索中的兩個具體問題:
- 一是如何讓模型感知文檔的層次結構;
 - 二是如何促進用戶查詢與文檔內(nèi)部具體元素之間的精準對齊。
 
SEAL框架為此設計了兩種相輔相成的訓練策略??梢詫⑵淅斫鉃閷mbedding模型進行的兩項專門“輔導”。

結構感知學習(SAL)嘗試理解文檔的“骨架”
傳統(tǒng)的Embedding模型在讀取HTML等格式的文檔時,往往會剝離等結構標簽。SAL的核心思路則有所不同。
它在訓練時會向模型同時展示一份文檔的兩個版本:一個保留了結構標簽,另一個則去除了標簽。
通過對比學習的任務,模型被鼓勵去發(fā)現(xiàn),即使沒有明確的標簽,某些文本片段(如標題)的內(nèi)容和位置也蘊含著其結構功能。通過這種方式,模型能夠逐步學習到文檔的內(nèi)在”骨架”,區(qū)分不同部分的邏輯功能。
元素感知對齊(EAL)關注局部元素的語義角色
為了進一步提升模型對細節(jié)的把握,EAL策略引入了一種基于元素(如一個標題或一個段落)的Mask機制。在訓練中會按照固定比例隨機Mask文檔中的一小部分元素,然后要求模型判斷這份信息不完整的文檔是否與給定的Query相關。
為了完成任務,模型必須更依賴文本內(nèi)容本身以及周圍未被遮蓋的元素來推斷文檔的整體相關性。這個過程促使模型更深入地理解每個文本片段的語義角色及其在上下文中的作用。
實驗結果表明,這兩種訓練策略的結合能夠帶來積極效果。
在BGE-M3模型上的測試顯示,應用SEAL框架后,衡量檢索排序質(zhì)量的關鍵指標MRR@10從73.96%提升至77.84%。

這一數(shù)據(jù)表明,模型在將更相關的結果排在靠前位置的能力上有所增強。同時,線上A/B測試的結果也初步顯示了該方法在實際應用場景中的積極影響。
開源萬詞級文檔數(shù)據(jù)集
同時,該團隊還發(fā)布了一個名為StructDocRetrieval的新數(shù)據(jù)集,其中包含帶有結構標注的萬詞級別長文檔。
該數(shù)據(jù)集的文檔詞數(shù)遠超MS MARCO等典型短數(shù)據(jù)集(MS MARCO大多文檔不到700字,最長1670字 ),填補了該領域的數(shù)據(jù)空白。
并且,它利用HTML格式來表示文檔,包含了豐富的結構語義標注。

△StructDocRetrieval的一個數(shù)據(jù)樣例
這個資源的公開,為社區(qū)評估和開發(fā)面向長文檔的檢索模型提供了一個新的Benchmark。
總的來說,通過SEAL方法這種對結構信息的精細理解,不僅能為RAG等下游任務提供更可靠信息來源(如助力AI助手精準定位技術文檔答案),也在企業(yè)知識庫、法律科技等專業(yè)領域展現(xiàn)出廣闊應用前景。
感興趣的朋友可以到原文查看更多內(nèi)容~
論文地址:https://arxiv.org/abs/2508.20778















 
 
 










 
 
 
 