RAG 文檔解析工具選型指南 原創(chuàng)
編者按: 當(dāng)你需要為?RAG?系統(tǒng)選擇文檔解析工具時(shí),面對?GitHub?上數(shù)百個(gè)開源項(xiàng)目和各種商業(yè)解決方案,你是否感到無從下手?
本文基于作者在實(shí)際項(xiàng)目中的工具使用經(jīng)驗(yàn),系統(tǒng)梳理了處理不同類型文檔的工具選擇。從知識圖譜處理的 GRAG、KG-RAG、GNN-RAG 等工具,到表格解析的 TableRAG、TA。從 HTML 處理的 BeautifulSoup、HtmlRAG,到 PDF 解析的 MinerU、GPTPDF、Marker,再到多模態(tài)處理的 CLIP、Wav2Vec 2.0 等。期待本文能夠幫助你快速找到最適合自己項(xiàng)目需求的技術(shù)方案。
作者 | Florian June
編譯 | 岳揚(yáng)
對于 RAG 系統(tǒng)而言,從文檔中提取信息是一個(gè)不可避免的情況。最終系統(tǒng)輸出的質(zhì)量很大程度上取決于從源內(nèi)容中提取信息的效果。
過去,我曾從不同角度探討過文檔解析問題[1]。本文結(jié)合近期一篇 RAG 調(diào)查報(bào)告[2]的發(fā)現(xiàn)與我之前的部分研究,對 RAG 系統(tǒng)如何解析和整合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化和多模態(tài)知識進(jìn)行了簡明概括。

Figure 1: RAG 系統(tǒng)整合的多種知識類型,涵蓋結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化和多模態(tài)知識。[Source[2]]
01 結(jié)構(gòu)化知識:數(shù)據(jù)按規(guī)則組織的范式
1.1 知識圖譜:易于查詢,便于使用,難以集成
知識圖譜以一種清晰、互聯(lián)的方式描述實(shí)體及其關(guān)系,使其成為機(jī)器系統(tǒng)的圖譜遍歷與查詢的理想選擇。
RAG 系統(tǒng)非常喜歡這樣的結(jié)構(gòu)化數(shù)據(jù)源 —— 它們精確且語義豐富。但真正的挑戰(zhàn)不在于查找數(shù)據(jù),而在于如何有效地利用它。
- 如何從海量知識圖譜中提取有意義的子圖?
- 如何將結(jié)構(gòu)化的圖譜數(shù)據(jù)與自然語言對齊?
- 隨著圖譜規(guī)模的增長,系統(tǒng)是否仍能保持高效?
一些有前景的解決方案正逐步解決這些問題:
- GRAG?從多個(gè)文檔中檢索子圖,來生成更聚焦的輸入。
- KG-RAG?采用探索鏈算法(Chain of Explorations,CoE)來優(yōu)化基于知識圖譜的問答性能。
- GNN-RAG?采用圖神經(jīng)網(wǎng)絡(luò)(GNN)檢索和處理來自知識圖譜(KG)的信息,在數(shù)據(jù)輸入大語言模型(LLM)之前先進(jìn)行一輪推理。
- SURGE?框架利用知識圖譜生成更具相關(guān)性和知識感知(knowledge-aware)的對話,從而提升交互質(zhì)量。
- 在特定領(lǐng)域,諸如?SMART-SLIC、KARE、ToG2.0?和?KAG[3]?等工具已充分證明,知識圖譜作為外部知識源可以發(fā)揮多么強(qiáng)大的作用,可幫助 RAG 系統(tǒng)同時(shí)提升準(zhǔn)確性和效率。
1.2 表格:結(jié)構(gòu)緊湊、數(shù)據(jù)密集且解析困難
表格也是一種結(jié)構(gòu)化數(shù)據(jù) —— 但它們與知識圖譜截然不同。幾行幾列就可能蘊(yùn)含著大量信息。但如何讓機(jī)器理解這些信息?那完全是另一回事了。
表格中未明示的邏輯關(guān)系、格式不一致、專業(yè)領(lǐng)域內(nèi)特有的知識…表格數(shù)據(jù)常游走于秩序與混沌之間。幸運(yùn)的是,已有專門處理此類復(fù)雜情況的工具:
- TableRAG[4]?結(jié)合查詢擴(kuò)展(query expansion)、表結(jié)構(gòu)與單元格檢索(schema and cell retrieval),在將信息傳遞給語言模型前精準(zhǔn)識別關(guān)鍵內(nèi)容。
- TAG?和?Extreme-RAG?則更進(jìn)一步整合了 Text-to-SQL 能力,使語言模型能夠直接“操作數(shù)據(jù)庫”。
核心結(jié)論?若能有效解析表格,它們就是價(jià)值極高的信息源。
02 半結(jié)構(gòu)化數(shù)據(jù):HTML、JSON 以及網(wǎng)絡(luò)數(shù)據(jù)的雜亂中間態(tài)
半結(jié)構(gòu)化數(shù)據(jù)就像數(shù)據(jù)世界的“家中老二(middle child)” —— 既非完全結(jié)構(gòu)化,也不完全是非結(jié)構(gòu)化的。它比知識圖譜更靈活,卻比原始 PDF 文檔更有條理。典型代表如 HTML 頁面、JSON 文件、XML、電子郵件等格式,它們雖具備一定的結(jié)構(gòu)特性,卻常表現(xiàn)出結(jié)構(gòu)規(guī)范不一致或結(jié)構(gòu)要素不完備的特征。
尤其是 HTML,它無處不在,而每個(gè)網(wǎng)站都有其獨(dú)特性。雖然存在 tags、attributes、elements(譯者注:DOM 核心構(gòu)件)?等結(jié)構(gòu)化成分,但仍混雜著大量非結(jié)構(gòu)化文本與圖像。
為了有效解析 HTML,業(yè)界已開發(fā)出一系列工具和開源庫,可將 HTML 內(nèi)容轉(zhuǎn)化為文檔對象模型(DOM)樹等結(jié)構(gòu)化格式。值得關(guān)注的流行庫包括:BeautifulSoup、htmlparser2、html5ever、MyHTML 以及 Fast HTML Parser。
此外,HtmlRAG[5]?等 RAG 框架在 RAG 系統(tǒng)中利用 HTML 格式替代純文本,從而保留了語義與結(jié)構(gòu)信息。
若希望 RAG 系統(tǒng)真正理解網(wǎng)頁數(shù)據(jù)而非依靠胡編亂造 —— HTML 解析便是這一切的起點(diǎn)。
03 非結(jié)構(gòu)化知識:PDF、純文本(既雜亂又有內(nèi)在邏輯)
接下來敘述的內(nèi)容才是真正的挑戰(zhàn)。非結(jié)構(gòu)化數(shù)據(jù)(自由格式的文本、PDF 文檔、掃描報(bào)告)無處不在。
尤其是 PDF 文檔,簡直就是噩夢:不一致的布局、嵌入內(nèi)部的圖像、復(fù)雜的格式。但在學(xué)術(shù)、法律和金融等領(lǐng)域它們不可或缺。那么,我們該如何讓它們符合 RAG 系統(tǒng)的要求呢?
我們可以使用更智能的 OCR 技術(shù)、版面分析技術(shù)和視覺內(nèi)容 - 語言融合技術(shù):
- Levenshtein OCR?和?GTR?結(jié)合視覺和語言線索來提高識別準(zhǔn)確率。
- OmniParser?和?Doc-GCN?專注于保留文檔的結(jié)構(gòu)。
- ABINet?采用雙向處理機(jī)制提升 OCR 系統(tǒng)的表現(xiàn)。
與此同時(shí),一大波開源工具的出現(xiàn)使得將 PDF 轉(zhuǎn)換為 Markdown(一種對 LLM 更友好的格式)的過程變得更加容易。有哪些工具?我基本都已經(jīng)介紹過了!
- GPTPDF[6]?利用視覺模型解析表格、公式等復(fù)雜版面結(jié)構(gòu),并快速轉(zhuǎn)換為 Markdown 格式 —— 該工具運(yùn)行高效且成本低廉,適合大規(guī)模部署。
- Marker[7]?專注于清除噪聲元素,同時(shí)還保留原始格式,因而成為處理研究論文和實(shí)驗(yàn)報(bào)告的首選工具。
- PDF-Extract-Kit(MinerU 采用的 PDF-Extract-Kit 模型庫[8])支持高質(zhì)量內(nèi)容提取,包括公式識別與版面檢測。
- Zerox OCR[9]?對每頁文檔進(jìn)行快照處理,通過 GPT 模型生成 Markdown,從而高效管理復(fù)雜文檔結(jié)構(gòu)。
- MinerU[10]?是一種綜合解決方案,可保留標(biāo)題/表格等原始文檔結(jié)構(gòu),并支持受損 PDF 的 OCR 處理。
- MarkItDown[11]?是一種多功能轉(zhuǎn)換工具,支持將 PDF、媒體文件、網(wǎng)頁數(shù)據(jù)和歸檔文件轉(zhuǎn)為 Markdown。
04 多模態(tài)知識:圖像、音頻與視頻數(shù)據(jù)一同入場
傳統(tǒng) RAG 系統(tǒng)專為文本數(shù)據(jù)而設(shè)計(jì),因此在處理圖像、音頻或視頻等多模態(tài)信息時(shí)往往力不從心。這就導(dǎo)致其回應(yīng)常顯得膚淺或不完整 —— 尤其當(dāng)核心信息蘊(yùn)含于非文本內(nèi)容中時(shí)。
為應(yīng)對這些挑戰(zhàn),多模態(tài) RAG 系統(tǒng)引入了整合和檢索不同模態(tài)的基本方法。其核心思想是將文本、圖像、音頻、視頻等模態(tài)對齊到共享嵌入空間(shared embedding space),實(shí)現(xiàn)統(tǒng)一處理和檢索。 例如:
- CLIP 在共享嵌入空間中對齊視覺與語言模態(tài)。
- Wav2Vec 2.0 和 CLAP 專注于建立音頻與文本的關(guān)聯(lián)。
- 在視頻領(lǐng)域,ViViT 等模型專為捕捉時(shí)空特征而設(shè)計(jì)。
這些技術(shù)都是基礎(chǔ)模塊。隨著系統(tǒng)的不斷演進(jìn)迭代,我們將看到能夠一次性從文檔、幻燈片及語音內(nèi)容中提取洞見的 RAG 應(yīng)用。
05 結(jié)語
在實(shí)踐中,我發(fā)現(xiàn) MinerU 是解析 PDF 的最佳開源工具。
當(dāng)然,若你想自建文檔解析器,自然需處理諸多復(fù)雜細(xì)節(jié)。但這樣做的回報(bào)是值得的:更自主的源代碼控制、更強(qiáng)的文檔安全性,以及更可靠的結(jié)果。
后續(xù)若有契機(jī),我將分享更多工程實(shí)踐洞見。
我們正在超越純文本語言模型的時(shí)代。倘若能教會機(jī)器理解人類傳遞知識的各種格式,或許它們也能協(xié)助我們更透徹地理解這個(gè)世界。
END
本期互動內(nèi)容 ??
?未來 3 年,你認(rèn)為文檔解析技術(shù)會出現(xiàn)什么顛覆性突破?比如:LLM 原生解析 PDF?歡迎天馬行空!
文中鏈接
[1]https://aiexpjourney.substack.com/t/pdf-parsing-and-document-intelligence
[2]https://arxiv.org/pdf/2503.10677v2
[3]https://aiexpjourney.substack.com/p/ai-innovations-and-insights-23-kag
[4]https://aiexpjourney.substack.com/p/ai-innovations-and-trends-09-cursor
[5]https://aiexpjourney.substack.com/p/ai-innovations-and-insights-20-htmlrag
[6]https://aiexpjourney.substack.com/p/ai-innovations-and-trends-05-itext2kg
[7]https://aiexpjourney.substack.com/p/demystifying-pdf-parsing-02-pipeline
[8]https://github.com/opendatalab/PDF-Extract-Kit
[9]https://aiexpjourney.substack.com/p/ai-innovations-and-trends-10-lazygraphrag
[10]https://aiexpjourney.substack.com/p/ai-innovations-and-insights-29-edgerag
[11]https://aiexpjourney.substack.com/p/ai-innovations-and-insights-20-htmlrag
原文鏈接:
https://aiexpjourney.substack.com/p/when-rag-meets-document-parsing-a

















