偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

RAG 文檔解析工具選型指南原創(chuàng)

發(fā)布于 2025-8-22 09:53

瀏覽

0收藏

編者按： 當(dāng)你需要為?RAG?系統(tǒng)選擇文檔解析工具時(shí)，面對?GitHub?上數(shù)百個(gè)開源項(xiàng)目和各種商業(yè)解決方案，你是否感到無從下手？

本文基于作者在實(shí)際項(xiàng)目中的工具使用經(jīng)驗(yàn)，系統(tǒng)梳理了處理不同類型文檔的工具選擇。從知識圖譜處理的 GRAG、KG-RAG、GNN-RAG 等工具，到表格解析的 TableRAG、TA。從 HTML 處理的 BeautifulSoup、HtmlRAG，到 PDF 解析的 MinerU、GPTPDF、Marker，再到多模態(tài)處理的 CLIP、Wav2Vec 2.0 等。期待本文能夠幫助你快速找到最適合自己項(xiàng)目需求的技術(shù)方案。

作者 | Florian June

編譯 | 岳揚(yáng)

對于 RAG 系統(tǒng)而言，從文檔中提取信息是一個(gè)不可避免的情況。最終系統(tǒng)輸出的質(zhì)量很大程度上取決于從源內(nèi)容中提取信息的效果。

過去，我曾從不同角度探討過文檔解析問題[1]。本文結(jié)合近期一篇 RAG 調(diào)查報(bào)告[2]的發(fā)現(xiàn)與我之前的部分研究，對 RAG 系統(tǒng)如何解析和整合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化和多模態(tài)知識進(jìn)行了簡明概括。

RAG 文檔解析工具選型指南-AI.x社區(qū)

Figure 1: RAG 系統(tǒng)整合的多種知識類型，涵蓋結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化和多模態(tài)知識。[Source[2]]

01 結(jié)構(gòu)化知識：數(shù)據(jù)按規(guī)則組織的范式

1.1 知識圖譜：易于查詢，便于使用，難以集成

知識圖譜以一種清晰、互聯(lián)的方式描述實(shí)體及其關(guān)系，使其成為機(jī)器系統(tǒng)的圖譜遍歷與查詢的理想選擇。

RAG 系統(tǒng)非常喜歡這樣的結(jié)構(gòu)化數(shù)據(jù)源 —— 它們精確且語義豐富。但真正的挑戰(zhàn)不在于查找數(shù)據(jù)，而在于如何有效地利用它。

如何從海量知識圖譜中提取有意義的子圖？
如何將結(jié)構(gòu)化的圖譜數(shù)據(jù)與自然語言對齊？
隨著圖譜規(guī)模的增長，系統(tǒng)是否仍能保持高效？

一些有前景的解決方案正逐步解決這些問題：

GRAG?從多個(gè)文檔中檢索子圖，來生成更聚焦的輸入。
KG-RAG?采用探索鏈算法（Chain of Explorations，CoE）來優(yōu)化基于知識圖譜的問答性能。
GNN-RAG?采用圖神經(jīng)網(wǎng)絡(luò)（GNN）檢索和處理來自知識圖譜（KG）的信息，在數(shù)據(jù)輸入大語言模型（LLM）之前先進(jìn)行一輪推理。
SURGE?框架利用知識圖譜生成更具相關(guān)性和知識感知（knowledge-aware）的對話，從而提升交互質(zhì)量。
在特定領(lǐng)域，諸如?SMART-SLIC、KARE、ToG2.0?和?KAG[3]?等工具已充分證明，知識圖譜作為外部知識源可以發(fā)揮多么強(qiáng)大的作用，可幫助 RAG 系統(tǒng)同時(shí)提升準(zhǔn)確性和效率。

1.2 表格：結(jié)構(gòu)緊湊、數(shù)據(jù)密集且解析困難

表格也是一種結(jié)構(gòu)化數(shù)據(jù) —— 但它們與知識圖譜截然不同。幾行幾列就可能蘊(yùn)含著大量信息。但如何讓機(jī)器理解這些信息？那完全是另一回事了。

表格中未明示的邏輯關(guān)系、格式不一致、專業(yè)領(lǐng)域內(nèi)特有的知識…表格數(shù)據(jù)常游走于秩序與混沌之間。幸運(yùn)的是，已有專門處理此類復(fù)雜情況的工具：

TableRAG[4]?結(jié)合查詢擴(kuò)展（query expansion）、表結(jié)構(gòu)與單元格檢索（schema and cell retrieval），在將信息傳遞給語言模型前精準(zhǔn)識別關(guān)鍵內(nèi)容。
TAG?和?Extreme-RAG?則更進(jìn)一步整合了 Text-to-SQL 能力，使語言模型能夠直接“操作數(shù)據(jù)庫”。

核心結(jié)論？若能有效解析表格，它們就是價(jià)值極高的信息源。

02 半結(jié)構(gòu)化數(shù)據(jù)：HTML、JSON 以及網(wǎng)絡(luò)數(shù)據(jù)的雜亂中間態(tài)

半結(jié)構(gòu)化數(shù)據(jù)就像數(shù)據(jù)世界的“家中老二（middle child）” —— 既非完全結(jié)構(gòu)化，也不完全是非結(jié)構(gòu)化的。它比知識圖譜更靈活，卻比原始 PDF 文檔更有條理。典型代表如 HTML 頁面、JSON 文件、XML、電子郵件等格式，它們雖具備一定的結(jié)構(gòu)特性，卻常表現(xiàn)出結(jié)構(gòu)規(guī)范不一致或結(jié)構(gòu)要素不完備的特征。

尤其是 HTML，它無處不在，而每個(gè)網(wǎng)站都有其獨(dú)特性。雖然存在 tags、attributes、elements（譯者注：DOM 核心構(gòu)件）?等結(jié)構(gòu)化成分，但仍混雜著大量非結(jié)構(gòu)化文本與圖像。

為了有效解析 HTML，業(yè)界已開發(fā)出一系列工具和開源庫，可將 HTML 內(nèi)容轉(zhuǎn)化為文檔對象模型（DOM）樹等結(jié)構(gòu)化格式。值得關(guān)注的流行庫包括：BeautifulSoup、htmlparser2、html5ever、MyHTML 以及 Fast HTML Parser。

此外，HtmlRAG[5]?等 RAG 框架在 RAG 系統(tǒng)中利用 HTML 格式替代純文本，從而保留了語義與結(jié)構(gòu)信息。

若希望 RAG 系統(tǒng)真正理解網(wǎng)頁數(shù)據(jù)而非依靠胡編亂造 —— HTML 解析便是這一切的起點(diǎn)。

03 非結(jié)構(gòu)化知識：PDF、純文本（既雜亂又有內(nèi)在邏輯）

接下來敘述的內(nèi)容才是真正的挑戰(zhàn)。非結(jié)構(gòu)化數(shù)據(jù)（自由格式的文本、PDF 文檔、掃描報(bào)告）無處不在。

尤其是 PDF 文檔，簡直就是噩夢：不一致的布局、嵌入內(nèi)部的圖像、復(fù)雜的格式。但在學(xué)術(shù)、法律和金融等領(lǐng)域它們不可或缺。那么，我們該如何讓它們符合 RAG 系統(tǒng)的要求呢？

我們可以使用更智能的 OCR 技術(shù)、版面分析技術(shù)和視覺內(nèi)容 - 語言融合技術(shù)：

Levenshtein OCR?和?GTR?結(jié)合視覺和語言線索來提高識別準(zhǔn)確率。
OmniParser?和?Doc-GCN?專注于保留文檔的結(jié)構(gòu)。
ABINet?采用雙向處理機(jī)制提升 OCR 系統(tǒng)的表現(xiàn)。

與此同時(shí)，一大波開源工具的出現(xiàn)使得將 PDF 轉(zhuǎn)換為 Markdown（一種對 LLM 更友好的格式）的過程變得更加容易。有哪些工具？我基本都已經(jīng)介紹過了！

GPTPDF[6]?利用視覺模型解析表格、公式等復(fù)雜版面結(jié)構(gòu)，并快速轉(zhuǎn)換為 Markdown 格式 —— 該工具運(yùn)行高效且成本低廉，適合大規(guī)模部署。
Marker[7]?專注于清除噪聲元素，同時(shí)還保留原始格式，因而成為處理研究論文和實(shí)驗(yàn)報(bào)告的首選工具。
PDF-Extract-Kit（MinerU 采用的 PDF-Extract-Kit 模型庫[8]）支持高質(zhì)量內(nèi)容提取，包括公式識別與版面檢測。
Zerox OCR[9]?對每頁文檔進(jìn)行快照處理，通過 GPT 模型生成 Markdown，從而高效管理復(fù)雜文檔結(jié)構(gòu)。
MinerU[10]?是一種綜合解決方案，可保留標(biāo)題/表格等原始文檔結(jié)構(gòu)，并支持受損 PDF 的 OCR 處理。
MarkItDown[11]?是一種多功能轉(zhuǎn)換工具，支持將 PDF、媒體文件、網(wǎng)頁數(shù)據(jù)和歸檔文件轉(zhuǎn)為 Markdown。

04 多模態(tài)知識：圖像、音頻與視頻數(shù)據(jù)一同入場

傳統(tǒng) RAG 系統(tǒng)專為文本數(shù)據(jù)而設(shè)計(jì)，因此在處理圖像、音頻或視頻等多模態(tài)信息時(shí)往往力不從心。這就導(dǎo)致其回應(yīng)常顯得膚淺或不完整 —— 尤其當(dāng)核心信息蘊(yùn)含于非文本內(nèi)容中時(shí)。

為應(yīng)對這些挑戰(zhàn)，多模態(tài) RAG 系統(tǒng)引入了整合和檢索不同模態(tài)的基本方法。其核心思想是將文本、圖像、音頻、視頻等模態(tài)對齊到共享嵌入空間（shared embedding space），實(shí)現(xiàn)統(tǒng)一處理和檢索。 例如：

CLIP 在共享嵌入空間中對齊視覺與語言模態(tài)。
Wav2Vec 2.0 和 CLAP 專注于建立音頻與文本的關(guān)聯(lián)。
在視頻領(lǐng)域，ViViT 等模型專為捕捉時(shí)空特征而設(shè)計(jì)。

這些技術(shù)都是基礎(chǔ)模塊。隨著系統(tǒng)的不斷演進(jìn)迭代，我們將看到能夠一次性從文檔、幻燈片及語音內(nèi)容中提取洞見的 RAG 應(yīng)用。

05 結(jié)語

在實(shí)踐中，我發(fā)現(xiàn) MinerU 是解析 PDF 的最佳開源工具。

當(dāng)然，若你想自建文檔解析器，自然需處理諸多復(fù)雜細(xì)節(jié)。但這樣做的回報(bào)是值得的：更自主的源代碼控制、更強(qiáng)的文檔安全性，以及更可靠的結(jié)果。

后續(xù)若有契機(jī)，我將分享更多工程實(shí)踐洞見。

我們正在超越純文本語言模型的時(shí)代。倘若能教會機(jī)器理解人類傳遞知識的各種格式，或許它們也能協(xié)助我們更透徹地理解這個(gè)世界。

END

本期互動內(nèi)容 ??

?未來 3 年，你認(rèn)為文檔解析技術(shù)會出現(xiàn)什么顛覆性突破？比如：LLM 原生解析 PDF？歡迎天馬行空！

文中鏈接

[1]https://aiexpjourney.substack.com/t/pdf-parsing-and-document-intelligence

[2]https://arxiv.org/pdf/2503.10677v2

[3]https://aiexpjourney.substack.com/p/ai-innovations-and-insights-23-kag

[4]https://aiexpjourney.substack.com/p/ai-innovations-and-trends-09-cursor

[5]https://aiexpjourney.substack.com/p/ai-innovations-and-insights-20-htmlrag

[6]https://aiexpjourney.substack.com/p/ai-innovations-and-trends-05-itext2kg

[7]https://aiexpjourney.substack.com/p/demystifying-pdf-parsing-02-pipeline

[8]https://github.com/opendatalab/PDF-Extract-Kit

[9]https://aiexpjourney.substack.com/p/ai-innovations-and-trends-10-lazygraphrag

[10]https://aiexpjourney.substack.com/p/ai-innovations-and-insights-29-edgerag

[11]https://aiexpjourney.substack.com/p/ai-innovations-and-insights-20-htmlrag

原文鏈接：

https://aiexpjourney.substack.com/p/when-rag-meets-document-parsing-a

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

Gptpdf：一個(gè)簡單巧妙的復(fù)雜Pdf解析工具，提升RAG效果

Syrupup ? 8010瀏覽 ? 0回復(fù)
打造智能私有知識庫：開源工具AnythingLLM全解析及實(shí)操指南，RAG企業(yè)級解決方案

AIGC觀察者 ? 2.6w瀏覽 ? 1回復(fù)
評估RAG系統(tǒng)組件的終極指南

51CTO內(nèi)容精選 ? 4038瀏覽 ? 0回復(fù)
RAG文檔解析器，核心技術(shù)剖析

小虎哦哦 ? 5146瀏覽 ? 0回復(fù)
RAG 的未來 - 自動文檔檢索

探索AGI ? 3282瀏覽 ? 0回復(fù)
Agent 智能體開發(fā)框架選型指南

Baihai_IDP ? 6294瀏覽 ? 0回復(fù)
TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備

恰似驚鴻 ? 6374瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問答的方案

大模型自然語言處理 ? 3918瀏覽 ? 0回復(fù)
從RAG到RAG+：讓大模型更懂業(yè)務(wù)的權(quán)威指南

芝士AI吃魚 ? 3499瀏覽 ? 0回復(fù)
文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

Baihai_IDP ? 4318瀏覽 ? 0回復(fù)
DeepSeek官方開源生態(tài)工具庫「狂飆」指南

墨風(fēng)如雪小站 ? 9731瀏覽 ? 0回復(fù)
RAG項(xiàng)目必備！文檔解析神器MinerU：2.5萬星標(biāo)！支持GPU加速，輕松應(yīng)對復(fù)雜文檔

AI博物院 ? 1.5w瀏覽 ? 0回復(fù)
萬字解析非結(jié)構(gòu)化文檔中的隱藏價(jià)值：多模態(tài)檢索增強(qiáng)生成（RAG）的前景

柏企閱文 ? 2756瀏覽 ? 0回復(fù)
十大PDF解析工具在不同文檔類別中的比較研究

大模型自然語言處理 ? 3450瀏覽 ? 0回復(fù)
字節(jié)開源Dolphin文檔解析模型-部署指南+實(shí)戰(zhàn)測試

AI小新 ? 5176瀏覽 ? 0回復(fù)
從文本到多模態(tài)，Embedding 模型選型指南

玄姐聊AGI ? 3928瀏覽 ? 0回復(fù)
從結(jié)構(gòu)化到多模態(tài) RAG 文檔解析工具選型指南

玄姐聊AGI ? 1714瀏覽 ? 0回復(fù)
Claude受限后，這份國產(chǎn)AI編程模型選型指南請收好

七牛云行業(yè)應(yīng)用 ? 4321瀏覽 ? 0回復(fù)
從CodeRabbit到SonarQube：AI代碼審查工具選型

七牛云行業(yè)應(yīng)用 ? 1317瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

對 GPT 5 模型路由機(jī)制的深度解析 2天前發(fā)布
AI 編程熱潮下的萬字思考 —— 規(guī)避風(fēng)險(xiǎn)，善用其利 9天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊(duì)開源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇： OpenAI 開源模型 gpt-oss 是在合成數(shù)據(jù)上訓(xùn)練的嗎？一些合理推測

下一篇：構(gòu)建 AI 智能體的實(shí)用開源技術(shù)棧（框架、計(jì)算機(jī)與瀏覽器操控、語音功能、文檔理解...）

社區(qū)精華內(nèi)容

目錄

<tt id="wz6wx"><nobr id="wz6wx"></nobr></tt>

<pre id="wz6wx"></pre>

<pre id="wz6wx"></pre>

<nobr id="wz6wx"><strong id="wz6wx"></strong></nobr>