偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="ujmwa"><p id="ujmwa"></p></sub>

<center id="ujmwa"></center>

^{<blockquote id="ujmwa"><i id="ujmwa"></i></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

從結(jié)構(gòu)化到多模態(tài) RAG 文檔解析工具選型指南原創(chuàng)

發(fā)布于 2025-8-25 08:35

瀏覽

0收藏

在 RAG（Retrieval-Augmented Generation）架構(gòu)系統(tǒng)中，從文檔中提取信息是不可避免的，而系統(tǒng)輸出的質(zhì)量在很大程度上取決于從源內(nèi)容中提取信息的效果。本文結(jié)合近期一篇 RAG 調(diào)查報告的發(fā)現(xiàn)與我之前的部分研究，對 RAG 系統(tǒng)如何解析和整合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化和多模態(tài)知識進行了簡明概括。

從結(jié)構(gòu)化到多模態(tài) RAG 文檔解析工具選型指南-AI.x社區(qū)

下文我們詳細剖析之。

一、多模態(tài)數(shù)據(jù) RAG 文檔解析工具選型

1、結(jié)構(gòu)化知識：數(shù)據(jù)按規(guī)則組織的范式

從結(jié)構(gòu)化到多模態(tài) RAG 文檔解析工具選型指南-AI.x社區(qū)

1.1 知識圖譜：易于查詢，便于使用，難以集成

知識圖譜把實體織成一張高密度的關(guān)系網(wǎng)，天生適合機器“按圖索驥”。對 RAG 來說，它像一份精確定位的高清地圖--坐標(biāo)清晰、語義飽滿。真正的難題不是“找不到路”，而是如何讓大模型在錯綜復(fù)雜的路口選出最短、最準(zhǔn)的那條，并把沿途的地標(biāo)翻譯成自然語言講給人聽。

如何從海量知識圖譜中提取有意義的子圖？
如何將結(jié)構(gòu)化的圖譜數(shù)據(jù)與自然語言對齊？
隨著圖譜規(guī)模的增長，系統(tǒng)是否仍能保持高效？

一些有前景的解決方案正逐步解決這些問題：

GRAG：從多個文檔中檢索子圖，生成更聚焦的輸入。
KG-RAG：采用探索鏈算法（Chain of Explorations，CoE）優(yōu)化基于知識圖譜的問答性能。
GNN-RAG：采用圖神經(jīng)網(wǎng)絡(luò)（GNN）檢索和處理來自知識圖譜（KG）的信息，在數(shù)據(jù)輸入大語言模型（LLM）之前先進行一輪推理。
SURGE：利用知識圖譜生成更具相關(guān)性和知識感知（knowledge-aware）的對話，從而提升交互質(zhì)量。

在特定領(lǐng)域，諸如 SMART-SLIC、KARE、ToG2.0 和 KAG 等工具已充分證明，知識圖譜作為外部知識源可以發(fā)揮多么強大的作用，可幫助 RAG 系統(tǒng)同時提升準(zhǔn)確性和效率。

1.2 表格：結(jié)構(gòu)緊湊、數(shù)據(jù)密集且解析困難

表格同樣是“井然有序”的數(shù)據(jù)，卻與知識圖譜截然不同：小小幾行幾列，就能把海量信息壓得密不透風(fēng)?？梢虝C器“讀”懂它們，又是另一場硬仗——行列之間暗藏的公式、跨表引用的關(guān)系、各業(yè)務(wù)領(lǐng)域獨有的縮寫和口徑，讓同一張表在 A 場景是“資產(chǎn)”，在 B 場景可能就成了“噪音”。好在已經(jīng)有一批工具專門替模型啃這塊硬骨頭：

TableRAG：結(jié)合查詢擴展（query expansion）、表結(jié)構(gòu)與單元格檢索（schema and cell retrieval），在將信息傳遞給語言模型前精準(zhǔn)識別關(guān)鍵內(nèi)容。
TAG 和 Extreme-RAG：更進一步整合了 Text-to-SQL 能力，使語言模型能夠直接“操作數(shù)據(jù)庫”。

核心結(jié)論？若能有效解析表格，它們就是價值極高的信息源。

2、半結(jié)構(gòu)化數(shù)據(jù)：HTML、JSON 以及網(wǎng)絡(luò)數(shù)據(jù)的雜亂中間態(tài)

從結(jié)構(gòu)化到多模態(tài) RAG 文檔解析工具選型指南-AI.x社區(qū)

半結(jié)構(gòu)化數(shù)據(jù)像一條“半敞的門簾”：既沒完全敞開，也沒徹底關(guān)死。HTML、JSON、XML、郵件……它們自帶標(biāo)簽與層級，卻各唱各的調(diào)，缺胳膊少腿是常態(tài)。以 HTML 為例，同一個 `<div>` 在 A 站點是正文，在 B 站點可能只是廣告殼，標(biāo)簽、屬性、文本與圖片犬牙交錯。

想把這團亂麻變成模型可讀的結(jié)構(gòu)，業(yè)界早已備齊工具鏈：BeautifulSoup、htmlparser2、html5ever、MyHTML、Fast HTML Parser 等庫，一鍵把 HTML 解析成 DOM 樹；HtmlRAG 更進一步，直接把原始標(biāo)記送進 RAG，保留語義與層級，省得模型“腦補”。

要讓 RAG 讀懂網(wǎng)頁而不胡說八道，先把 HTML 捋成樹，再喂給模型——這是繞不開的第一步。

3、非結(jié)構(gòu)化知識：PDF、純文本（既雜亂又有內(nèi)在邏輯）

從結(jié)構(gòu)化到多模態(tài) RAG 文檔解析工具選型指南-AI.x社區(qū)

真正的硬仗在這里。

非結(jié)構(gòu)化數(shù)據(jù)像一片未經(jīng)開墾的原始森林--論文、報告、掃描件、隨手拍的照片，格式橫沖直撞，排版毫無章法。PDF 更是其中的“泥石流”：一頁之內(nèi)，欄位、圖表、腳注、批注擠成一團；換個文件，字體大小、邊距、水印又全變樣。偏偏學(xué)術(shù)、法律、金融這些“高精尖”場景，90% 的核心信息都鎖在這種文件里。

要讓 RAG 系統(tǒng)吞得下、嚼得碎、還能準(zhǔn)確吐出答案，就得先給這片原始森林開出一條條可通行的“數(shù)據(jù)棧道”。

我們可以使用更智能的 OCR 技術(shù)、版面分析技術(shù)和視覺內(nèi)容 - 語言融合技術(shù)：

Levenshtein OCR 和 GTR：結(jié)合視覺和語言線索來提高識別準(zhǔn)確率。
OmniParser 和 Doc-GCN：專注于保留文檔的結(jié)構(gòu)。
ABINet：采用雙向處理機制提升 OCR 系統(tǒng)的表現(xiàn)。

與此同時，一大波開源工具的出現(xiàn)使得將 PDF 轉(zhuǎn)換為 Markdown（一種對 LLM 更友好的格式）的過程變得更加容易。有哪些工具？

GPTPDF：利用視覺模型解析表格、公式等復(fù)雜版面結(jié)構(gòu)，并快速轉(zhuǎn)換為 Markdown 格式——該工具運行高效且成本低廉，適合大規(guī)模部署。
Marker：專注于清除噪聲元素，同時還保留原始格式，因而成為處理研究論文和實驗報告的首選工具。
PDF-Extract-Kit（MinerU 采用的 PDF-Extract-Kit 模型庫）：支持高質(zhì)量內(nèi)容提取，包括公式識別與版面檢測。
Zerox OCR：對每頁文檔進行快照處理，通過 GPT 模型生成 Markdown，從而高效管理復(fù)雜文檔結(jié)構(gòu)。
MinerU：一種綜合解決方案，可保留標(biāo)題/表格等原始文檔結(jié)構(gòu)，并支持受損 PDF 的 OCR 處理。
MarkItDown：一種多功能轉(zhuǎn)換工具，支持將 PDF、媒體文件、網(wǎng)頁數(shù)據(jù)和歸檔文件轉(zhuǎn)為 Markdown。

4、多模態(tài)知識：圖像、音頻與視頻數(shù)據(jù)一同入場

從結(jié)構(gòu)化到多模態(tài) RAG 文檔解析工具選型指南-AI.x社區(qū)

純文本出身的傳統(tǒng) RAG，一旦遇到圖片、音頻或視頻就瞬間“失明”--答案往往流于表面，因為關(guān)鍵線索藏在像素、波形或幀序列里，而非字符之間。

新一代多模態(tài) RAG 的做法是“把不同感官翻譯成同一種語言”：將文本、圖像、音頻、視頻統(tǒng)統(tǒng)投射到同一個共享嵌入空間，實現(xiàn)一次檢索、跨模態(tài)命中。核心步驟如下：

CLIP：在共享嵌入空間中對齊視覺與語言模態(tài)。
Wav2Vec 2.0 和 CLAP：專注于建立音頻與文本的關(guān)聯(lián)。
ViViT：在視頻領(lǐng)域，專為捕捉時空特征而設(shè)計。

這些技術(shù)都是基礎(chǔ)模塊。隨著系統(tǒng)的不斷演進迭代，我們將看到能夠一次性從文檔、幻燈片及語音內(nèi)容中提取洞見的 RAG 應(yīng)用。

5、結(jié)語

在一線實際工程里，我把開源生態(tài)試了個遍，最終把票投給 MinerU--它像一把“瑞士軍刀”，能把最棘手的 PDF 拆得干凈利落。

當(dāng)然，你也可以親手造輪子：自己掌控每一行代碼、每一次加密、每一次緩存命中。代價是熬夜調(diào) OCR、對齊坐標(biāo)、修版面，但換來的是更高的可控性、更穩(wěn)的隱私墻，以及隨時可插拔的升級空間。下一篇，我會把踩過的坑和調(diào)優(yōu)腳本打包成清單，直接復(fù)用。

當(dāng)模型不再只認(rèn)得文字，而能同時聽懂圖表、聲音和影像，我們才算真正邁進了“全感知”時代。

好了，這就是我今天想分享的內(nèi)容。

本文轉(zhuǎn)載自???玄姐聊AGI?? 作者：玄姐

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

文檔解析工具

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

場景圖知識增強多模態(tài)結(jié)構(gòu)化表示能力

mb5f8eba9bdb0af ? 4316瀏覽 ? 0回復(fù)
谷歌創(chuàng)新框架：從非結(jié)構(gòu)化數(shù)據(jù)，實現(xiàn)多模態(tài)學(xué)習(xí)

Aceryt ? 3475瀏覽 ? 0回復(fù)
Agent實戰(zhàn)-JSON結(jié)構(gòu)化智能

ermulong ? 3555瀏覽 ? 0回復(fù)
一文讀懂：從RAG到多模態(tài)RAG

kede96 ? 5850瀏覽 ? 0回復(fù)
使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)

Halo咯咯 ? 3895瀏覽 ? 0回復(fù)
RAG增強之路：增強PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路

大模型自然語言處理 ? 3852瀏覽 ? 0回復(fù)
HtmlRAG：利用 HTML 結(jié)構(gòu)化信息增強 RAG 系統(tǒng)的知識檢索能力和準(zhǔn)確性

Halo咯咯 ? 5133瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進行文檔問答的方案

大模型自然語言處理 ? 3920瀏覽 ? 0回復(fù)
從RAG到RAG+：讓大模型更懂業(yè)務(wù)的權(quán)威指南

芝士AI吃魚 ? 3502瀏覽 ? 0回復(fù)
文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

Baihai_IDP ? 4323瀏覽 ? 0回復(fù)
為什么說JSON不一定是LLM結(jié)構(gòu)化輸出的最佳選擇？

Baihai_IDP ? 3388瀏覽 ? 0回復(fù)
萬字解析非結(jié)構(gòu)化文檔中的隱藏價值：多模態(tài)檢索增強生成（RAG）的前景

柏企閱文 ? 2758瀏覽 ? 0回復(fù)
RAG系統(tǒng)從60分到95分的進化之路，LlamaParse+多模態(tài)實戰(zhàn)全解析

AI博物院 ? 3620瀏覽 ? 0回復(fù)
字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin

大模型自然語言處理 ? 2326瀏覽 ? 0回復(fù)
從文本到多模態(tài)，Embedding 模型選型指南

玄姐聊AGI ? 3934瀏覽 ? 0回復(fù)
從OCR瓶頸到結(jié)構(gòu)化理解來有效提升RAG的效果

51CTO內(nèi)容精選 ? 1782瀏覽 ? 0回復(fù)
RAG 文檔解析工具選型指南

Baihai_IDP ? 1264瀏覽 ? 0回復(fù)
從CodeRabbit到SonarQube：AI代碼審查工具選型

七牛云行業(yè)應(yīng)用 ? 1317瀏覽 ? 0回復(fù)
RAS 革命：從 RAG 到結(jié)構(gòu)化知識增強，破解 LLM 短板的新范式

51CTO內(nèi)容精選 ? 275瀏覽 ? 1回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

深度拆解 AI 原生應(yīng)用架構(gòu)設(shè)計：11 大核心要素 + 落地路徑全解析 0回復(fù)

AI 智能體在順豐運營場景的落地案例剖析 0回復(fù)

企業(yè)級 AI Test 測試平臺架構(gòu)設(shè)計與落地實踐 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

上一篇：騰訊元寶 AI 大模型新搜索案例架構(gòu)設(shè)計與落地實踐

下一篇：企業(yè)級 MCP + A2A 整合架構(gòu)設(shè)計與落地案例實現(xiàn)

社區(qū)精華內(nèi)容

目錄

<abbr id="ylc4v"><li id="ylc4v"><b id="ylc4v"></b></li></abbr>