偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="g0svh"></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

為什么你的RAG效果差？可能PDF沒準備好！

AI大模型觀察站

發(fā)布于 2025-6-25 06:28

瀏覽

0收藏

將 PDF 轉(zhuǎn)成文本這件事，過去是“能做到”，現(xiàn)在是“輕松做到”。

最近我搭建了一個圖數(shù)據(jù)庫（Graph Data Store），用于 RAG 系統(tǒng) —— 換句話說，我們做了一個 GraphRAG。

為什么用 GraphRAG？

相比常見的向量數(shù)據(jù)庫支持的 RAG，Graph RAG 有個巨大優(yōu)勢 —— 推理能力更強。比如：

問題 A：「XYZ 公司去年 CFO 是誰？」這種問題，向量搜索就能搞定，因為年報里通常直接寫了。

但換成這樣：

問題 B：「XYZ 公司有哪兩位董事是同一所學(xué)校畢業(yè)的？」如果年報沒有直接提學(xué)校名，向量搜索就“廢了”。GraphRAG 就能玩得轉(zhuǎn)，因為它能推理出隱含關(guān)系。

但問題來了 —— 怎么構(gòu)建這個圖？

我最近寫了一篇文章專門講這個問題。但如果我們再往前一步想：怎么從 PDF 里提取信息來構(gòu)建知識圖譜？

這篇文章就來講這個過程。

如何把 PDF 轉(zhuǎn)成結(jié)構(gòu)化富文本？

所有的工程步驟都從一件事開始：把 PDF 變成文本數(shù)據(jù)。

但問題是 —— 年報不是普通 PDF，它們包含大量圖表、表格、結(jié)構(gòu)化數(shù)據(jù)。這些內(nèi)容都非常關(guān)鍵。

大多數(shù) Python 開發(fā)者用過 PDF 解析庫，比如：

???PyPDF2??? —— 超老牌，能用，但很簡陋。

????PyMuPDF4LLM??? —— 能直接把 PDF 轉(zhuǎn)成 Markdown 格式。

????Docling??? —— IBM Deep Search 出品，提取效果驚艷。

????Marker??? —— 另一個很新的工具，表現(xiàn)也不錯。

我們依次測了一下這幾個工具的效果。

? 各工具提取效果對比

?PyPDF2：純文本提取，沒有任何結(jié)構(gòu)。段落、標題、表格、列表，全都混成一堆。

為什么你的RAG效果差？可能PDF沒準備好！-AI.x社區(qū)

?PyMuPDF4LLM：能轉(zhuǎn)成 markdown，有結(jié)構(gòu)信息，LangChain 等框架支持，但表格效果拉胯。

為什么你的RAG效果差？可能PDF沒準備好！-AI.x社區(qū)

?Docling：表現(xiàn)最強！能保留標題層級、表格結(jié)構(gòu)、甚至給圖片加占位符。

為什么你的RAG效果差？可能PDF沒準備好！-AI.x社區(qū)

?Marker：也不錯，但整體信息保留度不如 Docling。

為什么你的RAG效果差？可能PDF沒準備好！-AI.x社區(qū)

所以最后我們選了 Docling 作為主工具。

?? Docling 的問題：太慢了！

我們做了一個實驗，把年報里包含文字、表格、圖片的混合段落提取出來，放在不同頁數(shù)的 PDF 中，測試不同工具的處理速度。

結(jié)果如下：

?Docling：每頁大概 4 秒?Marker：每頁大概 8 秒?PyPDF2：飛快，但結(jié)構(gòu)信息很少

如果你要處理幾十份報告（比如 50 份，每份 300 頁），那就意味著：

300頁×50份×4秒÷3600秒≈17小時

這還可以接受。但如果擴展到 S&P500 所有公司的 30 年年報 —— 就得處理上百萬頁。

靠單機做是不現(xiàn)實的，所以我們選擇了：

云服務(wù) + 并行處理

我們用云服務(wù)搭了一個轉(zhuǎn)換服務(wù)，可以并行處理 PDF，提取結(jié)構(gòu)化 Markdown，然后自動更新 GraphDB。

為什么你的RAG效果差？可能PDF沒準備好！-AI.x社區(qū)

這個架構(gòu)可以很好地擴展，未來接更多數(shù)據(jù)沒問題。

最終結(jié)論

工具	結(jié)構(gòu)信息	表格提取	速度
PyPDF2	差	差	非?？?/p>
PyMuPDF4LLM	中等	差	中等
Marker	中等	中等	慢
Docling	最佳	最佳	慢

所以，我們最后選擇：

?結(jié)構(gòu)提取用 Docling?大規(guī)模處理時，用云服務(wù)并行跑?如果你對速度極度敏感，PyPDF2 還是最快的選擇

總結(jié)

PDF 轉(zhuǎn) Markdown 的工具這些年進步巨大，但 表格提取仍然是個挑戰(zhàn)。

我們比較了四個開源工具，最后用 markdown 構(gòu)建了圖譜，并在 GraphRAG 系統(tǒng)中實現(xiàn)了應(yīng)用。

Docling 是效果最好的提取工具，但速度較慢 —— 所以我們搭了云服務(wù)來處理。

這就是我們在從 PDF 到智能圖譜路上的第一步！

本文轉(zhuǎn)載自???AI大模型觀察站???，作者：AI大模型觀察站

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

為什么我們勸你棄用LangChain？

51CTO技術(shù)棧 ? 7091瀏覽 ? 0回復(fù)
大模型所謂的參數(shù)是什么？大模型為什么需要訓(xùn)練？大模型訓(xùn)練到底干了什么？

AI探索時代 ? 7000瀏覽 ? 0回復(fù)
Gptpdf：一個簡單巧妙的復(fù)雜Pdf解析工具，提升RAG效果

Syrupup ? 6096瀏覽 ? 0回復(fù)
你知道什么是微調(diào)嗎？大模型為什么要微調(diào)？以及大模型微調(diào)的原理是什么？

AI探索時代 ? 6953瀏覽 ? 0回復(fù)
為什么最新的LLM使用混合專家(MoE)架構(gòu)

51CTO內(nèi)容精選 ? 3673瀏覽 ? 0回復(fù)
AgentWrite：為什么你的模型生成的內(nèi)容長度總是不超過2K?

大語言模型論文跟蹤 ? 4745瀏覽 ? 0回復(fù)
輕松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 ? 5601瀏覽 ? 0回復(fù)
為什么將RAG擴展到生產(chǎn)環(huán)境如此困難？

丟翅膀的魚 ? 2329瀏覽 ? 0回復(fù)
為什么你會覺得大模型很難學(xué)？甚至學(xué)了好久還不知道大模型到底是個什么玩意？

AI探索時代 ? 2268瀏覽 ? 0回復(fù)
為什么分塊在RAG技術(shù)中很重要？但又很沒有存在感？

AI探索時代 ? 2260瀏覽 ? 0回復(fù)
LN和BN的愛恨糾葛！為什么Transformer要用LayerNorm？

智駐未來 ? 6696瀏覽 ? 0回復(fù)
你可能不知道：Google AI正在悄悄改變各行各業(yè)

草臺AI ? 2183瀏覽 ? 0回復(fù)
大模型訓(xùn)練之訓(xùn)練數(shù)據(jù)準備，即怎么準備高質(zhì)量的訓(xùn)練數(shù)據(jù)集？

AI探索時代 ? 3856瀏覽 ? 0回復(fù)
深度學(xué)習(xí)的‘黃金法則’：為什么選擇ReLU？

人工智能訓(xùn)練營 ? 3205瀏覽 ? 0回復(fù)
顛覆直覺：Top N 越大，RAG效果可能越差

大語言模型論文跟蹤 ? 2213瀏覽 ? 0回復(fù)
你為什么要用GraphGAG？

熵減AI ? 2046瀏覽 ? 0回復(fù)
為什么 RAG 一定需要 Rerank？

玄姐聊AGI ? 2473瀏覽 ? 0回復(fù)
為什么 RAG 系統(tǒng)"一看就會，一做就廢"？

玄姐聊AGI ? 2860瀏覽 ? 0回復(fù)
Vibe Coding 來了——但你準備好應(yīng)對 Vibe 故障處理了嗎？

51CTO內(nèi)容精選 ? 1702瀏覽 ? 0回復(fù)

AI大模型觀察站

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

如何用 Agent Zero 打造更聰明的個人 AI Agent 9天前發(fā)布
解鎖數(shù)據(jù)工程的潛力：Agentic AI 的自主編排與優(yōu)化 2025-06-12 00:07:56發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：解鎖數(shù)據(jù)工程的潛力：Agentic AI 的自主編排與優(yōu)化

下一篇：如何用 Agent Zero 打造更聰明的個人 AI Agent

社區(qū)精華內(nèi)容

目錄

<wbr id="gz2pu"><menu id="gz2pu"></menu></wbr>