偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="p01qi"><p id="p01qi"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？原創(chuàng)

發(fā)布于 2025-6-11 10:21

瀏覽

0收藏

編者按： 當(dāng)我們談?wù)摍z索增強(qiáng)生成（RAG）系統(tǒng)的性能瓶頸時(shí)，大多數(shù)人會(huì)關(guān)注模型架構(gòu)、向量數(shù)據(jù)庫(kù)優(yōu)化或檢索、生成策略，但是否有人深入思考過一個(gè)更基礎(chǔ)卻被忽視的問題：光學(xué)字符識(shí)別（OCR）的質(zhì)量究竟在多大程度上制約著整個(gè) RAG 系統(tǒng)的表現(xiàn)？
我們今天為大家?guī)淼倪@篇文章，作者的觀點(diǎn)是 OCR 的識(shí)別質(zhì)量形成了一個(gè)隱形的性能天花板，從根本上限制了即使是最先進(jìn) RAG 系統(tǒng)的效果。
文章通過基于 OHR v2 基準(zhǔn)測(cè)試的深度實(shí)驗(yàn)分析，量化了 OCR 技術(shù)對(duì) RAG 系統(tǒng)檢索和生成兩個(gè)核心環(huán)節(jié)的具體影響。研究發(fā)現(xiàn)，即便是頂尖的 OCR 解決方案，與理想狀況下的文本提取相比仍存在約 4.5% 的性能差距，而這種差距在處理復(fù)雜版式文檔時(shí)會(huì)進(jìn)一步放大。于是，本文提出了一種多模態(tài)檢索解決方案，在實(shí)際測(cè)試中將檢索準(zhǔn)確率提升了 12%，并挽回了因 OCR 錯(cuò)誤損失的 70% 生成質(zhì)量。

本文系原作者觀點(diǎn)，Baihai IDP 僅進(jìn)行編譯分享

作者 | Aamir Shakir, Julius Lipp, Rui Huang, Joel Dierkes, and Sean Lee

編譯 | 岳揚(yáng)

檢索增強(qiáng)生成（RAG）已成為連接大語(yǔ)言模型與企業(yè)數(shù)據(jù)的標(biāo)準(zhǔn)范式，但該方法存在一個(gè)鮮少被討論的致命缺陷：當(dāng)前生產(chǎn)環(huán)境中的 RAG 系統(tǒng)幾乎全部依賴光學(xué)字符識(shí)別（OCR）技術(shù)處理 PDF、掃描件、演示文稿等文檔，并默認(rèn)假設(shè)識(shí)別結(jié)果足以支撐下游 AI 任務(wù)。

我們的深度分析表明，這一假設(shè)存在根本性缺陷。OCR 的識(shí)別質(zhì)量形成了一個(gè)隱形的天花板，甚至限制了最先進(jìn) RAG 系統(tǒng)的性能。 理想的文本提?。╬erfect text extraction）所能達(dá)到的效果與當(dāng)前 OCR 技術(shù)所能達(dá)到的效果之間的差距，是當(dāng)今企業(yè)級(jí) AI 領(lǐng)域最重大卻被忽視的挑戰(zhàn)之一。

TLDR：

OCR 帶來了一個(gè)隱形的性能天花板。文本提取誤差極大地制約了 RAG 系統(tǒng)的檢索精度與生成質(zhì)量。
在基準(zhǔn)測(cè)試上表現(xiàn)出了巨大的差距。即便是頂尖的 OCR 解決方案，較理想的文本提取的性能仍存在約 4.5% 的差距（使用 NDCG@5 指標(biāo)評(píng)估），尤其是在復(fù)雜版式的文檔上。
純視覺生成方案尚未成熟。盡管多模態(tài)模型進(jìn)步很快，但仍無法可靠地從多個(gè)文檔圖像中生成精準(zhǔn)答案。
多模態(tài)檢索（Multimodal retrieval）超越了理想的 OCR 文本提取。我們的向量數(shù)據(jù)庫(kù)在檢索精度（使用 NDCG@5 指標(biāo)評(píng)估）上較理想的 OCR 文本提取提升性能約 12%，可挽回 70% 因 OCR 錯(cuò)誤損失的生成質(zhì)量，同時(shí)還能簡(jiǎn)化系統(tǒng)架構(gòu)并增強(qiáng)未來的兼容性。

01 為何 OCR 仍是 AI 系統(tǒng)的關(guān)鍵環(huán)節(jié)

企業(yè)的內(nèi)部核心知識(shí)大多封存在 PDF、掃描文檔、發(fā)票、演示文稿、圖像等非結(jié)構(gòu)化格式中。大語(yǔ)言模型（LLM）要處理這些知識(shí)，必須先將可視化的或半結(jié)構(gòu)化的原始格式轉(zhuǎn)化為純文本。

這一文本轉(zhuǎn)換環(huán)節(jié)通常由 OCR 引擎主導(dǎo)，它直接影響 RAG 系統(tǒng)的兩大核心組件：

1.1 檢索系統(tǒng)（The Retrieval System）

大多數(shù)檢索系統(tǒng)依賴提取的文本作為主要搜索依據(jù)。當(dāng) OCR 質(zhì)量低下時(shí)，生成的文本表征會(huì)出現(xiàn)偏差或“失真”。這會(huì)導(dǎo)致文本表征存在錯(cuò)誤，從而使檢索系統(tǒng)在用戶提問時(shí)難以或無法找到相關(guān)文檔。若文本無法準(zhǔn)確反映內(nèi)容，搜索甚至還沒開始就已經(jīng)失敗了。

1.2 生成模型（LLM）

大語(yǔ)言模型僅能基于給定的上下文生成答案。若檢索到的文檔片段存在 OCR 錯(cuò)誤（缺詞漏字、表格錯(cuò)位、數(shù)字失真），LLM 接收到的信息就會(huì)有缺陷。即便檢索系統(tǒng)成功定位到了正確的文檔頁(yè)，最終仍會(huì)產(chǎn)生信息殘缺、邏輯混亂或事實(shí)錯(cuò)誤的回答。

簡(jiǎn)言之，OCR 產(chǎn)生的錯(cuò)誤絕非止步于文本層面，而是會(huì)貫穿整個(gè) RAG 流程 —— 既影響信息檢索的能力，又破壞答案生成的準(zhǔn)確性。

02 OCR 性能測(cè)試：基準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)方法論

為了量化 OCR 技術(shù)的“性能天花板”并評(píng)估其對(duì)實(shí)際應(yīng)用的影響，我們需要一種可靠的評(píng)測(cè)方法，以衡量其在各種具有挑戰(zhàn)性的文檔上的表現(xiàn)。為此，我們基于 OHR（OCR hinders RAG） v2 基準(zhǔn)測(cè)試[1]展開了全面實(shí)驗(yàn)。

該基準(zhǔn)測(cè)試專為評(píng)估 OCR 性能對(duì) RAG 任務(wù)的影響而設(shè)計(jì)，主要包含以下核心模塊：

多樣化的、有挑戰(zhàn)性的文檔庫(kù)：精選 8500 余頁(yè) PDF 文檔，覆蓋教材、法律文書、金融報(bào)表、報(bào)刊雜志、技術(shù)手冊(cè)、學(xué)術(shù)論文及行政公文七大專業(yè)領(lǐng)域。這些文檔普遍包含復(fù)雜版式、數(shù)據(jù)表格、數(shù)學(xué)公式、統(tǒng)計(jì)圖表、技術(shù)圖解及非常規(guī)閱讀順序等 OCR 系統(tǒng)公認(rèn)的識(shí)別難點(diǎn)。
有針對(duì)性的問題：針對(duì)文檔特性構(gòu)建的 8498 組問答對(duì)，專門用于測(cè)試上述 OCR 難點(diǎn)信息相關(guān)的檢索與理解能力。每組答案均嚴(yán)格對(duì)應(yīng)文檔中的具體頁(yè)面，確保評(píng)估結(jié)果可驗(yàn)證、可追溯。
經(jīng)過驗(yàn)證的問題答案：經(jīng)過人工校驗(yàn)過的理想的文本抽取結(jié)果與精心標(biāo)注的答案集，為比較、評(píng)估提供了可靠的“gold standard”。

根據(jù)這一基準(zhǔn)測(cè)試，我們?cè)u(píng)估了一系列 OCR 和檢索方法：

Gemini 2.5 Flash[2]：前沿的閉源多模態(tài)模型（具備 OCR 功能）
MinerU[3]：集成學(xué)術(shù)界先進(jìn) OCR 方法的開源工具庫(kù)
Azure Document Intelligence[4]：行業(yè)主流的商業(yè) OCR 解決方案
Qwen-2.5-VL[5]：前沿的開源多模態(tài)模型（具備 OCR 功能）
Unstructured[6]：高市占率的開源文檔解析工具庫(kù)
Mixedbread 多模態(tài)向量數(shù)據(jù)庫(kù)[7]：基于自研多模態(tài)模型 mxbai-omni-v0.1 實(shí)現(xiàn)原生的多模態(tài)檢索（直接處理頁(yè)面圖像而非依賴 OCR 文本），繞過了傳統(tǒng)檢索對(duì) OCR 的依賴

這一完整的實(shí)驗(yàn)框架使我們能夠隔離不同 OCR 方法質(zhì)量的影響，并將傳統(tǒng)基于文本的檢索方法與我們的多模態(tài)檢索系統(tǒng)進(jìn)行直接性能對(duì)比。

03 檢索環(huán)節(jié)的測(cè)試方法與實(shí)驗(yàn)結(jié)果

我們首先聚焦檢索環(huán)節(jié) —— 即在海量文檔中精準(zhǔn)定位目標(biāo)信息的能力。若 RAG 系統(tǒng)無法精準(zhǔn)定位相關(guān)文檔，大語(yǔ)言模型就沒有機(jī)會(huì)準(zhǔn)確回答問題。

3.1 檢索環(huán)節(jié)的實(shí)驗(yàn)設(shè)計(jì)

我們將 OHR 基準(zhǔn)測(cè)試的問答對(duì)（question-answer pairs）轉(zhuǎn)化為檢索任務(wù)：將提問作為查詢指令（query），相關(guān)的證據(jù)頁(yè)面（evidence pages）則是要檢索的目標(biāo)文檔。

傳統(tǒng)的基于文本的 OCR 方法采用 BM25 算法[8]（這是一種基于關(guān)鍵詞權(quán)重的經(jīng)典檢索算法，廣泛用于搜索引擎）。（我們也嘗試了基于嵌入向量的檢索與重排序方案，但發(fā)現(xiàn) OCR 噪聲會(huì)污染語(yǔ)義嵌入的質(zhì)量，導(dǎo)致其性能反而不如 BM25 的基準(zhǔn)方案，詳細(xì)分析參見此技術(shù)文檔[9]。）

Mixedbread 多模態(tài)向量數(shù)據(jù)庫(kù)調(diào)用自研的 mxbai-omni-v0.1 多模態(tài)嵌入模型，直接處理文檔頁(yè)面截圖。這種方法能夠感知頁(yè)面布局、結(jié)構(gòu)特征與可視化元素，本質(zhì)上具備抵御 OCR 錯(cuò)誤干擾的能力。

我們使用兩項(xiàng)標(biāo)準(zhǔn)指標(biāo)來衡量檢索性能：

NDCG@5（Normalized Discounted Cumulative Gain @ 5）：評(píng)估前 5 位檢索結(jié)果的質(zhì)量，既考察正確的文檔是否被檢出，還關(guān)注這些文檔的排名高低—— 排名越靠前的相關(guān)文檔得分越高。選定 K=5 的依據(jù)在于：研究表明大語(yǔ)言模型對(duì)上下文窗口中的文檔順序極為敏感，排名靠前的文檔對(duì)其決策影響更大。
Recall@5：這個(gè)指標(biāo)衡量的是前 5 個(gè)結(jié)果中是否至少檢索到了一個(gè)正確的證據(jù)頁(yè)面（evidence pages）。該指標(biāo)反映系統(tǒng)能否檢索到必要的信息，而不管其具體排名如何。

3.2 對(duì)檢索環(huán)節(jié)的評(píng)估結(jié)果顯示：OCR 的性能天花板確實(shí)存在

我們對(duì)檢索環(huán)節(jié)的基準(zhǔn)測(cè)試清晰地展現(xiàn)了傳統(tǒng)依賴 OCR 的方法與多模態(tài)方案之間的顯著差異。

NDCG@5 指標(biāo)表現(xiàn)（在七大文檔領(lǐng)域上的平均值）

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

本圖表展示各檢索方法在七大文檔領(lǐng)域的平均 NDCG@5 得分。該指標(biāo)同時(shí)考量前 5 位檢索結(jié)果中相關(guān)文檔的存在情況及排序質(zhì)量 —— 數(shù)值越高代表檢索越準(zhǔn)確，其中排名靠前的相關(guān)頁(yè)面的權(quán)重也越高。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

Recall@5 指標(biāo)表現(xiàn)（在七大文檔領(lǐng)域上的平均值）

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

本圖表顯示了各方法在七大文檔領(lǐng)域測(cè)試中的平均 Recall@5 值。該指標(biāo)反映了前 5 位檢索結(jié)果中出現(xiàn)至少一個(gè)正確的證據(jù)頁(yè)面的提問占比 —— 數(shù)值越高代表系統(tǒng)性能越佳。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

這些實(shí)驗(yàn)結(jié)果揭示了幾個(gè)重要的觀點(diǎn)：

OCR 形成了“性能天花板”：所有被測(cè) OCR 方案均落后于基準(zhǔn)值。最優(yōu) OCR 方案的 NDCG@5 指標(biāo)平均值僅為 0.74，與基準(zhǔn)值 0.773 存在 4.5% 的絕對(duì)差距，這證實(shí)了 OCR 誤差從本質(zhì)上限制了檢索效率。
文檔的復(fù)雜度放大了 OCR 方案存在的問題：在 finance、textbooks、news 等布局復(fù)雜的文檔領(lǐng)域，性能差距進(jìn)一步擴(kuò)大。表格、數(shù)學(xué)公式、多欄文本等元素大大加劇 OCR 的識(shí)別難度。
多模態(tài)系統(tǒng)通過視覺-文本聯(lián)合理解實(shí)現(xiàn)性能突破：Mixedbread Vector Store 的性能始終優(yōu)于其他傳統(tǒng)方案，它的 NDCG@5 平均值為 0.865（較基準(zhǔn)方法提升了近 12%），因?yàn)樗芡ㄟ^直接解析頁(yè)面圖像中的版式結(jié)構(gòu)、表格圖表等視覺信息，獲取更豐富的語(yǔ)義關(guān)聯(lián)線索。

在基準(zhǔn)文本上，使用 Mixedbread Vector Store，Recall@5 指標(biāo)從基準(zhǔn)方法的 0.84 躍升至 0.92，具體表現(xiàn)為：

基準(zhǔn)方法（perfect OCR）：Recall@5=84% → 每 100 份相關(guān)文檔中，有 84 份被檢索到，且排在前 5 位。
多模態(tài)方案（Mixedbread Vector Store）：Recall@5=92% → 每 100 份相關(guān)文檔中，有 92 份進(jìn)入了前 5 名。

該指標(biāo)實(shí)現(xiàn)了 8% 的絕對(duì)提升（相對(duì)提升達(dá) 9.5%），這意味著檢索性能的大幅提高。本組基準(zhǔn)測(cè)試量化了單純依賴 OCR 技術(shù)所帶來的性能瓶頸。雖然更好的 OCR 有所幫助，但多模態(tài)路徑才是實(shí)現(xiàn)檢索能力飛躍的根本方向。

04 生成環(huán)節(jié)的測(cè)試方法與實(shí)驗(yàn)結(jié)果

現(xiàn)在好了，多模態(tài)檢索能夠找到更優(yōu)的文檔，從而突破了 OCR 的性能上限。但這種檢索效果的提升，是否真能讓大模型給出更準(zhǔn)確的最終答案呢？為了找出答案，我們測(cè)試了端到端的 RAG 的性能。

4.1 生成環(huán)節(jié)的試驗(yàn)設(shè)置

我們?cè)O(shè)置了三種場(chǎng)景，將每種場(chǎng)景檢索到的前 5 篇文檔輸入同一個(gè)強(qiáng)大的 LLM（gemini-2.5-flash-preview-04-17）進(jìn)行答案生成：

1）Perfect OCR & Perfect Retrieval (Ground Truth) ：使用經(jīng)過人工驗(yàn)證的文本進(jìn)行生成，并將真實(shí)的證據(jù)頁(yè)面（evidence pages）作為輸入（也就是所謂的“Perfect Retrieval”）。這代表了在擁有正確上下文和理想的文本提取能力的情況下，當(dāng)前模型可達(dá)到的理論最高性能。

2）Perfect OCR & Retrieval：在 BM25 檢索、Top 5 文本片段選取及生成階段均采用經(jīng)過人工校驗(yàn)的文本。這代表了在 OCR 處于理想情況下，系統(tǒng)所能提供的理想質(zhì)量。

3）Mixedbread OCR（基于文本的 RAG） ：在 BM25 檢索（獲取前 5 個(gè)文本片段）和生成上下文環(huán)節(jié)中，均采用我們高質(zhì)量 OCR 引擎提取的文本。這就模擬了一個(gè)標(biāo)準(zhǔn)的、高質(zhì)量的純文本 RAG 流程。

4）Mixedbread Vector Store（多模態(tài)檢索） ：使用我們的多模態(tài)模型檢索前 5 頁(yè)的圖像，但隨后使用 Mixedbread OCR 提取的對(duì)應(yīng)干凈文本作為生成上下文。這種做法既保留了視覺檢索的優(yōu)勢(shì)，又能確保生成環(huán)節(jié)的輸入模態(tài)（文本）保持一致。

為評(píng)估效果，我們主要關(guān)注"正確答案率"指標(biāo)。具體做法是：以 GPT-4.1 作為中立裁判，向其提供原始問題、標(biāo)準(zhǔn)答案、標(biāo)準(zhǔn)證據(jù)文本，以及 gemini-2.5-flash-preview-04-17 在各測(cè)試場(chǎng)景下生成的答案。最終得分按"正確回答數(shù)除以總問題數(shù)"的簡(jiǎn)單公式計(jì)算。

4.2 對(duì)生成環(huán)節(jié)的評(píng)估結(jié)果顯示：檢索質(zhì)量提升 = 答案準(zhǔn)確率提高

對(duì)生成環(huán)節(jié)的測(cè)試驗(yàn)證了我們的假設(shè)：更優(yōu)質(zhì)的檢索能直接帶來更準(zhǔn)確的答案。

正確答案率

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

本圖表展示了每種生成方法的正確答案占比（基于7個(gè)領(lǐng)域的平均值，由 GPT-4.1 評(píng)判）。數(shù)值越高，表明大模型生成的答案越準(zhǔn)確，越接近正確答案（ground-truth）。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

這些實(shí)驗(yàn)結(jié)果揭示了幾個(gè)重要的觀點(diǎn)：

OCR 的缺陷在生成階段被放大：與使用 perfect text（0.913 的基準(zhǔn)值）相比，依靠標(biāo)準(zhǔn) OCR 技術(shù)進(jìn)行檢索和生成會(huì)導(dǎo)致正確答案減少 25.8%（0.677）。錯(cuò)誤的輸入上下文大大降低了 LLM 生成準(zhǔn)確答案的能力。
優(yōu)質(zhì)的檢索能夠大幅提升準(zhǔn)確率：僅將標(biāo)準(zhǔn)的使用 OCR 技術(shù)的檢索過程替換為使用 Mixedbread 向量數(shù)據(jù)庫(kù)的多模態(tài)檢索（生成環(huán)節(jié)仍使用相同的存在潛在缺陷的 OCR 文本），平均正確答案率即從 0.677 躍升至 0.843。僅此一項(xiàng)改進(jìn)，就挽回了標(biāo)準(zhǔn) OCR 流程 70% 的準(zhǔn)確率損失。
找到正確的文檔頁(yè)面至關(guān)重要：在生成過程中，檢索質(zhì)量往往比所提取文本的完美程度更關(guān)鍵。即便存在輕微的 OCR 提取缺陷，讓大模型獲取到正確文檔的收益，遠(yuǎn)高于提供錯(cuò)誤文檔中稍干凈的文本。

這些生成環(huán)節(jié)的測(cè)試證明，最先進(jìn)的多模態(tài)檢索技術(shù)能有效抵消 OCR 過程中產(chǎn)生的錯(cuò)誤對(duì)下游任務(wù)的大部分負(fù)面影響。

05 Direct Image Generation：僅依賴視覺的 RAG 系統(tǒng)是否可行？

視覺信息在檢索階段的成功引發(fā)了一個(gè)關(guān)鍵問題：能否在生成階段完全跳過 OCR？若將檢索到的頁(yè)面圖像直接輸入 Gemini 2.5 Flash 等多模態(tài)大語(yǔ)言模型，并讓其通過“閱讀”圖像生成答案，效果會(huì)如何？我們測(cè)試了這種“端到端圖像理解”的方案：

正確答案率（在三大文檔領(lǐng)域上的平均值）

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

這些實(shí)驗(yàn)結(jié)果揭示了三個(gè)重要的觀點(diǎn)：

純圖像輸入方案的表現(xiàn)欠佳：直接向大語(yǔ)言模型輸入頁(yè)面圖像進(jìn)行生成時(shí)，平均正確率最低（0.627）
Visual Retrieval vs. Visual Generation：多模態(tài)模型擅長(zhǎng)利用視覺線索進(jìn)行檢索，但在生成環(huán)節(jié)直接從多個(gè)文檔圖像中提取細(xì)節(jié)信息的能力，仍顯著弱于處理預(yù)處理文本
高質(zhì)量的 OCR 文本仍然是生成環(huán)節(jié)的最佳選擇（現(xiàn)階段）：目前，向 LLM 提供干凈、清晰的文本可以得到最準(zhǔn)確的答案。

結(jié)論：雖然僅依賴視覺的 RAG 系統(tǒng)充滿想象空間，但現(xiàn)階段通過多模態(tài)檢索獲取文檔，再結(jié)合高質(zhì)量的 OCR 文本進(jìn)行生成，仍是綜合性能最優(yōu)的解決方案。

06 典型案例：標(biāo)準(zhǔn) OCR 的失效場(chǎng)景

為使 OCR 技術(shù)局限性的影響具象化，我們將基于基準(zhǔn)數(shù)據(jù)剖析幾個(gè)典型場(chǎng)景。這些案例既揭示了基于 OCR 的傳統(tǒng)系統(tǒng)的常見失效場(chǎng)景，也論證了多模態(tài)檢索方法如何實(shí)現(xiàn)更精準(zhǔn)的文檔解析。

6.1 案例1：Regulatory Filings 中手寫數(shù)據(jù)的挑戰(zhàn)

場(chǎng)景特征：以電信公司提交的 PUCO 年度報(bào)告為例，此類 Regulatory filings（譯者注：企業(yè)/機(jī)構(gòu)依法向監(jiān)管部門提交的標(biāo)準(zhǔn)化文件）通常將結(jié)構(gòu)化的打印內(nèi)容與關(guān)鍵的手寫財(cái)務(wù)數(shù)據(jù)混合排版在一起。這種混合內(nèi)容對(duì)傳統(tǒng) OCR 系統(tǒng)構(gòu)成了嚴(yán)峻的挑戰(zhàn) —— 手寫內(nèi)容常被錯(cuò)誤識(shí)別，可能導(dǎo)致合規(guī)風(fēng)險(xiǎn)與數(shù)據(jù)分析結(jié)果偏離。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

典型的 OCR 輸出及其局限性

當(dāng)采用標(biāo)準(zhǔn)的 OCR 引擎處理此類文件時(shí)，關(guān)鍵的手寫財(cái)務(wù)數(shù)據(jù)往往會(huì)完全丟失或被錯(cuò)誤解析：

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

對(duì) RAG 系統(tǒng)的影響：當(dāng)用戶提出類似“TSC Communications 的總營(yíng)收是多少？”的查詢（query）時(shí)，依賴此類有缺陷的 OCR 輸出的 RAG 系統(tǒng)可能返回："無法從當(dāng)前文檔獲取營(yíng)收數(shù)據(jù)"。這種情況將迫使人工介入審核，嚴(yán)重延誤監(jiān)管報(bào)送與決策分析。

多模態(tài)解決方案：相比之下，多模態(tài)系統(tǒng)通過分析文檔的視覺布局與筆跡特征，可同步解析結(jié)構(gòu)化表格與手寫財(cái)務(wù)數(shù)據(jù)。這種全局理解能力使其能夠準(zhǔn)確識(shí)別出總營(yíng)收為 2,775,060 美元（其中運(yùn)營(yíng)收入 2,325,472 美元，其他收入 449,588 美元），從而生成關(guān)于公司財(cái)務(wù)狀況及監(jiān)管義務(wù)的精準(zhǔn)自動(dòng)化響應(yīng)。

6.2 案例 2：如何從金融圖表中提取趨勢(shì)信息

情景概述：在季度投資分析報(bào)告中，常運(yùn)用堆疊面積圖等可視化工具呈現(xiàn)資產(chǎn)配置變化。傳統(tǒng) OCR 技術(shù)在此場(chǎng)景下僅能識(shí)別表層文本信息（如標(biāo)題、圖例標(biāo)注），卻無法捕捉承載核心趨勢(shì)的可視化數(shù)據(jù)。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

傳統(tǒng) OCR 技術(shù)的輸出及其局限性

標(biāo)準(zhǔn) OCR 工具可能只會(huì)提取標(biāo)簽和標(biāo)題，而忽略了核心數(shù)據(jù)：

Portfolio Allocation Trends (Q1 2023 - Q4 2024)
Percentage (%)
100
75
50
25
0
Q1 2023, Q2 2023, Q3 2023, Q4 2023, Q1 2024, Q2 2024, Q3 2024, Q4 2024
Cash, Commodities,Real Estate,Fixed Income, Equities

對(duì) RAG 系統(tǒng)的影響：當(dāng)客戶咨詢"我的權(quán)益類資產(chǎn)占比過去一年如何變化？"時(shí)，基于傳統(tǒng) OCR 輸出的 RAG 系統(tǒng)只能提供有關(guān)投資組合組成部分的一般信息，完全無法解讀圖表中揭示的關(guān)鍵趨勢(shì) —— 例如權(quán)益類資產(chǎn)配置有 13 個(gè)百分點(diǎn)的增幅，而這正是評(píng)估投資風(fēng)險(xiǎn)的核心依據(jù)。

多模態(tài)解決方案：多模態(tài)系統(tǒng)通過直接對(duì)圖表進(jìn)行直觀分析，既能識(shí)別每個(gè)時(shí)間點(diǎn)的配置比例，也能識(shí)別整體趨勢(shì)模式。這樣，它就能準(zhǔn)確地做出反應(yīng)："您的權(quán)益類資產(chǎn)配置在過去的一年內(nèi)從 45% 攀升至 58%，這是您的投資組合構(gòu)成中最大的變化。" 系統(tǒng)甚至可以提取特定季度的數(shù)據(jù)來補(bǔ)充說明這一情況。

6.3 示例 3：復(fù)雜財(cái)務(wù)報(bào)表的精準(zhǔn)解析

情景描述：財(cái)務(wù)報(bào)表中常包含多欄表格，詳細(xì)列出收入明細(xì)與運(yùn)營(yíng)開支。使用 OCR 對(duì)此類復(fù)雜表格結(jié)構(gòu)進(jìn)行識(shí)別，其難點(diǎn)在于保持行與列的正確對(duì)齊 —— 當(dāng)表格識(shí)別出現(xiàn)對(duì)齊錯(cuò)誤時(shí)，會(huì)導(dǎo)致財(cái)務(wù)數(shù)據(jù)被錯(cuò)誤歸類（例如將"研發(fā)支出"的數(shù)值誤關(guān)聯(lián)到"市場(chǎng)營(yíng)銷"下）

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

傳統(tǒng) OCR 技術(shù)的輸出及其局限性

即便文字內(nèi)容被提取，OCR 的細(xì)微對(duì)齊錯(cuò)誤或解析錯(cuò)誤仍會(huì)破壞表格結(jié)構(gòu)：

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能？有何解決辦法？-AI.x社區(qū)

對(duì) RAG 系統(tǒng)的影響：當(dāng)財(cái)務(wù)分析師詢問"2025 年研發(fā)支出占收入的比例相較 2024 年有何變化？"時(shí)，基于 OCR 識(shí)別出的錯(cuò)誤表格結(jié)構(gòu)數(shù)據(jù)的 RAG 系統(tǒng)可能曲解數(shù)據(jù)之間的關(guān)系，產(chǎn)生諸如"2025 年研發(fā)占比 49%，而 2024 年高達(dá) 8,675%"的荒謬回答。這類錯(cuò)誤源于系統(tǒng)無法正確理解表格的視覺結(jié)構(gòu)與語(yǔ)義邏輯。

多模態(tài)解決方案：通過分析表格的視覺結(jié)構(gòu)，系統(tǒng)能準(zhǔn)確識(shí)別標(biāo)題、金額與百分比數(shù)字之間的復(fù)雜對(duì)應(yīng)關(guān)系。這樣就能做出準(zhǔn)確的答復(fù)："盡管研發(fā)支出絕對(duì)值增長(zhǎng)了 49%，但其占凈收入的比例從 2024 年的 14.2% 下降至 2025 年的 9.9%。"系統(tǒng)可以同時(shí)把握財(cái)務(wù)數(shù)據(jù)的空間布局與語(yǔ)義關(guān)聯(lián)。

07 Mixedbread Vector Store 所使用技術(shù)方案的核心功能與實(shí)施價(jià)值

該向量數(shù)據(jù)庫(kù)專為解決 OCR 依賴型 RAG 系統(tǒng)的固有缺陷而設(shè)計(jì)，其核心架構(gòu)基于 mxbai-omni-v0.1 多模態(tài)模型實(shí)現(xiàn)跨模態(tài)信息檢索。該模型可直接分析文檔頁(yè)面截圖、視頻等原始視覺內(nèi)容并生成嵌入向量，從而在其原始上下文中理解布局、結(jié)構(gòu)、表格和圖表?；鶞?zhǔn)測(cè)試表明，相較理想的文本提取方案（perfect text extraction），該方案將檢索準(zhǔn)確率（NDCG@5）提升約 12 個(gè)百分點(diǎn)。

系統(tǒng)在進(jìn)行視覺分析的同時(shí)，通過 OCR 引擎并行處理文本內(nèi)容。提取的文本數(shù)據(jù)將與視覺嵌入向量同步存儲(chǔ)，形成雙模態(tài)協(xié)同優(yōu)勢(shì)：

增強(qiáng)檢索能力：當(dāng)純文本檢索因 OCR 錯(cuò)誤或特殊內(nèi)容（如圖表、復(fù)雜表格）失效時(shí)，視覺分析能精準(zhǔn)定位相關(guān)文檔
優(yōu)化生成上下文：保留高質(zhì)量 OCR 文本，適配當(dāng)前以文本輸入為主的大語(yǔ)言模型生成需求
自動(dòng)化文檔處理：系統(tǒng)自動(dòng)完成視覺嵌入與文本提取，用戶無需干預(yù)數(shù)據(jù)預(yù)處理流程
對(duì)未來 LLM 的適配：同步存儲(chǔ)視覺表征與文本數(shù)據(jù)，為未來多模態(tài) LLM 直接利用圖像信息生成內(nèi)容做好技術(shù)儲(chǔ)備

這種一體化設(shè)計(jì)方案能夠大大提升 RAG 系統(tǒng)的綜合性能：基準(zhǔn)測(cè)試顯示這種技術(shù)路線不僅能夠?qū)崿F(xiàn)檢索效率的大幅提升，更在統(tǒng)一框架內(nèi)挽回傳統(tǒng)流程因 OCR 問題損失的 70% 生成準(zhǔn)確率。

08 結(jié)論：利用多模態(tài)檢索突破 OCR 的性能瓶頸

基準(zhǔn)測(cè)試數(shù)據(jù)表明，光學(xué)字符識(shí)別（OCR）的質(zhì)量是制約 RAG 系統(tǒng)性能的核心瓶頸，尤其是在處理復(fù)雜的現(xiàn)實(shí)世界文檔時(shí)。文本提取過程中的錯(cuò)誤與遺漏不僅會(huì)限制準(zhǔn)確檢索相關(guān)信息的能力，更會(huì)直接影響大語(yǔ)言模型生成最終答案的質(zhì)量。

將多模態(tài)分析納入檢索流程的策略（如 Mixedbread Vector Store 技術(shù)方案）可解決其中的部分限制。通過直接解析頁(yè)面圖像的視覺語(yǔ)義，這種方法在測(cè)試中相較理想的文本提取基準(zhǔn)方法提升 12% 檢索準(zhǔn)確率（NDCG@5）。檢索性能的提升，使傳統(tǒng)流程因 OCR 錯(cuò)誤損失的 70% 的生成準(zhǔn)確率得以恢復(fù)。

雖然現(xiàn)階段大語(yǔ)言模型在答案生成環(huán)節(jié)仍依賴高質(zhì)量文本輸入，但多模態(tài)系統(tǒng)展現(xiàn)的強(qiáng)大檢索能力為文檔理解開辟了一條較為有效的技術(shù)路徑。同時(shí)集成視覺驅(qū)動(dòng)檢索與高質(zhì)量 OCR 文本的 RAG 系統(tǒng)，不僅為當(dāng)前實(shí)際應(yīng)用需求提供了有效的解決方案，更為未來大語(yǔ)言模型直接利用圖像數(shù)據(jù)進(jìn)行生成任務(wù)奠定了基礎(chǔ)。

本研究證實(shí)：在處理多樣化、結(jié)構(gòu)復(fù)雜的文檔場(chǎng)景時(shí)，將多模態(tài)理解能力融入檢索流程是提升 RAG 系統(tǒng)準(zhǔn)確性與可靠性的關(guān)鍵考慮因素。

END

本期互動(dòng)內(nèi)容 ??

?文章認(rèn)為 OCR 是 RAG 系統(tǒng)的“隱形性能天花板”，但你覺得還有哪些被低估的性能瓶頸？

文中鏈接

[1]??https://arxiv.org/abs/2412.02592??

[2]??https://ai.google.dev/gemini-api/docs/models??

[3]??https://github.com/opendatalab/MinerU??

[4]??https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/overview?view=doc-intel-4.0.0??

[5]??https://github.com/QwenLM/Qwen-VL??

[6]??https://github.com/Unstructured-IO/unstructured??

[7]??https://www.mixedbread.com/docs/vector-store??

[8]??https://en.wikipedia.org/wiki/Okapi_BM25??

[9]??https://docs.google.com/spreadsheets/d/1zBGOIOCzZZjw1HXBGGI8BzNx_kYj34LlYaFteZTU7Bg/edit?usp=sharing??

本文經(jīng)原作者授權(quán)，由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文，請(qǐng)聯(lián)系獲取授權(quán)。

原文鏈接：

??https://www.mixedbread.com/blog/the-hidden-ceiling??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

如何解決模型的災(zāi)難性遺忘問題？清華大學(xué)提出新方法！

AI論文解讀 ? 5347瀏覽 ? 0回復(fù)
提升RAG系統(tǒng)性能10條策略建議

AIGC觀察者 ? 2906瀏覽 ? 0回復(fù)
提升 RAG 系統(tǒng)的回答質(zhì)量：構(gòu)建高效的 Prompt

玄姐聊AGI ? 3989瀏覽 ? 0回復(fù)
如何利用RAG+Agent輕松解決企業(yè)復(fù)雜問題？

玄姐聊AGI ? 2988瀏覽 ? 1回復(fù)
如何改進(jìn)RAG模型的性能？

51CTO內(nèi)容精選 ? 2630瀏覽 ? 0回復(fù)
探索 Zerox OCR：創(chuàng)新引領(lǐng)光學(xué)字符識(shí)別新境界

穿越時(shí)空111 ? 3111瀏覽 ? 0回復(fù)
提升RAG性能的全攻略：優(yōu)化檢索增強(qiáng)生成系統(tǒng)的策略大揭秘

Halo咯咯 ? 6302瀏覽 ? 2回復(fù)
影響RAG檢索效果的原因有那些？

AI探索時(shí)代 ? 2990瀏覽 ? 0回復(fù)
從0到1開發(fā)AI Agent | Plan-and-Execute 如何解決AI復(fù)雜任務(wù)

AI取經(jīng)路 ? 4360瀏覽 ? 0回復(fù)
五種解決辦法請(qǐng)拿走！

九歌AI大模型 ? 4688瀏覽 ? 0回復(fù)
身份證識(shí)別服務(wù)性能優(yōu)化實(shí)踐

zhcs333 ? 1756瀏覽 ? 0回復(fù)
KStar Diffuser如何解決自碰撞與運(yùn)動(dòng)約束世紀(jì)難題？

angel ? 2274瀏覽 ? 0回復(fù)
多智能體系統(tǒng)（MAS）：如何讓AI團(tuán)隊(duì)協(xié)作解決復(fù)雜問題？

Halo咯咯 ? 4348瀏覽 ? 0回復(fù)
深入剖析：如何利用 AI 智能體增強(qiáng)傳統(tǒng) RAG 系統(tǒng)

Halo咯咯 ? 1942瀏覽 ? 0回復(fù)
別讓大模型想太多了，過度思考會(huì)影響性能

Aceryt ? 1569瀏覽 ? 0回復(fù)
關(guān)于打造高質(zhì)量RAG系統(tǒng)的問題記錄

AI探索時(shí)代 ? 1298瀏覽 ? 0回復(fù)
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案

AI探索時(shí)代 ? 1619瀏覽 ? 0回復(fù)
循環(huán)LLM的突破：基于塊的推理如何解決記憶溢出問題

頓數(shù)AI ? 1088瀏覽 ? 0回復(fù)
LLM面經(jīng)——多模態(tài)大模型訓(xùn)練中”模態(tài)懶惰“問題如何解決？

shizhi02 ? 616瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

我對(duì) AI 寫作的一些思考：Writing in the Age of LLMs 12h前發(fā)布
The AI Moat Pyramid：構(gòu)建不可復(fù)制的 AI 護(hù)城河 5天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： “一代更比一代強(qiáng)”：現(xiàn)代 RAG 架構(gòu)的演進(jìn)之路

下一篇： AI 智能體到底應(yīng)該如何構(gòu)建？分享 Github 上收獲 4k stars 的 12 條原則

社區(qū)精華內(nèi)容

目錄