偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法? 原創(chuàng)

發(fā)布于 2025-6-11 10:21
瀏覽
0收藏

編者按: 當(dāng)我們談?wù)摍z索增強(qiáng)生成(RAG)系統(tǒng)的性能瓶頸時(shí),大多數(shù)人會(huì)關(guān)注模型架構(gòu)、向量數(shù)據(jù)庫(kù)優(yōu)化或檢索、生成策略,但是否有人深入思考過一個(gè)更基礎(chǔ)卻被忽視的問題:光學(xué)字符識(shí)別(OCR)的質(zhì)量究竟在多大程度上制約著整個(gè) RAG 系統(tǒng)的表現(xiàn)?

我們今天為大家?guī)淼倪@篇文章,作者的觀點(diǎn)是 OCR 的識(shí)別質(zhì)量形成了一個(gè)隱形的性能天花板,從根本上限制了即使是最先進(jìn) RAG 系統(tǒng)的效果。

文章通過基于 OHR v2 基準(zhǔn)測(cè)試的深度實(shí)驗(yàn)分析,量化了 OCR 技術(shù)對(duì) RAG 系統(tǒng)檢索和生成兩個(gè)核心環(huán)節(jié)的具體影響。研究發(fā)現(xiàn),即便是頂尖的 OCR 解決方案,與理想狀況下的文本提取相比仍存在約 4.5% 的性能差距,而這種差距在處理復(fù)雜版式文檔時(shí)會(huì)進(jìn)一步放大。于是,本文提出了一種多模態(tài)檢索解決方案,在實(shí)際測(cè)試中將檢索準(zhǔn)確率提升了 12%,并挽回了因 OCR 錯(cuò)誤損失的 70% 生成質(zhì)量。

本文系原作者觀點(diǎn),Baihai IDP 僅進(jìn)行編譯分享

作者 | Aamir Shakir, Julius Lipp, Rui Huang, Joel Dierkes, and Sean Lee

編譯 | 岳揚(yáng)

檢索增強(qiáng)生成(RAG)已成為連接大語(yǔ)言模型與企業(yè)數(shù)據(jù)的標(biāo)準(zhǔn)范式,但該方法存在一個(gè)鮮少被討論的致命缺陷:當(dāng)前生產(chǎn)環(huán)境中的 RAG 系統(tǒng)幾乎全部依賴光學(xué)字符識(shí)別(OCR)技術(shù)處理 PDF、掃描件、演示文稿等文檔,并默認(rèn)假設(shè)識(shí)別結(jié)果足以支撐下游 AI 任務(wù)。

我們的深度分析表明,這一假設(shè)存在根本性缺陷。OCR 的識(shí)別質(zhì)量形成了一個(gè)隱形的天花板,甚至限制了最先進(jìn) RAG 系統(tǒng)的性能。 理想的文本提?。╬erfect text extraction)所能達(dá)到的效果與當(dāng)前 OCR 技術(shù)所能達(dá)到的效果之間的差距,是當(dāng)今企業(yè)級(jí) AI 領(lǐng)域最重大卻被忽視的挑戰(zhàn)之一。

TLDR:

  • OCR 帶來了一個(gè)隱形的性能天花板。文本提取誤差極大地制約了 RAG 系統(tǒng)的檢索精度與生成質(zhì)量。
  • 在基準(zhǔn)測(cè)試上表現(xiàn)出了巨大的差距。即便是頂尖的 OCR 解決方案,較理想的文本提取的性能仍存在約 4.5% 的差距(使用 NDCG@5 指標(biāo)評(píng)估),尤其是在復(fù)雜版式的文檔上。
  • 純視覺生成方案尚未成熟。盡管多模態(tài)模型進(jìn)步很快,但仍無法可靠地從多個(gè)文檔圖像中生成精準(zhǔn)答案。
  • 多模態(tài)檢索(Multimodal retrieval)超越了理想的 OCR 文本提取。我們的向量數(shù)據(jù)庫(kù)在檢索精度(使用 NDCG@5 指標(biāo)評(píng)估)上較理想的 OCR 文本提取提升性能約 12%,可挽回 70% 因 OCR 錯(cuò)誤損失的生成質(zhì)量,同時(shí)還能簡(jiǎn)化系統(tǒng)架構(gòu)并增強(qiáng)未來的兼容性。

01 為何 OCR 仍是 AI 系統(tǒng)的關(guān)鍵環(huán)節(jié)

企業(yè)的內(nèi)部核心知識(shí)大多封存在 PDF、掃描文檔、發(fā)票、演示文稿、圖像等非結(jié)構(gòu)化格式中。大語(yǔ)言模型(LLM)要處理這些知識(shí),必須先將可視化的或半結(jié)構(gòu)化的原始格式轉(zhuǎn)化為純文本。

這一文本轉(zhuǎn)換環(huán)節(jié)通常由 OCR 引擎主導(dǎo),它直接影響 RAG 系統(tǒng)的兩大核心組件:

1.1 檢索系統(tǒng)(The Retrieval System)

大多數(shù)檢索系統(tǒng)依賴提取的文本作為主要搜索依據(jù)。當(dāng) OCR 質(zhì)量低下時(shí),生成的文本表征會(huì)出現(xiàn)偏差或“失真”。這會(huì)導(dǎo)致文本表征存在錯(cuò)誤,從而使檢索系統(tǒng)在用戶提問時(shí)難以或無法找到相關(guān)文檔。若文本無法準(zhǔn)確反映內(nèi)容,搜索甚至還沒開始就已經(jīng)失敗了。

1.2 生成模型(LLM)

大語(yǔ)言模型僅能基于給定的上下文生成答案。若檢索到的文檔片段存在 OCR 錯(cuò)誤(缺詞漏字、表格錯(cuò)位、數(shù)字失真),LLM 接收到的信息就會(huì)有缺陷。即便檢索系統(tǒng)成功定位到了正確的文檔頁(yè),最終仍會(huì)產(chǎn)生信息殘缺、邏輯混亂或事實(shí)錯(cuò)誤的回答。

簡(jiǎn)言之,OCR 產(chǎn)生的錯(cuò)誤絕非止步于文本層面,而是會(huì)貫穿整個(gè) RAG 流程 —— 既影響信息檢索的能力,又破壞答案生成的準(zhǔn)確性。

02 OCR 性能測(cè)試:基準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)方法論

為了量化 OCR 技術(shù)的“性能天花板”并評(píng)估其對(duì)實(shí)際應(yīng)用的影響,我們需要一種可靠的評(píng)測(cè)方法,以衡量其在各種具有挑戰(zhàn)性的文檔上的表現(xiàn)。為此,我們基于 OHR(OCR hinders RAG) v2 基準(zhǔn)測(cè)試[1]展開了全面實(shí)驗(yàn)。

該基準(zhǔn)測(cè)試專為評(píng)估 OCR 性能對(duì) RAG 任務(wù)的影響而設(shè)計(jì),主要包含以下核心模塊:

  • 多樣化的、有挑戰(zhàn)性的文檔庫(kù):精選 8500 余頁(yè) PDF 文檔,覆蓋教材、法律文書、金融報(bào)表、報(bào)刊雜志、技術(shù)手冊(cè)、學(xué)術(shù)論文及行政公文七大專業(yè)領(lǐng)域。這些文檔普遍包含復(fù)雜版式、數(shù)據(jù)表格、數(shù)學(xué)公式、統(tǒng)計(jì)圖表、技術(shù)圖解及非常規(guī)閱讀順序等 OCR 系統(tǒng)公認(rèn)的識(shí)別難點(diǎn)。
  • 有針對(duì)性的問題:針對(duì)文檔特性構(gòu)建的 8498 組問答對(duì),專門用于測(cè)試上述 OCR 難點(diǎn)信息相關(guān)的檢索與理解能力。每組答案均嚴(yán)格對(duì)應(yīng)文檔中的具體頁(yè)面,確保評(píng)估結(jié)果可驗(yàn)證、可追溯。
  • 經(jīng)過驗(yàn)證的問題答案:經(jīng)過人工校驗(yàn)過的理想的文本抽取結(jié)果與精心標(biāo)注的答案集,為比較、評(píng)估提供了可靠的“gold standard”。

根據(jù)這一基準(zhǔn)測(cè)試,我們?cè)u(píng)估了一系列 OCR 和檢索方法:

  • Gemini 2.5 Flash[2]:前沿的閉源多模態(tài)模型(具備 OCR 功能)
  • MinerU[3]:集成學(xué)術(shù)界先進(jìn) OCR 方法的開源工具庫(kù)
  • Azure Document Intelligence[4]:行業(yè)主流的商業(yè) OCR 解決方案
  • Qwen-2.5-VL[5]:前沿的開源多模態(tài)模型(具備 OCR 功能)
  • Unstructured[6]:高市占率的開源文檔解析工具庫(kù)
  • Mixedbread 多模態(tài)向量數(shù)據(jù)庫(kù)[7]:基于自研多模態(tài)模型 mxbai-omni-v0.1 實(shí)現(xiàn)原生的多模態(tài)檢索(直接處理頁(yè)面圖像而非依賴 OCR 文本),繞過了傳統(tǒng)檢索對(duì) OCR 的依賴

這一完整的實(shí)驗(yàn)框架使我們能夠隔離不同 OCR 方法質(zhì)量的影響,并將傳統(tǒng)基于文本的檢索方法與我們的多模態(tài)檢索系統(tǒng)進(jìn)行直接性能對(duì)比。

03 檢索環(huán)節(jié)的測(cè)試方法與實(shí)驗(yàn)結(jié)果

我們首先聚焦檢索環(huán)節(jié) —— 即在海量文檔中精準(zhǔn)定位目標(biāo)信息的能力。若 RAG 系統(tǒng)無法精準(zhǔn)定位相關(guān)文檔,大語(yǔ)言模型就沒有機(jī)會(huì)準(zhǔn)確回答問題。

3.1 檢索環(huán)節(jié)的實(shí)驗(yàn)設(shè)計(jì)

我們將 OHR 基準(zhǔn)測(cè)試的問答對(duì)(question-answer pairs)轉(zhuǎn)化為檢索任務(wù):將提問作為查詢指令(query),相關(guān)的證據(jù)頁(yè)面(evidence pages)則是要檢索的目標(biāo)文檔。

傳統(tǒng)的基于文本的 OCR 方法采用 BM25 算法[8](這是一種基于關(guān)鍵詞權(quán)重的經(jīng)典檢索算法,廣泛用于搜索引擎)。(我們也嘗試了基于嵌入向量的檢索與重排序方案,但發(fā)現(xiàn) OCR 噪聲會(huì)污染語(yǔ)義嵌入的質(zhì)量,導(dǎo)致其性能反而不如 BM25 的基準(zhǔn)方案,詳細(xì)分析參見此技術(shù)文檔[9]。)

Mixedbread 多模態(tài)向量數(shù)據(jù)庫(kù)調(diào)用自研的 mxbai-omni-v0.1 多模態(tài)嵌入模型,直接處理文檔頁(yè)面截圖。這種方法能夠感知頁(yè)面布局、結(jié)構(gòu)特征與可視化元素,本質(zhì)上具備抵御 OCR 錯(cuò)誤干擾的能力。

我們使用兩項(xiàng)標(biāo)準(zhǔn)指標(biāo)來衡量檢索性能:

  • NDCG@5(Normalized Discounted Cumulative Gain @ 5):評(píng)估前 5 位檢索結(jié)果的質(zhì)量,既考察正確的文檔是否被檢出,還關(guān)注這些文檔的排名高低—— 排名越靠前的相關(guān)文檔得分越高。選定 K=5 的依據(jù)在于:研究表明大語(yǔ)言模型對(duì)上下文窗口中的文檔順序極為敏感,排名靠前的文檔對(duì)其決策影響更大。
  • Recall@5:這個(gè)指標(biāo)衡量的是前 5 個(gè)結(jié)果中是否至少檢索到了一個(gè)正確的證據(jù)頁(yè)面(evidence pages)。該指標(biāo)反映系統(tǒng)能否檢索到必要的信息,而不管其具體排名如何。

3.2 對(duì)檢索環(huán)節(jié)的評(píng)估結(jié)果顯示:OCR 的性能天花板確實(shí)存在

我們對(duì)檢索環(huán)節(jié)的基準(zhǔn)測(cè)試清晰地展現(xiàn)了傳統(tǒng)依賴 OCR 的方法與多模態(tài)方案之間的顯著差異。

NDCG@5 指標(biāo)表現(xiàn)(在七大文檔領(lǐng)域上的平均值)

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

本圖表展示各檢索方法在七大文檔領(lǐng)域的平均 NDCG@5 得分。該指標(biāo)同時(shí)考量前 5 位檢索結(jié)果中相關(guān)文檔的存在情況及排序質(zhì)量 —— 數(shù)值越高代表檢索越準(zhǔn)確,其中排名靠前的相關(guān)頁(yè)面的權(quán)重也越高。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

Recall@5 指標(biāo)表現(xiàn)(在七大文檔領(lǐng)域上的平均值)

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

本圖表顯示了各方法在七大文檔領(lǐng)域測(cè)試中的平均 Recall@5 值。該指標(biāo)反映了前 5 位檢索結(jié)果中出現(xiàn)至少一個(gè)正確的證據(jù)頁(yè)面的提問占比 —— 數(shù)值越高代表系統(tǒng)性能越佳。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

這些實(shí)驗(yàn)結(jié)果揭示了幾個(gè)重要的觀點(diǎn):

  • OCR 形成了“性能天花板”:所有被測(cè) OCR 方案均落后于基準(zhǔn)值。最優(yōu) OCR 方案的 NDCG@5 指標(biāo)平均值僅為 0.74,與基準(zhǔn)值 0.773 存在 4.5% 的絕對(duì)差距,這證實(shí)了 OCR 誤差從本質(zhì)上限制了檢索效率。
  • 文檔的復(fù)雜度放大了 OCR 方案存在的問題:在 finance、textbooks、news 等布局復(fù)雜的文檔領(lǐng)域,性能差距進(jìn)一步擴(kuò)大。表格、數(shù)學(xué)公式、多欄文本等元素大大加劇 OCR 的識(shí)別難度。
  • 多模態(tài)系統(tǒng)通過視覺-文本聯(lián)合理解實(shí)現(xiàn)性能突破:Mixedbread Vector Store 的性能始終優(yōu)于其他傳統(tǒng)方案,它的 NDCG@5 平均值為 0.865(較基準(zhǔn)方法提升了近 12%),因?yàn)樗芡ㄟ^直接解析頁(yè)面圖像中的版式結(jié)構(gòu)、表格圖表等視覺信息,獲取更豐富的語(yǔ)義關(guān)聯(lián)線索。

在基準(zhǔn)文本上,使用 Mixedbread Vector Store,Recall@5 指標(biāo)從基準(zhǔn)方法的 0.84 躍升至 0.92,具體表現(xiàn)為:

  • 基準(zhǔn)方法(perfect OCR):Recall@5=84% → 每 100 份相關(guān)文檔中,有 84 份被檢索到,且排在前 5 位。
  • 多模態(tài)方案(Mixedbread Vector Store):Recall@5=92% → 每 100 份相關(guān)文檔中,有 92 份進(jìn)入了前 5 名。

該指標(biāo)實(shí)現(xiàn)了 8% 的絕對(duì)提升(相對(duì)提升達(dá) 9.5%),這意味著檢索性能的大幅提高。本組基準(zhǔn)測(cè)試量化了單純依賴 OCR 技術(shù)所帶來的性能瓶頸。雖然更好的 OCR 有所幫助,但多模態(tài)路徑才是實(shí)現(xiàn)檢索能力飛躍的根本方向。

04 生成環(huán)節(jié)的測(cè)試方法與實(shí)驗(yàn)結(jié)果

現(xiàn)在好了,多模態(tài)檢索能夠找到更優(yōu)的文檔,從而突破了 OCR 的性能上限。但這種檢索效果的提升,是否真能讓大模型給出更準(zhǔn)確的最終答案呢?為了找出答案,我們測(cè)試了端到端的 RAG 的性能。

4.1 生成環(huán)節(jié)的試驗(yàn)設(shè)置

我們?cè)O(shè)置了三種場(chǎng)景,將每種場(chǎng)景檢索到的前 5 篇文檔輸入同一個(gè)強(qiáng)大的 LLM(gemini-2.5-flash-preview-04-17)進(jìn)行答案生成:

1)Perfect OCR & Perfect Retrieval (Ground Truth) :使用經(jīng)過人工驗(yàn)證的文本進(jìn)行生成,并將真實(shí)的證據(jù)頁(yè)面(evidence pages)作為輸入(也就是所謂的“Perfect Retrieval”)。這代表了在擁有正確上下文和理想的文本提取能力的情況下,當(dāng)前模型可達(dá)到的理論最高性能。

2)Perfect OCR & Retrieval:在 BM25 檢索、Top 5 文本片段選取及生成階段均采用經(jīng)過人工校驗(yàn)的文本。這代表了在 OCR 處于理想情況下,系統(tǒng)所能提供的理想質(zhì)量。

3)Mixedbread OCR(基于文本的 RAG) :在 BM25 檢索(獲取前 5 個(gè)文本片段)和生成上下文環(huán)節(jié)中,均采用我們高質(zhì)量 OCR 引擎提取的文本。這就模擬了一個(gè)標(biāo)準(zhǔn)的、高質(zhì)量的純文本 RAG 流程。

4)Mixedbread Vector Store(多模態(tài)檢索) :使用我們的多模態(tài)模型檢索前 5 頁(yè)的圖像,但隨后使用 Mixedbread OCR 提取的對(duì)應(yīng)干凈文本作為生成上下文。這種做法既保留了視覺檢索的優(yōu)勢(shì),又能確保生成環(huán)節(jié)的輸入模態(tài)(文本)保持一致。

為評(píng)估效果,我們主要關(guān)注"正確答案率"指標(biāo)。具體做法是:以 GPT-4.1 作為中立裁判,向其提供原始問題、標(biāo)準(zhǔn)答案、標(biāo)準(zhǔn)證據(jù)文本,以及 gemini-2.5-flash-preview-04-17 在各測(cè)試場(chǎng)景下生成的答案。最終得分按"正確回答數(shù)除以總問題數(shù)"的簡(jiǎn)單公式計(jì)算。

4.2 對(duì)生成環(huán)節(jié)的評(píng)估結(jié)果顯示:檢索質(zhì)量提升 = 答案準(zhǔn)確率提高

對(duì)生成環(huán)節(jié)的測(cè)試驗(yàn)證了我們的假設(shè):更優(yōu)質(zhì)的檢索能直接帶來更準(zhǔn)確的答案。

正確答案率

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

本圖表展示了每種生成方法的正確答案占比(基于7個(gè)領(lǐng)域的平均值,由 GPT-4.1 評(píng)判)。數(shù)值越高,表明大模型生成的答案越準(zhǔn)確,越接近正確答案(ground-truth)。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

這些實(shí)驗(yàn)結(jié)果揭示了幾個(gè)重要的觀點(diǎn):

  • OCR 的缺陷在生成階段被放大:與使用 perfect text(0.913 的基準(zhǔn)值)相比,依靠標(biāo)準(zhǔn) OCR 技術(shù)進(jìn)行檢索和生成會(huì)導(dǎo)致正確答案減少 25.8%(0.677)。錯(cuò)誤的輸入上下文大大降低了 LLM 生成準(zhǔn)確答案的能力。
  • 優(yōu)質(zhì)的檢索能夠大幅提升準(zhǔn)確率:僅將標(biāo)準(zhǔn)的使用 OCR 技術(shù)的檢索過程替換為使用 Mixedbread 向量數(shù)據(jù)庫(kù)的多模態(tài)檢索(生成環(huán)節(jié)仍使用相同的存在潛在缺陷的 OCR 文本),平均正確答案率即從 0.677 躍升至 0.843。僅此一項(xiàng)改進(jìn),就挽回了標(biāo)準(zhǔn) OCR 流程 70% 的準(zhǔn)確率損失。
  • 找到正確的文檔頁(yè)面至關(guān)重要:在生成過程中,檢索質(zhì)量往往比所提取文本的完美程度更關(guān)鍵。即便存在輕微的 OCR 提取缺陷,讓大模型獲取到正確文檔的收益,遠(yuǎn)高于提供錯(cuò)誤文檔中稍干凈的文本。

這些生成環(huán)節(jié)的測(cè)試證明,最先進(jìn)的多模態(tài)檢索技術(shù)能有效抵消 OCR 過程中產(chǎn)生的錯(cuò)誤對(duì)下游任務(wù)的大部分負(fù)面影響。

05 Direct Image Generation:僅依賴視覺的 RAG 系統(tǒng)是否可行?

視覺信息在檢索階段的成功引發(fā)了一個(gè)關(guān)鍵問題:能否在生成階段完全跳過 OCR?若將檢索到的頁(yè)面圖像直接輸入 Gemini 2.5 Flash 等多模態(tài)大語(yǔ)言模型,并讓其通過“閱讀”圖像生成答案,效果會(huì)如何?我們測(cè)試了這種“端到端圖像理解”的方案:

正確答案率(在三大文檔領(lǐng)域上的平均值)

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

這些實(shí)驗(yàn)結(jié)果揭示了三個(gè)重要的觀點(diǎn):

  • 純圖像輸入方案的表現(xiàn)欠佳:直接向大語(yǔ)言模型輸入頁(yè)面圖像進(jìn)行生成時(shí),平均正確率最低(0.627)
  • Visual Retrieval vs. Visual Generation:多模態(tài)模型擅長(zhǎng)利用視覺線索進(jìn)行檢索,但在生成環(huán)節(jié)直接從多個(gè)文檔圖像中提取細(xì)節(jié)信息的能力,仍顯著弱于處理預(yù)處理文本
  • 高質(zhì)量的 OCR 文本仍然是生成環(huán)節(jié)的最佳選擇(現(xiàn)階段):目前,向 LLM 提供干凈、清晰的文本可以得到最準(zhǔn)確的答案。

結(jié)論:雖然僅依賴視覺的 RAG 系統(tǒng)充滿想象空間,但現(xiàn)階段通過多模態(tài)檢索獲取文檔,再結(jié)合高質(zhì)量的 OCR 文本進(jìn)行生成,仍是綜合性能最優(yōu)的解決方案。

06 典型案例:標(biāo)準(zhǔn) OCR 的失效場(chǎng)景

為使 OCR 技術(shù)局限性的影響具象化,我們將基于基準(zhǔn)數(shù)據(jù)剖析幾個(gè)典型場(chǎng)景。這些案例既揭示了基于 OCR 的傳統(tǒng)系統(tǒng)的常見失效場(chǎng)景,也論證了多模態(tài)檢索方法如何實(shí)現(xiàn)更精準(zhǔn)的文檔解析。

6.1 案例1:Regulatory Filings 中手寫數(shù)據(jù)的挑戰(zhàn)

場(chǎng)景特征:以電信公司提交的 PUCO 年度報(bào)告為例,此類 Regulatory filings(譯者注:企業(yè)/機(jī)構(gòu)依法向監(jiān)管部門提交的標(biāo)準(zhǔn)化文件)通常將結(jié)構(gòu)化的打印內(nèi)容與關(guān)鍵的手寫財(cái)務(wù)數(shù)據(jù)混合排版在一起。這種混合內(nèi)容對(duì)傳統(tǒng) OCR 系統(tǒng)構(gòu)成了嚴(yán)峻的挑戰(zhàn) —— 手寫內(nèi)容常被錯(cuò)誤識(shí)別,可能導(dǎo)致合規(guī)風(fēng)險(xiǎn)與數(shù)據(jù)分析結(jié)果偏離。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

典型的 OCR 輸出及其局限性

當(dāng)采用標(biāo)準(zhǔn)的 OCR 引擎處理此類文件時(shí),關(guān)鍵的手寫財(cái)務(wù)數(shù)據(jù)往往會(huì)完全丟失或被錯(cuò)誤解析:

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

對(duì) RAG 系統(tǒng)的影響:當(dāng)用戶提出類似“TSC Communications 的總營(yíng)收是多少?”的查詢(query)時(shí),依賴此類有缺陷的 OCR 輸出的 RAG 系統(tǒng)可能返回:"無法從當(dāng)前文檔獲取營(yíng)收數(shù)據(jù)"。這種情況將迫使人工介入審核,嚴(yán)重延誤監(jiān)管報(bào)送與決策分析。

多模態(tài)解決方案:相比之下,多模態(tài)系統(tǒng)通過分析文檔的視覺布局與筆跡特征,可同步解析結(jié)構(gòu)化表格與手寫財(cái)務(wù)數(shù)據(jù)。這種全局理解能力使其能夠準(zhǔn)確識(shí)別出總營(yíng)收為 2,775,060 美元(其中運(yùn)營(yíng)收入 2,325,472 美元,其他收入 449,588 美元),從而生成關(guān)于公司財(cái)務(wù)狀況及監(jiān)管義務(wù)的精準(zhǔn)自動(dòng)化響應(yīng)。

6.2 案例 2:如何從金融圖表中提取趨勢(shì)信息

情景概述:在季度投資分析報(bào)告中,常運(yùn)用堆疊面積圖等可視化工具呈現(xiàn)資產(chǎn)配置變化。傳統(tǒng) OCR 技術(shù)在此場(chǎng)景下僅能識(shí)別表層文本信息(如標(biāo)題、圖例標(biāo)注),卻無法捕捉承載核心趨勢(shì)的可視化數(shù)據(jù)。

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

傳統(tǒng) OCR 技術(shù)的輸出及其局限性

標(biāo)準(zhǔn) OCR 工具可能只會(huì)提取標(biāo)簽和標(biāo)題,而忽略了核心數(shù)據(jù):

Portfolio Allocation Trends (Q1 2023 - Q4 2024)

Percentage (%)

100

75

50

25

0

Q1 2023, Q2 2023, Q3 2023, Q4 2023, Q1 2024, Q2 2024, Q3 2024, Q4 2024

Cash, Commodities,Real Estate,Fixed Income, Equities

對(duì) RAG 系統(tǒng)的影響:當(dāng)客戶咨詢"我的權(quán)益類資產(chǎn)占比過去一年如何變化?"時(shí),基于傳統(tǒng) OCR 輸出的 RAG 系統(tǒng)只能提供有關(guān)投資組合組成部分的一般信息,完全無法解讀圖表中揭示的關(guān)鍵趨勢(shì) —— 例如權(quán)益類資產(chǎn)配置有 13 個(gè)百分點(diǎn)的增幅,而這正是評(píng)估投資風(fēng)險(xiǎn)的核心依據(jù)。

多模態(tài)解決方案:多模態(tài)系統(tǒng)通過直接對(duì)圖表進(jìn)行直觀分析,既能識(shí)別每個(gè)時(shí)間點(diǎn)的配置比例,也能識(shí)別整體趨勢(shì)模式。這樣,它就能準(zhǔn)確地做出反應(yīng):"您的權(quán)益類資產(chǎn)配置在過去的一年內(nèi)從 45% 攀升至 58%,這是您的投資組合構(gòu)成中最大的變化。" 系統(tǒng)甚至可以提取特定季度的數(shù)據(jù)來補(bǔ)充說明這一情況。

6.3 示例 3:復(fù)雜財(cái)務(wù)報(bào)表的精準(zhǔn)解析

情景描述:財(cái)務(wù)報(bào)表中常包含多欄表格,詳細(xì)列出收入明細(xì)與運(yùn)營(yíng)開支。使用 OCR 對(duì)此類復(fù)雜表格結(jié)構(gòu)進(jìn)行識(shí)別,其難點(diǎn)在于保持行與列的正確對(duì)齊 —— 當(dāng)表格識(shí)別出現(xiàn)對(duì)齊錯(cuò)誤時(shí),會(huì)導(dǎo)致財(cái)務(wù)數(shù)據(jù)被錯(cuò)誤歸類(例如將"研發(fā)支出"的數(shù)值誤關(guān)聯(lián)到"市場(chǎng)營(yíng)銷"下)

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

傳統(tǒng) OCR 技術(shù)的輸出及其局限性

即便文字內(nèi)容被提取,OCR 的細(xì)微對(duì)齊錯(cuò)誤或解析錯(cuò)誤仍會(huì)破壞表格結(jié)構(gòu):

OCR 識(shí)別質(zhì)量如何影響 RAG 系統(tǒng)的性能?有何解決辦法?-AI.x社區(qū)

對(duì) RAG 系統(tǒng)的影響:當(dāng)財(cái)務(wù)分析師詢問"2025 年研發(fā)支出占收入的比例相較 2024 年有何變化?"時(shí),基于 OCR 識(shí)別出的錯(cuò)誤表格結(jié)構(gòu)數(shù)據(jù)的 RAG 系統(tǒng)可能曲解數(shù)據(jù)之間的關(guān)系,產(chǎn)生諸如"2025 年研發(fā)占比 49%,而 2024 年高達(dá) 8,675%"的荒謬回答。這類錯(cuò)誤源于系統(tǒng)無法正確理解表格的視覺結(jié)構(gòu)與語(yǔ)義邏輯。

多模態(tài)解決方案:通過分析表格的視覺結(jié)構(gòu),系統(tǒng)能準(zhǔn)確識(shí)別標(biāo)題、金額與百分比數(shù)字之間的復(fù)雜對(duì)應(yīng)關(guān)系。這樣就能做出準(zhǔn)確的答復(fù):"盡管研發(fā)支出絕對(duì)值增長(zhǎng)了 49%,但其占凈收入的比例從 2024 年的 14.2% 下降至 2025 年的 9.9%。"系統(tǒng)可以同時(shí)把握財(cái)務(wù)數(shù)據(jù)的空間布局與語(yǔ)義關(guān)聯(lián)。

07 Mixedbread Vector Store 所使用技術(shù)方案的核心功能與實(shí)施價(jià)值

該向量數(shù)據(jù)庫(kù)專為解決 OCR 依賴型 RAG 系統(tǒng)的固有缺陷而設(shè)計(jì),其核心架構(gòu)基于 mxbai-omni-v0.1 多模態(tài)模型實(shí)現(xiàn)跨模態(tài)信息檢索。該模型可直接分析文檔頁(yè)面截圖、視頻等原始視覺內(nèi)容并生成嵌入向量,從而在其原始上下文中理解布局、結(jié)構(gòu)、表格和圖表?;鶞?zhǔn)測(cè)試表明,相較理想的文本提取方案(perfect text extraction),該方案將檢索準(zhǔn)確率(NDCG@5)提升約 12 個(gè)百分點(diǎn)。

系統(tǒng)在進(jìn)行視覺分析的同時(shí),通過 OCR 引擎并行處理文本內(nèi)容。提取的文本數(shù)據(jù)將與視覺嵌入向量同步存儲(chǔ),形成雙模態(tài)協(xié)同優(yōu)勢(shì):

  • 增強(qiáng)檢索能力:當(dāng)純文本檢索因 OCR 錯(cuò)誤或特殊內(nèi)容(如圖表、復(fù)雜表格)失效時(shí),視覺分析能精準(zhǔn)定位相關(guān)文檔
  • 優(yōu)化生成上下文:保留高質(zhì)量 OCR 文本,適配當(dāng)前以文本輸入為主的大語(yǔ)言模型生成需求
  • 自動(dòng)化文檔處理:系統(tǒng)自動(dòng)完成視覺嵌入與文本提取,用戶無需干預(yù)數(shù)據(jù)預(yù)處理流程
  • 對(duì)未來 LLM 的適配:同步存儲(chǔ)視覺表征與文本數(shù)據(jù),為未來多模態(tài) LLM 直接利用圖像信息生成內(nèi)容做好技術(shù)儲(chǔ)備

這種一體化設(shè)計(jì)方案能夠大大提升 RAG 系統(tǒng)的綜合性能:基準(zhǔn)測(cè)試顯示這種技術(shù)路線不僅能夠?qū)崿F(xiàn)檢索效率的大幅提升,更在統(tǒng)一框架內(nèi)挽回傳統(tǒng)流程因 OCR 問題損失的 70% 生成準(zhǔn)確率。

08 結(jié)論:利用多模態(tài)檢索突破 OCR 的性能瓶頸

基準(zhǔn)測(cè)試數(shù)據(jù)表明,光學(xué)字符識(shí)別(OCR)的質(zhì)量是制約 RAG 系統(tǒng)性能的核心瓶頸,尤其是在處理復(fù)雜的現(xiàn)實(shí)世界文檔時(shí)。文本提取過程中的錯(cuò)誤與遺漏不僅會(huì)限制準(zhǔn)確檢索相關(guān)信息的能力,更會(huì)直接影響大語(yǔ)言模型生成最終答案的質(zhì)量。

將多模態(tài)分析納入檢索流程的策略(如 Mixedbread Vector Store 技術(shù)方案)可解決其中的部分限制。通過直接解析頁(yè)面圖像的視覺語(yǔ)義,這種方法在測(cè)試中相較理想的文本提取基準(zhǔn)方法提升 12% 檢索準(zhǔn)確率(NDCG@5)。檢索性能的提升,使傳統(tǒng)流程因 OCR 錯(cuò)誤損失的 70% 的生成準(zhǔn)確率得以恢復(fù)。

雖然現(xiàn)階段大語(yǔ)言模型在答案生成環(huán)節(jié)仍依賴高質(zhì)量文本輸入,但多模態(tài)系統(tǒng)展現(xiàn)的強(qiáng)大檢索能力為文檔理解開辟了一條較為有效的技術(shù)路徑。同時(shí)集成視覺驅(qū)動(dòng)檢索與高質(zhì)量 OCR 文本的 RAG 系統(tǒng),不僅為當(dāng)前實(shí)際應(yīng)用需求提供了有效的解決方案,更為未來大語(yǔ)言模型直接利用圖像數(shù)據(jù)進(jìn)行生成任務(wù)奠定了基礎(chǔ)。

本研究證實(shí):在處理多樣化、結(jié)構(gòu)復(fù)雜的文檔場(chǎng)景時(shí),將多模態(tài)理解能力融入檢索流程是提升 RAG 系統(tǒng)準(zhǔn)確性與可靠性的關(guān)鍵考慮因素。

END

本期互動(dòng)內(nèi)容 ??

?文章認(rèn)為 OCR 是 RAG 系統(tǒng)的“隱形性能天花板”,但你覺得還有哪些被低估的性能瓶頸?

文中鏈接

[1]??https://arxiv.org/abs/2412.02592??

[2]??https://ai.google.dev/gemini-api/docs/models??

[3]??https://github.com/opendatalab/MinerU??

[4]??https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/overview?view=doc-intel-4.0.0??

[5]??https://github.com/QwenLM/Qwen-VL??

[6]??https://github.com/Unstructured-IO/unstructured??

[7]??https://www.mixedbread.com/docs/vector-store??

[8]??https://en.wikipedia.org/wiki/Okapi_BM25??

[9]??https://docs.google.com/spreadsheets/d/1zBGOIOCzZZjw1HXBGGI8BzNx_kYj34LlYaFteZTU7Bg/edit?usp=sharing??

本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請(qǐng)聯(lián)系獲取授權(quán)。

原文鏈接:

??https://www.mixedbread.com/blog/the-hidden-ceiling??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦