偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

拋棄 OCR，拋棄文本提取，拋棄分塊！提升RAG性能的新方法！

發(fā)布于 2025-5-19 00:08

瀏覽

1收藏

在最近的文章中，筆者介紹了影響 Context 高質(zhì)量供給的關(guān)鍵因素有記憶的存用和記憶的連貫性。

而對(duì)記憶源信息（尤其是復(fù)雜文檔）的深度理解是高質(zhì)量Conext供給的又一大關(guān)鍵。傳統(tǒng)的文本提取和分塊方法，在面對(duì)圖文混排、表格遍布的文檔時(shí)，往往力不從心，生成的 Context 質(zhì)量堪憂，這已成為提升 RAG 應(yīng)用性能的一大瓶頸。

我們都曾經(jīng)歷過這樣的“噩夢(mèng)”：精心構(gòu)建的 RAG 系統(tǒng)，因?yàn)?OCR 識(shí)別錯(cuò)誤、表格內(nèi)容丟失、或者圖片信息被忽略，導(dǎo)致 LLM 的回答驢唇不對(duì)馬嘴。PDF、Word 文檔、PPT 演示稿中那些精心設(shè)計(jì)的布局、關(guān)鍵的圖表數(shù)據(jù)、甚至是字體樣式的強(qiáng)調(diào)，這些豐富的視覺信息在傳統(tǒng)處理流程中幾乎被完全拋棄，只留下一堆可能支離破碎的文本。

拋棄 OCR，拋棄文本提取，拋棄分塊！提升RAG性能的新方法！-AI.x社區(qū)

今天介紹一個(gè)項(xiàng)目 ColiVara ，正試圖從根本上解決這個(gè)問題，它帶來的不是對(duì)現(xiàn)有流程的修修補(bǔ)補(bǔ)，而是一場(chǎng)針對(duì)文檔檢索的“視覺革命”。

ColiVara 的“殺手锏”：用視覺模型“看懂”文檔

ColiVara 的核心理念十分大膽：拋棄 OCR，拋棄文本提取，拋棄分塊！ 它直接將文檔（支持 PDF, DOCX, PPTX 等超過100種格式）的每一頁都視為一張圖像，利用先進(jìn)的視覺語言模型（基于“ColPali: Efficient Document Retrieval with Vision Language Models” 論文^[1]）來生成文檔的“視覺嵌入”。這意味著，ColiVara 不再僅僅“閱讀”文本，它更能“看見”并理解文檔的整體布局、圖片內(nèi)容、表格結(jié)構(gòu)等視覺元素。

拋棄 OCR，拋棄文本提取，拋棄分塊！提升RAG性能的新方法！-AI.x社區(qū)

這種方法的優(yōu)勢(shì)是顛覆性的：

告別信息損失：再也不會(huì)有無法識(shí)別的表格、丟失的圖片、或因分塊不當(dāng)導(dǎo)致的上下文割裂。文檔的完整性得到了前所未有的保留。
卓越的檢索性能：通過整合文本與視覺特征，ColiVara 在文本和視覺文檔檢索上均展現(xiàn)出業(yè)界領(lǐng)先的性能。其采用的“后期交互 (Late-Interaction)”風(fēng)格嵌入，即便在純文本文檔上，也比傳統(tǒng)池化嵌入更為精準(zhǔn)。
開發(fā)者體驗(yàn)友好：提供簡(jiǎn)潔易用的 Python/Typescript SDK 和 REST API，讓開發(fā)者可以快速集成。

ColiVara 為何與眾不同？

你可能會(huì)問，如果我的文檔主要是文本，我還需要 ColiVara 嗎？答案是肯定的。正如其文檔所言，即使是純文本文檔，ColiVara 的后期交互式嵌入也能提供更準(zhǔn)確的檢索。更重要的是，它為你打開了處理混合內(nèi)容文檔（這才是現(xiàn)實(shí)世界中的常態(tài)）的全新大門。

無需自建向量數(shù)據(jù)庫（大部分情況）：ColiVara 使用 Postgres 和 pgVector 為你處理向量存儲(chǔ)，極大地簡(jiǎn)化了部署和維護(hù)。當(dāng)然，如果你堅(jiān)持，它也提供了單獨(dú)的嵌入生成端點(diǎn)，讓你自由選擇存儲(chǔ)方案（但需注意其對(duì)多向量和后期交互特性的支持）。
廣泛的格式支持：從 PDF 到 Office 全家桶，再到各種圖片格式，基本覆蓋了日常工作中的所有文檔類型。
強(qiáng)大的元數(shù)據(jù)過濾：不僅能進(jìn)行語義搜索，還能結(jié)合文檔或集合的元數(shù)據(jù)（如作者、日期、標(biāo)簽）進(jìn)行精確篩選，完美融合非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)的檢索優(yōu)勢(shì)。
透明的評(píng)估體系：基于 Vidore 數(shù)據(jù)集進(jìn)行可復(fù)現(xiàn)的性能評(píng)估，其 Release 1.5.0 版本在多個(gè)基準(zhǔn)測(cè)試中取得了平均 86.8 的高分。

快速上手 ColiVara

上手 ColiVara 非常簡(jiǎn)單：

從 ColiVara 官網(wǎng)（或其指定渠道）獲取免費(fèi) API Key。
安裝 SDK (??pip install colivara-py?? 或??npm install colivara-ts??)。
幾行代碼即可索引和搜索文檔：

# Python 示例
from colivara_py import ColiVara
client = ColiVara(api_key="YOUR_API_KEY")

# 索引文檔 (URL, base64 或本地路徑)
client.upsert_document(
    name="annual_report_2023",
    document_url="https://example.com/report.pdf",
    metadata={"year": 2023, "category": "finance"}
)

# 搜索
results = client.search("what were the key financial highlights of 2023?")
print(results)

本地部署方法：https://docs.colivara.com/getting-started/self-hosting

小結(jié)

在 RAG 應(yīng)用成為主流的當(dāng)下，如何從原始文檔中高效、準(zhǔn)確地提取高質(zhì)量 Context，已經(jīng)成為決定應(yīng)用成敗的關(guān)鍵。

傳統(tǒng)的解析、分塊、嵌入的分階段過程，帶來的是每一個(gè)階段的信息損失，ColiVara的方案讓文檔處理更加簡(jiǎn)單和完整，它的新穎思路會(huì)給更多人啟發(fā)，也將趨勢(shì)更多人在這一新的技術(shù)方向探索。

github地址：???https://github.com/tjmlabs/ColiVara??

參考：

[1]ColPali 論文: ???https://arxiv.org/abs/2407.01449??

本文轉(zhuǎn)載自????AI工程化?????，作者：ully

標(biāo)簽

贊 1

收藏 1

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

Syrupup ? 5627瀏覽 ? 0回復(fù)
改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調(diào)效果

輕薄滴假象 ? 3722瀏覽 ? 0回復(fù)
檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

Syrupup ? 3998瀏覽 ? 0回復(fù)
拋棄自回歸，連接一致性Diffusion和LLM！UCSD上交新作熱度緊追AF 3

duhorse ? 4085瀏覽 ? 0回復(fù)
只需微調(diào)，大幅提升人臉生成質(zhì)量！上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法

angel ? 3904瀏覽 ? 0回復(fù)
LLM 預(yù)訓(xùn)練加速的新方法：八種模型增長(zhǎng)方案總結(jié)

amei2000go ? 6657瀏覽 ? 0回復(fù)
RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 6927瀏覽 ? 0回復(fù)
從噪聲中提取情感：中山大學(xué)與騰訊AI實(shí)驗(yàn)室基于元學(xué)習(xí)的多模態(tài)情感分析新方法

xuxiangda ? 6285瀏覽 ? 0回復(fù)
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 6154瀏覽 ? 0回復(fù)
時(shí)序預(yù)測(cè)數(shù)據(jù)處理新方法匯總：多粒度和頻域的可逆歸一化

海因斯DK ? 6198瀏覽 ? 0回復(fù)
拋棄UNet，首個(gè)基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大

angel ? 3762瀏覽 ? 0回復(fù)
高效信息檢索新方法：LangChain中Retriever的多種高級(jí)策略

Halo咯咯 ? 5451瀏覽 ? 0回復(fù)
清華團(tuán)隊(duì)提出精確學(xué)習(xí)新方法，提升AI泛化能力

AI論文解讀 ? 4394瀏覽 ? 0回復(fù)
再談大模型長(zhǎng)文本分塊，以及分塊在RAG中的作用？

AI探索時(shí)代 ? 5178瀏覽 ? 0回復(fù)
提升RAG性能：分塊后，Chunk Enrichment的2個(gè)關(guān)鍵優(yōu)化步驟不可錯(cuò)過

凝固的雨_1 ? 4104瀏覽 ? 0回復(fù)
Salesforce 新方法讓RAG效果飆升

大語言模型論文跟蹤 ? 3493瀏覽 ? 0回復(fù)
RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路

大模型自然語言處理 ? 3944瀏覽 ? 0回復(fù)
基于文本結(jié)構(gòu)分塊 - 文本分塊（Text Splitting），RAG不可缺失的重要環(huán)節(jié)

AI取經(jīng)路 ? 4159瀏覽 ? 0回復(fù)
OpenAI要拋棄英偉達(dá)？緊急辟謠：轉(zhuǎn)向谷歌TPU是烏龍，根本無部署計(jì)劃！

51CTO技術(shù)棧 ? 1146瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Glyph：文本轉(zhuǎn)圖片解決長(zhǎng)上下文困境，智譜把“DeepSeek-OCR”具像化了 3天前發(fā)布
LangChain提出Agent工程化的新分層（Agent harness） 3天前發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇： mem0推出王炸mcp工具OpenMemory，打造用戶私有、跨應(yīng)用的共享記憶層

下一篇： Agent與工具交互平臺(tái)級(jí)探索，只用接入一個(gè)MCP服務(wù)就能調(diào)用6000+工具

社區(qū)精華內(nèi)容

目錄

<pre id="vxs0u"><big id="vxs0u"></big></pre>

<button id="vxs0u"><samp id="vxs0u"><form id="vxs0u"></form></samp></button>