偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="npv3q"></center>

<em id="npv3q"></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

不止能切文本：多向量檢索如何讓RAG搞定復雜PDF 原創(chuàng)

發(fā)布于 2025-10-10 06:46

瀏覽

0收藏

在日常工作里，我們經(jīng)常會接觸到各種文檔：研究論文、財報、產(chǎn)品手冊……它們往往不是“純文本”，而是夾雜了段落、表格、標題、甚至圖片。這類“半結(jié)構(gòu)化數(shù)據(jù)”，對于傳統(tǒng)的 RAG（Retrieval-Augmented Generation，檢索增強生成）來說，是一個相當棘手的問題。

為什么？想象一下，如果一個普通的文本切分工具把表格切開一半，或者直接把一張大表格當成純文本去嵌入，結(jié)果就是語義檢索時一團糊，模型很可能拿不到真正需要的上下文。最終生成的答案，自然也就“答非所問”。

這篇文章就帶你深入理解：如何用 智能解析 + 多向量檢索器（multi-vector retriever），在 LangChain 框架里構(gòu)建一個更聰明、更可靠的 半結(jié)構(gòu)化數(shù)據(jù) RAG 管道。

1、為什么半結(jié)構(gòu)化數(shù)據(jù)會成為RAG的難點？

傳統(tǒng)的RAG流水線主要面向“純文本”，它在半結(jié)構(gòu)化文檔上常常翻車，原因主要有兩個：

1)切分失真普通的文本切分器可能在錯誤的位置把表格一分為二，這等于直接破壞了表格中的關鍵數(shù)據(jù)。

2)語義噪聲如果直接把整張大表嵌入向量空間，得到的語義表示往往模糊不清。這樣一來，檢索環(huán)節(jié)可能根本找不到關鍵上下文，模型回答自然就不準。

現(xiàn)實場景中，這種問題比你想象得更普遍：

在金融行業(yè)，財報中的表格決定了核心答案；
在科研場景，實驗數(shù)據(jù)幾乎都放在表格里；
在企業(yè)產(chǎn)品手冊中，參數(shù)對照表同樣是核心信息。

這意味著，如果不能妥善處理表格、段落并存的復雜文檔，RAG系統(tǒng)的價值將大打折扣。

2、解決方案：智能解析 + 多向量檢索

面對這一挑戰(zhàn)，核心思路其實很簡單：不要一刀切，而是分類處理。

我們可以把解決方案分為兩個關鍵步驟：

智能解析（Unstructured庫）使用??partition_pdf?? 等方法，不僅能識別出段落，還能準確區(qū)分出表格，并保留它們的原始結(jié)構(gòu)。這樣就避免了盲目切分導致的信息丟失。
多向量檢索器（Multi-Vector Retriever）每個元素既存儲一份“摘要”向量（用于檢索），也保留原始完整內(nèi)容（用于答案生成）。檢索階段靠摘要高效定位，生成階段再調(diào)取完整表格或段落。這樣既保證檢索速度，又能讓模型真正“看見全貌”。

可以把它想象成查書目錄 vs 翻正文：先靠目錄找到相關章節(jié)，再翻到完整內(nèi)容細讀。

3、構(gòu)建RAG管道的五個步驟

不止能切文本：多向量檢索如何讓RAG搞定復雜PDF-AI.x社區(qū)

下面結(jié)合 LLaMA2 研究論文 的 PDF，走一遍完整的實現(xiàn)流程。

Step 1：環(huán)境準備

安裝必要的依賴，包括 LangChain 框架、Unstructured 解析庫、Chroma 向量存儲等：

! pip install langchain langchain-chroma "unstructured[all-docs]" pydantic lxml langchainhub langchain_openai -q
! apt-get install -y tesseract-ocr poppler-utils

這里的 ??tesseract-ocr??? 和 ??poppler-utils?? 用于OCR和PDF處理。

Step 2：文檔解析

使用 ??partition_pdf?? 對PDF進行智能解析。它會自動識別 段落（CompositeElement） 和 表格（Table）：

from unstructured.partition.pdf import partition_pdf

raw_pdf_elements = partition_pdf(
   filename="/content/LLaMA2.pdf",
   extract_images_in_pdf=False,
   infer_table_structure=True,
   chunking_strategy="by_title",
   max_characters=4000,
   new_after_n_chars=3800,
   combine_text_under_n_chars=2000,
)

輸出結(jié)果顯示：解析出了 85個文本塊 和 2張表格。這為后續(xù)處理打下了干凈的基礎。

Step 3：生成摘要

長表格和長段落不適合直接嵌入，因此我們用LangChain構(gòu)建一個 摘要生成鏈。

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser

prompt = ChatPromptTemplate.from_template(
   "Summarize the following element concisely:\n\n{element}"
)

model = ChatOpenAI(temperature=0, model="gpt-4.1-mini")
summarize_chain = {"element": lambda x: x} | prompt | model | StrOutputParser()

這樣就能得到更輕量、清晰的語義摘要，提升檢索精度。

Step 4：構(gòu)建多向量檢索器

使用 Chroma 保存摘要向量，InMemoryStore 保存原文，并通過ID進行關聯(lián)：

from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain_chroma import Chroma
from langchain.storage import InMemoryStore

retriever = MultiVectorRetriever(
   vectorstore=Chroma(collection_name="summaries"),
   docstore=InMemoryStore(),
   id_key="doc_id",
)

這樣檢索時先命中摘要，再回溯到原文。

Step 5：運行完整RAG鏈

構(gòu)建問答鏈，輸入問題時：

檢索摘要 →
找到對應原文 →
提交給LLM生成答案。

from langchain_core.runnables import RunnablePassthrough

prompt = ChatPromptTemplate.from_template(
   "Answer the question based on context:\n\n{context}\n\nQuestion: {question}\n"
)

chain = (
   {"context": retriever, "question": RunnablePassthrough()}
   | prompt
   | ChatOpenAI(temperature=0, model="gpt-4")
   | StrOutputParser()
)

chain.invoke("What is the number of training tokens for LLaMA2?")

結(jié)果：系統(tǒng)準確定位到了論文中的表格，并提取了訓練數(shù)據(jù)規(guī)模這一關鍵信息。

4、這種方法的價值在哪里？

相比“簡單切分 + 直接嵌入”，這種 半結(jié)構(gòu)化數(shù)據(jù) RAG 的方法帶來三大優(yōu)勢：

上下文完整模型在生成答案時真正“看見”了完整表格或段落，不會因為缺失而答錯。
檢索精準摘要比原始長文塊更適合做向量搜索，大幅降低噪聲。
通用性強適用于財報、學術論文、專利、技術手冊等各類混合文檔場景。

未來，如果結(jié)合多模態(tài)（比如圖片里的圖表）、更智能的布局解析，這種方法的潛力將更大。

5、展望與思考

隨著企業(yè)數(shù)字化的深入，復雜文檔數(shù)據(jù) 將越來越常見。財務、法律、醫(yī)療、科研等行業(yè)尤其如此。傳統(tǒng)RAG如果停留在“純文本思維”，很快會遇到天花板。

這篇文章展示的“智能解析 + 多向量檢索”方案，不僅提升了RAG的精度，也讓復雜文檔真正可用?？梢灶A見，在未來的知識管理和智能問答系統(tǒng)里，這類方案會成為標配。

那么，問題來了：如果讓你在公司里落地這樣的方案，你覺得最先適合的場景會是什么？是財報分析、科研文檔，還是內(nèi)部技術文檔？

本文轉(zhuǎn)載自??Halo咯咯?? 作者：基咯咯

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

多向量檢索

已于2025-10-15 14:30:31修改

贊

收藏

回復

舉報

熱門內(nèi)容榜 ? 最近上榜

回復

相關推薦

萬文長文搞定檢索增強生成(RAG)技術——13篇熱門RAG文章解讀

angel ? 1.6w瀏覽 ? 0回復
檢索生成(RAG) vs 長文本大模型：實際應用中如何選擇？

Baihai_IDP ? 4143瀏覽 ? 0回復
Gptpdf：一個簡單巧妙的復雜Pdf解析工具，提升RAG效果

Syrupup ? 8010瀏覽 ? 0回復
RAG新范式MemLong：用于長文本生成的記憶增強檢索

PaperAgent ? 4160瀏覽 ? 0回復
如何利用RAG+Agent輕松解決企業(yè)復雜問題？

玄姐聊AGI ? 4104瀏覽 ? 0回復
利用多向量和高級搜索數(shù)據(jù)模型設計城市數(shù)據(jù)

51CTO內(nèi)容精選 ? 4032瀏覽 ? 0回復
增強問答文本檢索的排序（RAG）模型，你學會了嗎？

AI論文解讀 ? 5251瀏覽 ? 0回復
顛覆傳統(tǒng)OCR輕松搞定復雜PDF的工具

恰似驚鴻 ? 5246瀏覽 ? 0回復
輕松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 ? 7377瀏覽 ? 0回復
優(yōu)化文本嵌入，大幅提升RAG檢索速度

小虎哦哦 ? 5520瀏覽 ? 0回復
LangChain-RAG必備：向量數(shù)據(jù)庫如何CRUD

ermulong ? 3983瀏覽 ? 0回復
再談大模型向量，由向量檢索引起的思考

AI探索時代 ? 3440瀏覽 ? 0回復
無需檢索！CAG 通過鍵值緩存讓 RAG 輕松上手

凝固的雨_1 ? 5134瀏覽 ? 0回復
如何高效轉(zhuǎn)換PDF為Markdown：構(gòu)建優(yōu)質(zhì)Graph RAG的第一步

Halo咯咯 ? 3808瀏覽 ? 0回復
知識Agent檢索：讓RAG迸發(fā)智慧的五個架構(gòu)躍遷點

ermulong ? 3060瀏覽 ? 0回復
多智能體系統(tǒng)（MAS）：如何讓AI團隊協(xié)作解決復雜問題？

Halo咯咯 ? 7030瀏覽 ? 0回復
RAG只能應用于文本檢索嗎？關于大模型應用之RAG——檢索增強的思考

AI探索時代 ? 2483瀏覽 ? 0回復
RAG-Anything：PDF、表格、公式全能讀！港大開源神器讓AI真正理解復雜文檔？

穿越時空111 ? 5220瀏覽 ? 0回復
RAG 不止能檢索！它還能在 LangGraph 中當“工具調(diào)用大腦”

PyTorch研習社 ? 2076瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

Glyph：智譜AI用“視覺壓縮”讓上下文延長到100萬Token的新思路 2天前發(fā)布
MiniMax M2：2300 億參數(shù)的“小巨人”，正改寫大模型競爭邏輯 2天前發(fā)布

熱門推薦

為什么它能成為強化學習的“黃金標準”？深扒 Proximal Policy Optimization (PPO) 的核心奧秘 0回復

微軟開源 VibeVoice-1.5B：90分鐘多角色語音合成，讓TTS進入“長音頻時代” 0回復

GPU vs TPU：誰才是2025年大模型訓練的最優(yōu)解？最新性能榜單揭曉 0回復

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構(gòu)全解析 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

上一篇：代理可觀測性實戰(zhàn)指南：讓你的 AI 穩(wěn)定、合規(guī)、可控

下一篇： n8n能取代DevOps嗎？別急，先聽聽真實答案

社區(qū)精華內(nèi)容

目錄