偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="hgtsu"><li id="hgtsu"></li></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

介紹一種實(shí)用的RAG技術(shù)：父文檔檢索（PDR）原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-8-30 11:23

瀏覽

0收藏

父文檔檢索（PDR）能夠使RAG更準(zhǔn)確、細(xì)致地響應(yīng)各種復(fù)雜的查詢。本文將利用LangChain和OpenAI向你展示其分步實(shí)施步驟。

作為一種能在先進(jìn)的 RAG（Retrieval-Augmented Generation，檢索增強(qiáng)生成）模型中實(shí)現(xiàn)的方法，父文檔檢索（Parent Document Retrieval，PDR）旨在恢復(fù)那些可以從中提取到相關(guān)子段落（或片段）的完整父文檔。此類文檔通過(guò)將豐富的上下文，傳遞給 RAG 模型，以便對(duì)復(fù)雜或細(xì)微的問(wèn)題，做出更全面且內(nèi)涵豐富的回答。通常，在 RAG 模型中檢索出父文檔的主要步驟包括：

數(shù)據(jù)預(yù)處理：將冗長(zhǎng)的文檔分解為多個(gè)可管理的片段
創(chuàng)建嵌入：將片段轉(zhuǎn)換為數(shù)值向量，以實(shí)現(xiàn)高效的搜索
用戶查詢：讓用戶提交問(wèn)題
塊檢索：模型檢索出那些與查詢嵌入最為相似的部分
查找父文檔：檢索原始文檔或從中獲取更大的片段
父文檔檢索：檢索完整的父文檔，為響應(yīng)提供更為豐富的上下文

介紹一種實(shí)用的RAG技術(shù)：父文檔檢索（PDR）-AI.x社區(qū)

循序漸進(jìn)的實(shí)施

根據(jù)上圖，我們可以將實(shí)現(xiàn)父文檔檢索的步驟簡(jiǎn)單分為如下四個(gè)不同的階段：

1. 準(zhǔn)備數(shù)據(jù)

我們首先應(yīng)為自己的 RAG 系統(tǒng)創(chuàng)建環(huán)境并預(yù)處理數(shù)據(jù)，以便對(duì)后續(xù)的父文檔開(kāi)展文檔檢索。

（1）導(dǎo)入必要的模塊

我們將從已安裝的庫(kù)中導(dǎo)入所需的模塊，以設(shè)置我們的 PDR 系統(tǒng)：

Python

from langchain.schema import Document
from langchain.vectorstores import Chroma
from langchain.retrievers import ParentDocumentRetriever
from langchain.chains import RetrievalQA
from langchain_openai import OpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.storage import InMemoryStore
from langchain.document_loaders import TextLoader
from langchain.embeddings.openai import OpenAIEmbeddings

上述這些庫(kù)和模塊正是構(gòu)成整個(gè)過(guò)程步驟的主要部分。

（2）設(shè)置 OpenAI API 密鑰

接著，我們使用 OpenAI LLM來(lái)生成響應(yīng)，為此我們需要一個(gè) OpenAI 的API 密鑰。該密鑰可被用來(lái)設(shè)置環(huán)境變量：OPENAI_API_KEY。

Python

OPENAI_API_KEY = os.environ["OPENAI_API_KEY"] = ""  # Add your OpenAI API key
if OPENAI_API_KEY == "":
raise ValueError("Please set the OPENAI_API_KEY environment variable")

（3）定義文本嵌入函數(shù)

通過(guò)如下方式，我們利用 OpenAI 的嵌入來(lái)表示文本數(shù)據(jù)：

Python

embeddings = OpenAIEmbeddings()

（4）加載文本數(shù)據(jù)

為了讀取想要檢索的文本文檔，你可以利用類TextLoader來(lái)讀取文本文件：

Python

loaders = [
    TextLoader('/path/to/your/document1.txt'),
    TextLoader('/path/to/your/document2.txt'),
]
docs = []
for l in loaders:
docs.extend(l.load())

2. 檢索完整的文檔

下面，我們將通過(guò)設(shè)置系統(tǒng)，來(lái)檢索與子段落相關(guān)的完整父文檔。

（1）完整文檔的拆分

我們使用RecursiveCharacterTextSplitter將加載的文檔分割成比所需大小更小的文本塊。這些子文檔將使我們能夠有效地搜索相關(guān)段落：

Python

child_splitter = RecursiveCharacterTextSplitter(chunk_size=400)

（2）矢量存儲(chǔ)和存儲(chǔ)設(shè)置

下面，我們將使用Chroma向量存儲(chǔ)來(lái)嵌入各個(gè)子文檔，并利用InMemoryStore來(lái)跟蹤與子文檔關(guān)聯(lián)的完整父文檔：

Python

vectorstore = Chroma(
    collection_name="full_documents",
    embedding_function=OpenAIEmbeddings()
)
store = InMemoryStore()

（3）父文檔檢索器

接著，讓我們從類ParentDocumentRetriever中實(shí)例化一個(gè)對(duì)象。該類主要負(fù)責(zé)完整父文檔與基于子文檔相似性檢索相關(guān)的核心邏輯。

Python

full_doc_retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter
)

（4）添加文檔

然后，這些加載的文檔將使用add_documents方法被饋入ParentDocumentRetriever中，如下代碼所示：

Python

full_doc_retriever.add_documents(docs)
print(list(store.yield_keys()))  # List document IDs in the store

（5）相似性搜索和檢索

至此，檢索器已基本實(shí)現(xiàn)，你可以在給定查詢的情況下，去檢索相關(guān)的子文檔，并獲取相關(guān)的完整父文檔：

Python

sub_docs = vectorstore.similarity_search("What is LangSmith?", k=2)
print(len(sub_docs))
print(sub_docs[0].page_content)  
retrieved_docs = full_doc_retriever.invoke("What is LangSmith?")
print(len(retrieved_docs[0].page_content)) 
print(retrieved_docs[0].page_content)

3. 檢索更大的數(shù)據(jù)塊

有時(shí)，在文檔非常大的情況下，我們可能無(wú)法獲取完整的父文檔。對(duì)此，可參考如下從父文檔獲取較大片段的方法：

塊和父級(jí)文本分割：

使用RecursiveCharacterTextSplitter的兩個(gè)實(shí)例，其中一個(gè)用于創(chuàng)建特定大小的較大父文檔。另一個(gè)具有較小的塊大小，可用于創(chuàng)建文本片段，即父文檔中的子文檔。

矢量存儲(chǔ)和存儲(chǔ)設(shè)置（類似完整的文檔檢索）：

創(chuàng)建一個(gè)向量存儲(chǔ)Chroma，用于索引子文檔的嵌入。
使用InMemoryStore保存父文檔的塊。

（1）父文檔檢索器

該檢索器可解決 RAG 中的一個(gè)基本問(wèn)題：由于被檢索的整個(gè)文檔過(guò)大，而無(wú)法包含足夠的上下文。為此，RAG需將文檔切成小塊進(jìn)行檢索，進(jìn)而對(duì)這些小塊進(jìn)行索引。不過(guò)，在查詢之后，它不會(huì)去檢索這些文檔片段，而是檢索整個(gè)父文檔，從而為后續(xù)的生成提供更為豐富的上下文。

Python

parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000)  
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400)   
vectorstore = Chroma(
    collection_name="split_parents",
    embedding_function=OpenAIEmbeddings()
)
store = InMemoryStore()
big_chunks_retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter
)
# Adding documents
big_chunks_retriever.add_documents(docs)
print(len(list(store.yield_keys())))  # List document IDs in the store

（2）相似性搜索和檢索

該過(guò)程仍然與完整的文檔檢索類似，我們需要查找相關(guān)的子文檔，然后從父文檔中獲取相應(yīng)的更大文檔塊。

Python

sub_docs = vectorstore.similarity_search("What is LangSmith?", k=2)
print(len(sub_docs))
print(sub_docs[0].page_content)  
retrieved_docs = big_chunks_retriever.invoke("What is LangSmith?")
print(len(retrieved_docs))
print(len(retrieved_docs[0].page_content)) 
print(retrieved_docs[0].page_content)

4. 與 RetrievalQA 集成

至此，我們已經(jīng)實(shí)現(xiàn)了一個(gè)父文檔檢索器，你可以將其與RetrievalQA鏈集成，以使用檢索到的父文檔進(jìn)行各種問(wèn)答：

Python

qa = RetrievalQA.from_chain_type(llm=OpenAI(),
                                chain_type="stuff",
                                retriever=big_chunks_retriever)
query = "What is LangSmith?"
response = qa.invoke(query)
print(response)

小結(jié)

綜上所述，PDR 大幅提高了 RAG 模型輸出響應(yīng)的準(zhǔn)確性，而且這些響應(yīng)都帶有豐富的上下文。而通過(guò)對(duì)父文檔的全文檢索，我們可以深入準(zhǔn)確地回答各種復(fù)雜問(wèn)題，這也是復(fù)雜人工智能的基本要求。

譯者介紹

陳峻（Julian Chen），51CTO社區(qū)編輯，具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn)，善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控，專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。

原文標(biāo)題：Parent Document Retrieval (PDR): Useful Technique in RAG，作者：Intiaz Shaik

鏈接：https://dzone.com/articles/parent-document-retrieval-useful-technique-in-rag。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

RAG技術(shù)

父文檔檢索

已于2024-8-30 11:24:42修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

LLM4CS：一種利用LLM提升多輪會(huì)話檢索的效果的方案

arnoldzhw ? 1.3w瀏覽 ? 0回復(fù)
MRAG：一種多頭RAG，提升具有顯著不同內(nèi)容的多個(gè)文檔復(fù)雜查詢的檢索準(zhǔn)確性

PaperAgent ? 5407瀏覽 ? 0回復(fù)
DeepMind | 在生成的過(guò)程中進(jìn)行檢索：一種有潛力完全替代RAG的思路"RICHES"

arnoldzhw ? 5934瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

玄姐聊AGI ? 3813瀏覽 ? 0回復(fù)
RAG高級(jí)優(yōu)化：基于問(wèn)題生成的文檔檢索增強(qiáng)

恰似驚鴻 ? 4381瀏覽 ? 0回復(fù)
一種模塊化大模型Agent框架全棧技術(shù)綜述

PaperAgent ? 6645瀏覽 ? 0回復(fù)
一種支持4種多模態(tài)RAG技術(shù)的引擎：VARAG

PaperAgent ? 4923瀏覽 ? 0回復(fù)
一種將RAG、KG、VS、TF結(jié)合增強(qiáng)領(lǐng)域LLM性能的框架

PaperAgent ? 4212瀏覽 ? 0回復(fù)
從檢索增強(qiáng)——RAG看檢索技術(shù)的發(fā)展

AI探索時(shí)代 ? 3395瀏覽 ? 0回復(fù)
改進(jìn)RAG管道檢索文檔質(zhì)量的五種方法

51CTO內(nèi)容精選 ? 3761瀏覽 ? 0回復(fù)
RAG 的未來(lái) - 自動(dòng)文檔檢索

探索AGI ? 3306瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

Halo咯咯 ? 3650瀏覽 ? 0回復(fù)
表格場(chǎng)景RAG怎么做？TableRAG：一種增強(qiáng)大規(guī)模表格理解框架

大模型自然語(yǔ)言處理 ? 4221瀏覽 ? 0回復(fù)
HiQA：一種用于多文檔問(wèn)答的層次化上下文增強(qiáng)RAG

大模型自然語(yǔ)言處理 ? 3611瀏覽 ? 0回復(fù)
一種基于學(xué)習(xí)的電池壽命預(yù)測(cè)（Python）

步驚云_32 ? 4003瀏覽 ? 0回復(fù)
18種RAG技術(shù)大比拼：誰(shuí)才是檢索增強(qiáng)生成的最佳選擇？

Halo咯咯 ? 4414瀏覽 ? 0回復(fù)
Agent 是一種思想，不是技術(shù)！

hm673c38238a021 ? 2180瀏覽 ? 0回復(fù)
對(duì)技術(shù)人員的一種勸告——關(guān)于技術(shù)至上的思考

AI探索時(shí)代 ? 1773瀏覽 ? 0回復(fù)
RAG文檔處理的一種優(yōu)化方案——問(wèn)答對(duì)的轉(zhuǎn)換技巧

AI探索時(shí)代 ? 1687瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

如何使用n8n構(gòu)建AI工作流 1天前發(fā)布
RAS 革命：從 RAG 到結(jié)構(gòu)化知識(shí)增強(qiáng)，破解 LLM 短板的新范式 4天前發(fā)布

熱門(mén)推薦

別再怪AI“聽(tīng)不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問(wèn)題改寫(xiě)(優(yōu)化)方法—使用歷史記錄改寫(xiě)問(wèn)題 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：詳解用于相似和抄襲檢測(cè)的技術(shù)Shingling

下一篇：基于LangChain+Langflow+Astra DB開(kāi)發(fā)RAG聊天機(jī)器人

社區(qū)精華內(nèi)容

目錄

<menuitem id="bgm5f"></menuitem>

<var id="bgm5f"></var>

<bdo id="bgm5f"></bdo>