偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="qj88i"></var>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

RAG文檔處理的流程——給你的RAG文檔處理制定一個(gè)標(biāo)準(zhǔn) 原創(chuàng)

AI探索時(shí)代

發(fā)布于 2025-9-10 08:43

瀏覽

0收藏

“ 文檔處理有一套標(biāo)準(zhǔn)和規(guī)范，良好的規(guī)范才能讓后續(xù)處理更簡(jiǎn)單，更少出錯(cuò)。”

最近一直在優(yōu)化RAG的文檔處理功能，隨著各種問題被解決之后，慢慢發(fā)現(xiàn)文檔處理沒有想象中的那么簡(jiǎn)單；而我們大部分人對(duì)文檔處理還僅僅只停留在表面上，并沒有真正深入研究過文檔處理的流程，格式，規(guī)范。

今天作者就以自身這段時(shí)間的經(jīng)驗(yàn)來梳理一下文檔處理的具體流程，包括處理格式的選擇，文檔處理的步驟，以及一些注意事項(xiàng)等。

RAG之文檔處理

在一個(gè)RAG系統(tǒng)中，最重要也是最困難的兩個(gè)點(diǎn)就是文檔處理和數(shù)據(jù)召回；今天我們主要討論的就是第一步文檔處理。

文檔處理的目的，就是把各種格式的數(shù)據(jù)進(jìn)行分類，拆分，向量化之后用于相似度檢索。

文檔來源

因此，文檔處理的第一步就是文檔的收集，根據(jù)不同的業(yè)務(wù)場(chǎng)景文檔的來源也多種多樣，但主要包括以下幾個(gè)來源：

1. 來自于文本文檔包括word，pdf，ppt，excel，csv，txt等多種常見文本類型

2. 來自于數(shù)據(jù)庫，包括關(guān)系型數(shù)據(jù)庫，緩存數(shù)據(jù)，文檔數(shù)據(jù)庫等

3. 來自于網(wǎng)絡(luò)API接口等

總之，文檔來源可以是任何渠道，任何形式。

文檔格式統(tǒng)一

這里文檔格式的統(tǒng)一并不是來源文檔的格式，因?yàn)槲臋n的來源我們無法控制；所以，我們需要在拿到文檔之后，把它們處理成統(tǒng)一的格式，這樣才有利于后續(xù)處理

由于文檔來源和格式的復(fù)雜性，因此在具體的業(yè)務(wù)場(chǎng)景中我們需要把文檔格式進(jìn)行統(tǒng)一處理；比如說不論任何格式的文檔，最終都處理成markdown或html格式。

之所以選擇markdown和html格式，原因就在于其能層次結(jié)構(gòu)，且比較通用。

RAG文檔處理的流程——給你的RAG文檔處理制定一個(gè)標(biāo)準(zhǔn)-AI.x社區(qū)

如果不對(duì)文檔格式進(jìn)行統(tǒng)一會(huì)出現(xiàn)什么情況？

如果不對(duì)文檔格式進(jìn)行統(tǒng)一，那么面對(duì)多種復(fù)雜的文檔類型，那么我們就需要每一種都進(jìn)行處理；這樣會(huì)導(dǎo)致系統(tǒng)變得更復(fù)雜，并且后續(xù)在使用中也會(huì)面臨各種各樣的問題。

所以，在真正開始文檔處理之前我們一定要根據(jù)自己的業(yè)務(wù)選擇一個(gè)適合自己的文檔格式；否則面對(duì)各種類型的文檔格式，我們逐一處理會(huì)特別麻煩，而且不利于統(tǒng)一管理。

具體流程就是，不論拿到何種類型的文檔，我們通過手動(dòng)處理也好，格式轉(zhuǎn)換工具也好，自己寫轉(zhuǎn)換程序也好；最終都把它們轉(zhuǎn)換成我們指定的格式(markdown或html)；當(dāng)然，這里的markdown和html只是一種比較合適和通用的選擇，在不同的業(yè)務(wù)場(chǎng)景中也可以根據(jù)自己的需要選擇格式的文檔格式。

文檔拆分

由于文檔內(nèi)容長(zhǎng)短不一，但為了提升召回率，因此對(duì)文檔進(jìn)行適當(dāng)?shù)慕厝∈且粋€(gè)比較好的選擇；以markdown為例，可以把word，pdf等根據(jù)段落和長(zhǎng)度進(jìn)行切分，并且在切分時(shí)把文檔的名稱和段落標(biāo)題拼接到每段文檔中；而類似于excel這種格式的數(shù)據(jù)，可以把每行數(shù)據(jù)拼接成一個(gè)markdown文檔段。

RAG文檔處理的流程——給你的RAG文檔處理制定一個(gè)標(biāo)準(zhǔn)-AI.x社區(qū)

注意事項(xiàng)

在文檔處理中有很多注意事項(xiàng)，由于文檔的復(fù)雜性，因此在實(shí)際操作中我們很難做到讓所有人都按照標(biāo)準(zhǔn)的格式對(duì)文檔進(jìn)行處理，因此最好能夠提供一個(gè)文檔模板，讓別人按照我們的規(guī)則來進(jìn)行處理。

其次，文檔在處理過程中因?yàn)楦鞣N各樣的原因會(huì)存在大量的噪音內(nèi)容；包括一些無用數(shù)據(jù)，無效數(shù)據(jù)，符號(hào)，換行符等；因此，我們需要對(duì)這些數(shù)據(jù)進(jìn)行一定的清洗，刪除文檔中的噪音。

RAG文檔處理的流程——給你的RAG文檔處理制定一個(gè)標(biāo)準(zhǔn)-AI.x社區(qū)

之后，處理之后的文檔一定要緊湊并做好格式化，文檔處理之后主要有兩個(gè)作用，一個(gè)是給用戶看的，另一個(gè)是用來做相似度召回的；前者需要做好格式化，后者需要做得足夠緊湊，盡量把噪音數(shù)據(jù)的影響降到最低。

以word中的表格數(shù)據(jù)為例，有些人處理之后的表格數(shù)據(jù)充斥著大量的|------|------| +++++ | ++++++++++這種內(nèi)容，而這些東西完全可以用更少的符號(hào)來表示，這樣才能使得最終的文檔比較緊湊，有助于召回。

本文轉(zhuǎn)載自??AI探索時(shí)代?? 作者：DFires

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

檢索增強(qiáng)

已于2025-9-10 08:43:37修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Advanced RAG 07：在 RAG 系統(tǒng)中進(jìn)行表格數(shù)據(jù)處理的新思路

Baihai_IDP ? 7405瀏覽 ? 0回復(fù)
ICML 2024 | 大語言模型預(yù)訓(xùn)練新前沿：「最佳適配打包」重塑文檔處理標(biāo)準(zhǔn)

輕薄滴假象 ? 3567瀏覽 ? 0回復(fù)
介紹一種實(shí)用的RAG技術(shù)：父文檔檢索（PDR）

51CTO內(nèi)容精選 ? 4122瀏覽 ? 0回復(fù)
RAG高級(jí)優(yōu)化：基于問題生成的文檔檢索增強(qiáng)

恰似驚鴻 ? 4355瀏覽 ? 0回復(fù)
改進(jìn)RAG管道檢索文檔質(zhì)量的五種方法

51CTO內(nèi)容精選 ? 3730瀏覽 ? 0回復(fù)
RAG 的未來 - 自動(dòng)文檔檢索

探索AGI ? 3282瀏覽 ? 0回復(fù)
Phi-3-Vision-128K大模型，AI助力OCR，文檔處理更上一層樓

小虎哦哦 ? 3534瀏覽 ? 0回復(fù)
先進(jìn)的多文檔問答（MDQA）框架HiQA：大幅降低區(qū)分度低的復(fù)雜多文檔RAG的幻覺問題

AI博物院 ? 3780瀏覽 ? 0回復(fù)
TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備

恰似驚鴻 ? 6374瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問答的方案

大模型自然語言處理 ? 3918瀏覽 ? 0回復(fù)
一個(gè)開源、清晰的本地 Graph RAG UI，支持Graph RAG 和 Hybrid RAG（支持Ollama）

AI博物院 ? 8466瀏覽 ? 0回復(fù)
基于谷歌Gemini多模態(tài)模型實(shí)現(xiàn)PDF文檔自動(dòng)化處理

51CTO內(nèi)容精選 ? 4650瀏覽 ? 0回復(fù)
RAG 與 CAG：知識(shí)處理的新時(shí)代

Halo咯咯 ? 3936瀏覽 ? 0回復(fù)
RAG項(xiàng)目必備！文檔解析神器MinerU：2.5萬星標(biāo)！支持GPU加速，輕松應(yīng)對(duì)復(fù)雜文檔

AI博物院 ? 1.5w瀏覽 ? 0回復(fù)
RAG-Anything：全面的一體化多模態(tài)文檔處理 RAG 系統(tǒng)

PaperAgent ? 2817瀏覽 ? 0回復(fù)
關(guān)于在RAG檢索增強(qiáng)中文檔處理的解決方案——針對(duì)中小企業(yè)

AI探索時(shí)代 ? 1503瀏覽 ? 0回復(fù)
RAG文檔處理的一種優(yōu)化方案——問答對(duì)的轉(zhuǎn)換技巧

AI探索時(shí)代 ? 1630瀏覽 ? 0回復(fù)
在RAG中文檔處理質(zhì)量參差不齊的情況下——提升召回精度的企業(yè)級(jí)解決方案

AI探索時(shí)代 ? 1241瀏覽 ? 0回復(fù)
在RAG文檔處理中——怎么處理噪音問題

AI探索時(shí)代 ? 1116瀏覽 ? 0回復(fù)

AI探索時(shí)代

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

讓AI像人一樣動(dòng)手！大模型是怎么學(xué)會(huì)使用工具的？ 2天前發(fā)布
大模型應(yīng)用技術(shù)是一項(xiàng)重實(shí)操輕理論的技術(shù) 3天前發(fā)布

熱門推薦

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：為什么在醫(yī)療法律等領(lǐng)域會(huì)使用大模型這種不穩(wěn)定的技術(shù)，你對(duì)大模型的誤解之——大模型到底解決了什么問題？

下一篇：關(guān)于多模態(tài)應(yīng)用的幾個(gè)疑問，以及多模態(tài)應(yīng)該怎么應(yīng)用于RAG？

社區(qū)精華內(nèi)容

目錄

<track id="4951l"></track>

<dfn id="4951l"><sub id="4951l"><thead id="4951l"></thead></sub></dfn>