偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="yti0i"></table>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

ChunkRAG：比CRAG提升10個點(diǎn)準(zhǔn)確率

大語言模型論文跟蹤

發(fā)布于 2024-11-27 15:18

瀏覽

0收藏

1. RAG目前存在的問題

RAG系統(tǒng)前前發(fā)展取得了一定的成果，但是仍然存在一個問題：在獲取文檔時會檢索到不相關(guān)或關(guān)聯(lián)較弱的信息。目前的檢索技術(shù)，即使是重排序和查詢重寫，不但不能濾除檢索文檔中的大量無關(guān)信息塊，還致使響應(yīng)生成出現(xiàn)一系列諸如事實(shí)不準(zhǔn)確、不相關(guān)以及幻覺等問題。

傳統(tǒng)上RAG 系統(tǒng)會檢索大量整個文檔的文本或者其中冗長的部分，認(rèn)為這些冗長片段可能包含相關(guān)信息。然而，這類系統(tǒng)極少單獨(dú)審視檢索到的文檔的章節(jié)或段落，所以很可能會有不相關(guān)或只是部分相關(guān)的信息流入生成階段。

語言模型生成流暢文本時無法驗(yàn)證所用信息，這讓情況更糟。相關(guān)或誤導(dǎo)性的片段嚴(yán)重扭曲此類模型的結(jié)果，降低了系統(tǒng)的可靠性，尤其在開放領(lǐng)域問答和多跳推理等關(guān)鍵任務(wù)中。

ChunkRAG：比CRAG提升10個點(diǎn)準(zhǔn)確率-AI.x社區(qū) 圖片

上圖展示了RAG系統(tǒng)檢索過程中有沒有過濾機(jī)制的差別。

? 沒有塊過濾時，像其他法國城市這類不相關(guān)信息會被包含在響應(yīng)里。

? LLM 驅(qū)動的塊過濾能去除不必要內(nèi)容，給出準(zhǔn)確答案“法國的首都是巴黎”。

一些檢索相關(guān)的方法，如糾正性 RAG（CRAG）和 Self-RAG，試圖通過優(yōu)化檢索過程來克服這些難題。CRAG 著重在檢索出錯后進(jìn)行“更正”檢索，Self-RAG 在生成階段引入自我反思機(jī)制以減少不準(zhǔn)確性。這兩種方法都在文檔層面操作，對單個檢索到的文本塊缺乏足夠過濾。這種文檔級別的方式提高了檢索的整體相關(guān)性，卻無法阻止不相關(guān)的塊被納入生成的響應(yīng)中。如果無法掌控檢索內(nèi)容的粒度，RAG 系統(tǒng)仍易將不良或誤導(dǎo)性信息納入輸出，最終影響性能。

為了解決該問題，作者提出了LLM 驅(qū)動的塊過濾，即 ChunkRAG，在粒度上比傳統(tǒng)系統(tǒng)更精細(xì)，實(shí)際上支持對檢索信息進(jìn)行塊級過濾。

2. 什么是ChunkRAG？

ChunkRAG的目的是借助一種新穎的細(xì)粒度過濾機(jī)制，來降低檢索增強(qiáng)生成（RAG）系統(tǒng)所生成回應(yīng)中的不相關(guān)性與幻覺。分為兩個階段：語義分塊與高級過濾

ChunkRAG：比CRAG提升10個點(diǎn)準(zhǔn)確率-AI.x社區(qū)

上圖展示了ChunkRAG的整體框架。

2.1 語義分塊（Semantic Chunking）

語義分塊是基礎(chǔ)步驟，將輸入文檔轉(zhuǎn)化為有語義意義的單元，以利于有效檢索和評估。此階段包含三個子流程：

?輸入準(zhǔn)備：先運(yùn)用 NLTK 的 sent_tokenize 函數(shù)把文檔切分成句子。接著，給每個句子賦予一個通過預(yù)訓(xùn)練嵌入模型（比如 text-embedding-3-small）生成的嵌入向量。

?分塊形成：依據(jù)句子間的語義相似度（通過余弦相似度衡量）把連續(xù)的句子組合成分塊。如果連續(xù)句子間的相似度低于閾值（$ heta=0.7$），就創(chuàng)建一個新分塊。每個分塊還進(jìn)一步限制在 500 個字符以內(nèi)，以保障后續(xù)階段的效率。

?分塊的嵌入生成：每個分塊都用上述相同的預(yù)訓(xùn)練嵌入模型來表示。生成的分塊嵌入存儲在向量數(shù)據(jù)庫中，方便在查詢階段高效檢索。

2.2. 混合檢索與高級過濾

在檢索和過濾階段，將傳統(tǒng)的 RAG 組件與先進(jìn)的微調(diào)技術(shù)加以融合，以保障強(qiáng)大且高質(zhì)量的檢索效果?；旌蠙z索和過濾階段詳情如下：

?檢索器初始化與查詢重寫：初始化一個能夠?qū)⒂脩舨樵兣c塊嵌入作對比的檢索器。為提升查詢效能，運(yùn)用 GPT-4omini 進(jìn)行查詢重寫步驟，保證查詢與所存儲的嵌入高度匹配。這能讓檢索過程的召回率和精度更出色。

?初始過濾：檢索到的塊首先通過 TF-IDF 評分與余弦相似度的組合方式進(jìn)行過濾。冗余度高（相似度＞0.9）的塊被剔除。其余的塊依據(jù)它們與重寫查詢的相似度來排序。

?相關(guān)性評分與閾值設(shè)定：為進(jìn)一步優(yōu)化相關(guān)性，大型語言模型（LLM）為每個塊賦予初始相關(guān)性分?jǐn)?shù)。這些分?jǐn)?shù)經(jīng)自我反思和批評模型加以細(xì)化，該模型依照特定領(lǐng)域的啟發(fā)式規(guī)則調(diào)整分?jǐn)?shù)。通過分析分?jǐn)?shù)分布設(shè)定最終的動態(tài)閾值，并且只有超過此閾值的塊得以保留。

?混合檢索策略：為最大程度提升檢索成效，采用了融合 BM25 和基于 LLM 的檢索方法的雙重檢索策略。集成方法采用均等權(quán)重（各 0.5）來平衡關(guān)鍵字和語義檢索。此外，利用 Cohere 的重新排名模型（rerank-englishv3.0）對檢索到的塊進(jìn)行排名，解決“Lost in the middle”的問題，增強(qiáng)可能被降低優(yōu)先級的中心上下文的相關(guān)性。

2.3 響應(yīng)生成與評估

篩選過后，剩余的塊會被當(dāng)作上下文來生成最終的響應(yīng)：

?響應(yīng)生成：LLM 依據(jù)篩選后的上下文塊生成響應(yīng)。生成期間，嚴(yán)格限制只使用檢索到的信息，從而最大程度減少幻覺風(fēng)險(xiǎn)。

?評估：針對一組預(yù)先驗(yàn)證過的答案，對生成的響應(yīng)進(jìn)行準(zhǔn)確性評估。

3. 效果如何

將 ChunkRAG 與現(xiàn)有的檢索增強(qiáng)生成（RAG）方法的性能進(jìn)行評估。

ChunkRAG：比CRAG提升10個點(diǎn)準(zhǔn)確率-AI.x社區(qū) 圖片

如上圖所示，ChunkRAG 大幅超越同類別 RAG方法，相較于最接近的 CRAG（準(zhǔn)確率 54.9），ChunkRAG方法性能提升了 10 個百分點(diǎn)。

雖說 10 個百分點(diǎn)的提升看似不大，但在實(shí)際應(yīng)用中，卻意味著輸出效果呈指數(shù)級提升。

ChunkRAG之所以能有顯著的提升，主要得益于塊級過濾和細(xì)粒度相關(guān)性評估。把文本劃分成有語義的塊，減少了不相關(guān)或弱相關(guān)信息的生成。在處理塊過濾的上下文相關(guān)數(shù)據(jù)時，生成事實(shí)準(zhǔn)確且連貫的響應(yīng)的能力大幅增強(qiáng)。

再者，自我反思的 LLM 評分方法（即模型給自己打分然后做出相應(yīng)改變），使得檢索錯誤大幅減少。不像常規(guī)檢索方法在文檔部分級別沒有過濾機(jī)制，我們的方法能夠提取出更有意義和相關(guān)的信息，直接影響生成響應(yīng)的可靠性。

4. 局限性

ChunkRAG 雖有優(yōu)勢，但也存在不少需留意的短板。

? ChunkRAG高度依賴塊分割的成效以及用于塊相關(guān)性評估的嵌入質(zhì)量。分割中的差錯可能會產(chǎn)生無關(guān)數(shù)據(jù)，致使響應(yīng)質(zhì)量下降。

? 多層次評分的成本——在初始層面整合 LLM 與評論 LLM 評估——可能頗高，尤其是在將該方法拓展至更大的數(shù)據(jù)集或者在實(shí)時系統(tǒng)中部署時。

? 盡管 ChunkRAG 在運(yùn)用 PopQA 數(shù)據(jù)集時取得了積極成果，但由于資源有限，其在其他領(lǐng)域的可用性驗(yàn)證以及在處理長格式生成任務(wù)時的表現(xiàn)尚未得到深入剖析。未來的研究應(yīng)當(dāng)聚焦于優(yōu)化 ChunkRAG 的計(jì)算效率，以及在不同數(shù)據(jù)集和實(shí)際應(yīng)用中的評估。

本文轉(zhuǎn)載自??大語言模型論文跟蹤??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

MIT等首次深度研究「集成LLM」預(yù)測能力：可媲美人類群體準(zhǔn)確率

duhorse ? 3638瀏覽 ? 0回復(fù)
ChatGPT能預(yù)測未來特定事件，準(zhǔn)確率高達(dá)97%

Aceryt ? 4144瀏覽 ? 0回復(fù)
Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率

大語言模型論文跟蹤 ? 6761瀏覽 ? 0回復(fù)
DR-RAG：理想汽車最新RAG研究成果，準(zhǔn)確率和響應(yīng)時間遠(yuǎn)超其他RAG框架

大語言模型論文跟蹤 ? 5370瀏覽 ? 0回復(fù)
71%準(zhǔn)確率成新SOTA

angel ? 3296瀏覽 ? 0回復(fù)
Advanced RAG 10：引入檢索評估、知識精練的 CRAG 技術(shù)詳解

Baihai_IDP ? 4896瀏覽 ? 0回復(fù)
QOQA：利用TopK文檔進(jìn)行查詢改寫，平均提升RAG 1.6% 準(zhǔn)確率

大語言模型論文跟蹤 ? 4764瀏覽 ? 0回復(fù)
香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9%

AI論文解讀 ? 3755瀏覽 ? 0回復(fù)
87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動評估模型FLAMe

duhorse ? 3648瀏覽 ? 0回復(fù)
改個名字，數(shù)倍提升Function Calling準(zhǔn)確率！

ermulong ? 3648瀏覽 ? 0回復(fù)
怎么提升向量數(shù)據(jù)庫的召回準(zhǔn)確率

AI探索時代 ? 4282瀏覽 ? 0回復(fù)
Graph RAG 迎來記憶革命：“海馬體”機(jī)制如何提升準(zhǔn)確率？

凝固的雨_1 ? 4388瀏覽 ? 0回復(fù)
MES-RAG：準(zhǔn)確率提升 25%！

大語言模型論文跟蹤 ? 2316瀏覽 ? 0回復(fù)
RAG 準(zhǔn)確率告急？金融大佬 Mike Conover 親授：構(gòu)建高保真知識智能體的實(shí)戰(zhàn)秘笈

凝固的雨_1 ? 3806瀏覽 ? 0回復(fù)
試試加個知識圖譜，準(zhǔn)確率提升 60%！

Halo咯咯 ? 2101瀏覽 ? 0回復(fù)
Agentic CoT 架構(gòu)實(shí)現(xiàn)RAG回答準(zhǔn)確率突破94%大關(guān)

AI博物院 ? 3575瀏覽 ? 0回復(fù)
Embedding 優(yōu)化七大關(guān)鍵：提升檢索準(zhǔn)確率的系統(tǒng)方法

Halo咯咯 ? 1411瀏覽 ? 0回復(fù)
準(zhǔn)確率達(dá)90%，用戶卻瘋狂棄用，一遇問題轉(zhuǎn)人工，AI客服竟比電話語音還糟！

51CTO技術(shù)棧 ? 1610瀏覽 ? 0回復(fù)
2025 OCR 技術(shù)全解析：沒有萬能方案，準(zhǔn)確率取決于場景

Halo咯咯 ? 3071瀏覽 ? 0回復(fù)

大語言模型論文跟蹤

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型工具規(guī)劃能力大比拼：MCP-Bench測評全解析 2025-09-12 07:19:43發(fā)布
CodeRAG：AI寫代碼性能飆升40%，比Github Copilot強(qiáng) 2025-08-04 01:08:40發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： 4種革新性AI Agent工作流設(shè)計(jì)模式全解析

下一篇： M3DocRAG：文檔問答用哪個多模態(tài)大模型效果最好？

社區(qū)精華內(nèi)容

目錄

<nav id="8frvn"><fieldset id="8frvn"></fieldset></nav>