偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！

發(fā)布于 2024-10-10 15:28

瀏覽

0收藏

以往的研究主要集中在通過(guò)增加檢索文檔的數(shù)量或長(zhǎng)度來(lái)擴(kuò)展檢索增強(qiáng)生成（RAG）中檢索到的知識(shí)。然而，僅增加知識(shí)量而不提供進(jìn)一步的指導(dǎo)存在一定的局限性。

為此，Google DeepMind研究了RAG在推理計(jì)算擴(kuò)展（Inference Scaling）情況下的性能，特別是當(dāng)上下文很長(zhǎng)時(shí)。通過(guò)應(yīng)用最優(yōu)配置，在長(zhǎng)上下文LLMs上擴(kuò)展推理計(jì)算可以實(shí)現(xiàn)高達(dá)58.9%的性能提升。

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

用于RAG的推理擴(kuò)展策略

為了衡量推理計(jì)算，定義了有效上下文長(zhǎng)度，即在LLM生成最終答案之前所有迭代中的輸入token總數(shù)。對(duì)于大多數(shù)只調(diào)用LLM一次的方法，有效上下文長(zhǎng)度等同于提示中的輸入token數(shù)量，并受到LLM的上下文窗口限制。對(duì)于迭代調(diào)用LLM的方法，有效上下文長(zhǎng)度可以通過(guò)策略無(wú)限擴(kuò)展。

目標(biāo)是理解RAG性能如何隨著推理計(jì)算的擴(kuò)展而變化。為此，引入了兩種擴(kuò)展策略：示范基礎(chǔ)RAG（DRAG）和迭代示范基礎(chǔ)RAG（IterDRAG）。

DRAG與IterDRAG的對(duì)比。IterDRAG將輸入查詢分解為子查詢并回答它們，以提高最終答案的準(zhǔn)確性。在測(cè)試時(shí)，IterDRAG通過(guò)多個(gè)推理步驟來(lái)擴(kuò)展計(jì)算，分解復(fù)雜查詢并檢索文檔。

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

示范基礎(chǔ)RAG（DRAG）：DRAG利用上下文學(xué)習(xí)，通過(guò)直接從擴(kuò)展的輸入上下文中生成答案來(lái)利用LLMs的長(zhǎng)上下文能力。DRAG在輸入提示中整合了文檔和上下文示例，使得模型能夠在單次推理請(qǐng)求中生成對(duì)輸入查詢的答案。
迭代示范基礎(chǔ)RAG（IterDRAG）：為了處理復(fù)雜的多跳查詢，IterDRAG通過(guò)將查詢分解為更簡(jiǎn)單的子查詢來(lái)處理。對(duì)于每個(gè)子查詢，執(zhí)行檢索以收集額外的上下文信息，然后用于生成中間答案。在所有子查詢解決后，檢索到的上下文、子查詢及其答案被組合以合成最終答案。

RAG性能和推理計(jì)算擴(kuò)摸

接下來(lái)重點(diǎn)研究揭示RAG性能與推理計(jì)算規(guī)模之間的關(guān)系，并嘗試預(yù)測(cè)在不同計(jì)算約束下達(dá)到最佳性能的推理參數(shù)配置。

固定預(yù)算下的最佳性能：

對(duì)于固定的有效上下文長(zhǎng)度預(yù)算，通過(guò)枚舉不同的推理參數(shù)配置（如檢索文檔的數(shù)量、上下文示例的數(shù)量、生成迭代的次數(shù)）來(lái)找到最優(yōu)平均指標(biāo)。

最優(yōu)配置的具體示例：

在某個(gè)特定的最大有效上下文長(zhǎng)度限制下，選擇一個(gè)特定的文檔數(shù)量，比如100篇文檔。Lmax
確定在輸入提示中使用多少個(gè)上下文示例，例如20個(gè)示例。
對(duì)于IterDRAG，可能決定在最終生成答案之前進(jìn)行最多5次的迭代。

RAG性能隨文檔數(shù)量和上下文示例的變化而變化。（a）報(bào)告了跨數(shù)據(jù)集的平均指標(biāo)值，而在（b）和（c）中，每條線代表在逐漸增加文檔/示例的一致配置下的標(biāo)準(zhǔn)化性能。?

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

整體性能：

通過(guò)擴(kuò)展最大有效上下文長(zhǎng)度，DRAG和IterDRAG的性能一致地提升，表明增加計(jì)算預(yù)算對(duì)RAG性能是有益的。

特別地，IterDRAG在更長(zhǎng)的有效上下文長(zhǎng)度下（例如超過(guò)128k tokens）展現(xiàn)了比DRAG更有效的擴(kuò)展。

不同方法在不同最大有效上下文長(zhǎng)度 LmaxLmax（即所有迭代中的輸入token總數(shù)）下的最佳性能。ZS QA和MS QA分別指one shot QA和many shot QA。對(duì)于不隨 LmaxLmax 增加而進(jìn)一步擴(kuò)展的方法。將每個(gè) LmaxLmax 的最佳結(jié)果加粗顯示。

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

RAG的推理擴(kuò)展法則：

通過(guò)分析不同有效上下文長(zhǎng)度下的性能變化，提出了RAG性能隨著推理計(jì)算規(guī)模的增加而近乎線性提升的觀察結(jié)果，這被稱為RAG的推理擴(kuò)展法則。

線性關(guān)系：
IterDRAG的擴(kuò)展性：
性能增益遞減：

跨數(shù)據(jù)集的標(biāo)準(zhǔn)化性能與有效上下文長(zhǎng)度的對(duì)比。每條線代表一個(gè)固定的配置，通過(guò)改變文檔數(shù)量來(lái)進(jìn)行縮放。紅點(diǎn)表示最優(yōu)配置，虛線顯示擬合結(jié)果。觀察到的最優(yōu)性能可以通過(guò)與有效上下文長(zhǎng)度的線性關(guān)系來(lái)近似。?

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

MuSiQue上標(biāo)準(zhǔn)化性能與有效上下文長(zhǎng)度的對(duì)比。每條線代表一個(gè)固定的配置，通過(guò)調(diào)整文檔數(shù)量來(lái)進(jìn)行縮放。紅點(diǎn)和虛線代表最優(yōu)配置及其擬合結(jié)果。標(biāo)準(zhǔn)RAG在104104個(gè)token時(shí)早早達(dá)到平穩(wěn)狀態(tài)，相比之下，DRAG和IterDRAG隨著有效上下文長(zhǎng)度的增長(zhǎng)顯示出近乎線性的提升。

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

使用不同方法評(píng)估Gemini 1.5 Flash的準(zhǔn)確率：零-shot QA、多-shot QA、RAG（帶有最佳數(shù)量的文檔）、DRAG和IterDRAG在基準(zhǔn)QA數(shù)據(jù)集上的表現(xiàn)。通過(guò)擴(kuò)展推理計(jì)算（最多5M個(gè)token），DRAG持續(xù)優(yōu)于基線，而IterDRAG通過(guò)交錯(cuò)檢索和迭代生成改進(jìn)了DRAG。

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

https://arxiv.org/pdf/2410.04343
Inference Scaling for Long-Context Retrieval Augmented Generation
Google DeepMind

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

剛剛，OpenAI發(fā)布史上最強(qiáng)模型-o1，推理能力超人類博士！

Aceryt ? 2852瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3927瀏覽 ? 0回復(fù)
OpenAI o1引發(fā)的思維鏈思考：思維鏈提示啟發(fā)大模型推理

angel ? 4034瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 2576瀏覽 ? 0回復(fù)
OpenAI o1：用內(nèi)部思維鏈進(jìn)行復(fù)雜推理

shizhi02 ? 2848瀏覽 ? 0回復(fù)
o1快慢思考的風(fēng)又吹到了Agent！

PaperAgent ? 3175瀏覽 ? 0回復(fù)
向o1看齊，Google開(kāi)源RAG推理擴(kuò)展，提升近60%

NLP前沿1 ? 2313瀏覽 ? 0回復(fù)
o1蒙特卡洛樹(shù)的風(fēng)又吹到了Agentic工作流！

PaperAgent ? 3310瀏覽 ? 0回復(fù)
VLM版o1超越一眾開(kāi)源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 2860瀏覽 ? 0回復(fù)
o1的風(fēng)又吹到多模態(tài)，直接吹翻了GPT-4o-mini

PaperAgent ? 2463瀏覽 ? 0回復(fù)
解密o1推理過(guò)程！DeepSeek-R1-Lite預(yù)覽版上線

kede96 ? 3227瀏覽 ? 0回復(fù)
解讀 Marco - o1：邁向開(kāi)放式推理模型的探索與實(shí)踐

AI論文解讀 ? 2904瀏覽 ? 0回復(fù)
o1的規(guī)劃能力如何？LRM是未來(lái)嗎？

探索AGI ? 2199瀏覽 ? 0回復(fù)
阿里發(fā)布類o1模型QWQ，可自我反思糾錯(cuò)，實(shí)測(cè)數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1，人人免費(fèi)

51CTO技術(shù)棧 ? 3128瀏覽 ? 0回復(fù)
Kimi深夜炸場(chǎng)：滿血版多模態(tài)o1級(jí)推理模型！OpenAI外全球首次！Jim Fan：同天兩款國(guó)產(chǎn)o1絕對(duì)不是巧合！

51CTO技術(shù)棧 ? 2426瀏覽 ? 0回復(fù)
最簡(jiǎn)單的推理擴(kuò)展方案，效果媲美o1！

NLP前沿1 ? 1865瀏覽 ? 0回復(fù)
DeepSeek R1 Vs OpenAI o1！全球頂級(jí)推理模型訓(xùn)練技術(shù)對(duì)比大解密！

51CTO技術(shù)棧 ? 6204瀏覽 ? 0回復(fù)
o1模型醫(yī)學(xué)推理驚人，超過(guò)人類醫(yī)生

Aceryt ? 2114瀏覽 ? 0回復(fù)
DeepSeek-R1的風(fēng)吹到了多模態(tài)，Visual-RFT發(fā)布，視覺(jué)任務(wù)性能飆升20%

PaperAgent ? 2219瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Doc2X：為知識(shí)庫(kù)RAG接上高精度文檔解析的“智能引擎” 8天前發(fā)布
RAG-Anything：全面的一體化多模態(tài)文檔處理 RAG 系統(tǒng) 8天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：一種將RAG、KG、VS、TF結(jié)合增強(qiáng)領(lǐng)域LLM性能的框架

下一篇：忘記Tool檢索，擁抱全新Agent ToolGen！

社區(qū)精華內(nèi)容

目錄