偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!

發(fā)布于 2024-10-10 15:28
瀏覽
0收藏

以往的研究主要集中在通過(guò)增加檢索文檔的數(shù)量或長(zhǎng)度來(lái)擴(kuò)展檢索增強(qiáng)生成(RAG)中檢索到的知識(shí)。然而,僅增加知識(shí)量而不提供進(jìn)一步的指導(dǎo)存在一定的局限性。

為此,Google DeepMind研究了RAG在推理計(jì)算擴(kuò)展(Inference Scaling)情況下的性能,特別是當(dāng)上下文很長(zhǎng)時(shí)。通過(guò)應(yīng)用最優(yōu)配置,在長(zhǎng)上下文LLMs上擴(kuò)展推理計(jì)算可以實(shí)現(xiàn)高達(dá)58.9%的性能提升。

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!-AI.x社區(qū)

用于RAG的推理擴(kuò)展策略

為了衡量推理計(jì)算,定義了有效上下文長(zhǎng)度,即在LLM生成最終答案之前所有迭代中的輸入token總數(shù)。對(duì)于大多數(shù)只調(diào)用LLM一次的方法,有效上下文長(zhǎng)度等同于提示中的輸入token數(shù)量,并受到LLM的上下文窗口限制。對(duì)于迭代調(diào)用LLM的方法,有效上下文長(zhǎng)度可以通過(guò)策略無(wú)限擴(kuò)展。

目標(biāo)是理解RAG性能如何隨著推理計(jì)算的擴(kuò)展而變化。為此,引入了兩種擴(kuò)展策略:示范基礎(chǔ)RAG(DRAG)和迭代示范基礎(chǔ)RAG(IterDRAG)。

DRAG與IterDRAG的對(duì)比。IterDRAG將輸入查詢分解為子查詢并回答它們,以提高最終答案的準(zhǔn)確性。在測(cè)試時(shí),IterDRAG通過(guò)多個(gè)推理步驟來(lái)擴(kuò)展計(jì)算,分解復(fù)雜查詢并檢索文檔。

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!-AI.x社區(qū)

  • 示范基礎(chǔ)RAG(DRAG):DRAG利用上下文學(xué)習(xí),通過(guò)直接從擴(kuò)展的輸入上下文中生成答案來(lái)利用LLMs的長(zhǎng)上下文能力。DRAG在輸入提示中整合了文檔和上下文示例,使得模型能夠在單次推理請(qǐng)求中生成對(duì)輸入查詢的答案。
  • 迭代示范基礎(chǔ)RAG(IterDRAG):為了處理復(fù)雜的多跳查詢,IterDRAG通過(guò)將查詢分解為更簡(jiǎn)單的子查詢來(lái)處理。對(duì)于每個(gè)子查詢,執(zhí)行檢索以收集額外的上下文信息,然后用于生成中間答案。在所有子查詢解決后,檢索到的上下文、子查詢及其答案被組合以合成最終答案。

RAG性能和推理計(jì)算擴(kuò)摸

接下來(lái)重點(diǎn)研究揭示RAG性能與推理計(jì)算規(guī)模之間的關(guān)系,并嘗試預(yù)測(cè)在不同計(jì)算約束下達(dá)到最佳性能的推理參數(shù)配置。

固定預(yù)算下的最佳性能:

對(duì)于固定的有效上下文長(zhǎng)度預(yù)算,通過(guò)枚舉不同的推理參數(shù)配置(如檢索文檔的數(shù)量、上下文示例的數(shù)量、生成迭代的次數(shù))來(lái)找到最優(yōu)平均指標(biāo)。

最優(yōu)配置的具體示例:

  • 在某個(gè)特定的最大有效上下文長(zhǎng)度限制下,選擇一個(gè)特定的文檔數(shù)量,比如100篇文檔。Lmax
  • 確定在輸入提示中使用多少個(gè)上下文示例,例如20個(gè)示例。
  • 對(duì)于IterDRAG,可能決定在最終生成答案之前進(jìn)行最多5次的迭代。

RAG性能隨文檔數(shù)量和上下文示例的變化而變化。(a)報(bào)告了跨數(shù)據(jù)集的平均指標(biāo)值,而在(b)和(c)中,每條線代表在逐漸增加文檔/示例的一致配置下的標(biāo)準(zhǔn)化性能。?

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!-AI.x社區(qū)

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!-AI.x社區(qū)

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!-AI.x社區(qū)

整體性能:

通過(guò)擴(kuò)展最大有效上下文長(zhǎng)度,DRAG和IterDRAG的性能一致地提升,表明增加計(jì)算預(yù)算對(duì)RAG性能是有益的。

特別地,IterDRAG在更長(zhǎng)的有效上下文長(zhǎng)度下(例如超過(guò)128k tokens)展現(xiàn)了比DRAG更有效的擴(kuò)展。

不同方法在不同最大有效上下文長(zhǎng)度 LmaxLmax(即所有迭代中的輸入token總數(shù))下的最佳性能。ZS QA和MS QA分別指one shot QA和many shot QA。對(duì)于不隨 LmaxLmax 增加而進(jìn)一步擴(kuò)展的方法。將每個(gè) LmaxLmax 的最佳結(jié)果加粗顯示。

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!-AI.x社區(qū)

RAG的推理擴(kuò)展法則:

通過(guò)分析不同有效上下文長(zhǎng)度下的性能變化,提出了RAG性能隨著推理計(jì)算規(guī)模的增加而近乎線性提升的觀察結(jié)果,這被稱為RAG的推理擴(kuò)展法則。

  1. 線性關(guān)系:
  2. IterDRAG的擴(kuò)展性:
  3. 性能增益遞減:

跨數(shù)據(jù)集的標(biāo)準(zhǔn)化性能與有效上下文長(zhǎng)度的對(duì)比。每條線代表一個(gè)固定的配置,通過(guò)改變文檔數(shù)量來(lái)進(jìn)行縮放。紅點(diǎn)表示最優(yōu)配置,虛線顯示擬合結(jié)果。觀察到的最優(yōu)性能可以通過(guò)與有效上下文長(zhǎng)度的線性關(guān)系來(lái)近似。?

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!-AI.x社區(qū)

MuSiQue上標(biāo)準(zhǔn)化性能與有效上下文長(zhǎng)度的對(duì)比。每條線代表一個(gè)固定的配置,通過(guò)調(diào)整文檔數(shù)量來(lái)進(jìn)行縮放。紅點(diǎn)和虛線代表最優(yōu)配置及其擬合結(jié)果。標(biāo)準(zhǔn)RAG在104104個(gè)token時(shí)早早達(dá)到平穩(wěn)狀態(tài),相比之下,DRAG和IterDRAG隨著有效上下文長(zhǎng)度的增長(zhǎng)顯示出近乎線性的提升。

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!-AI.x社區(qū)

使用不同方法評(píng)估Gemini 1.5 Flash的準(zhǔn)確率:零-shot QA、多-shot QA、RAG(帶有最佳數(shù)量的文檔)、DRAG和IterDRAG在基準(zhǔn)QA數(shù)據(jù)集上的表現(xiàn)。通過(guò)擴(kuò)展推理計(jì)算(最多5M個(gè)token),DRAG持續(xù)優(yōu)于基線,而IterDRAG通過(guò)交錯(cuò)檢索和迭代生成改進(jìn)了DRAG。

o1推理擴(kuò)展的風(fēng)吹到了RAG,性能飆升58.9%!-AI.x社區(qū)


https://arxiv.org/pdf/2410.04343
Inference Scaling for Long-Context Retrieval Augmented Generation
Google DeepMind

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦