偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng) 精華

大語言模型論文跟蹤

發(fā)布于 2024-12-25 12:08

瀏覽

0收藏

1. 為什么要提出 RARE?

問答（QA，Question Answering）系統(tǒng)的目的以自然語言提出的問題生成答案，其涵蓋的領(lǐng)域和類型極為廣泛，從開放領(lǐng)域的 QA到更為專業(yè)的領(lǐng)域，比如醫(yī)療QA。

醫(yī)療 QA 要求模型能夠掌握復(fù)雜的醫(yī)學(xué)知識、解讀臨床場景，并選出正確且符合上下文的選項(xiàng)。

和多數(shù)專業(yè)領(lǐng)域的 QA 類似，醫(yī)療 QA 也需要結(jié)構(gòu)化的多步驟推理，從一系列連續(xù)的步驟中推理出答案。比如，依據(jù)患者信息給出恰當(dāng)?shù)某跏贾委煼桨福Ｐ褪紫纫R別患者的狀況，接著分析相關(guān)因素并診斷疾病，最后確定合適的基于證據(jù)的干預(yù)措施。如果沒有這種結(jié)構(gòu)化的多步驟推理，面對如此復(fù)雜的醫(yī)療場景，很難得出準(zhǔn)確且與上下文緊密相關(guān)的答案。

此外，醫(yī)療 QA 存在一些顯著區(qū)別于其他領(lǐng)域 QA 的問題：

?高度依賴特定領(lǐng)域的知識，而這些知識并非總能在預(yù)訓(xùn)練模型中獲取，因此需要從外部來源依據(jù)事實(shí)進(jìn)行檢索。比如涉及特定醫(yī)學(xué)術(shù)語，像射血分?jǐn)?shù)降低的心力衰竭（HFrEF）這類問題。而且，醫(yī)學(xué)知識更新迅速，新的治療方法或最新的指南可能未被納入模型的預(yù)訓(xùn)練語料庫。例如，較新的藥物（如用于 HFrEF 的 SGLT2 抑制劑）可能在近期的指南中被推薦，卻在較舊的預(yù)訓(xùn)練模型中缺失。

?包含各式各樣的問題類型，不僅有前面提及的多步驟推理和基于事實(shí)的檢索，還包括需要迭代證據(jù)檢索的問題，在整個(gè)過程中都要求在每個(gè)推理步驟檢索相關(guān)知識以確保準(zhǔn)確性和相關(guān)性。

2. 什么是RARE框架?

2.1 RARE 框架概覽

針對上述問題，作者提出了檢索增強(qiáng)推理增強(qiáng)（RARE，Retrieval-Augmented Reasoning Enhancement）。

RARE基于現(xiàn)有的 rStar，其中語言模型生成推理步驟，另一個(gè)進(jìn)行驗(yàn)證，在無需微調(diào)或使用高級模型的情況下提升準(zhǔn)確性。為生成有效的多步驟推理路徑，RARE 涵蓋了五種類型的動(dòng)作來提示語言模型生成下一個(gè)推理步驟。

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng)-AI.x社區(qū) 圖片

什么是rStar？

Self-play muTuAl Reasoning (rStar) 是一種自我博弈的相互推理方法，顯著提高了小型語言模型（SLMs）的推理能力，而無需微調(diào)或依賴更高級的模型。rStar將推理過程分解為自我博弈的生成-鑒別過程（如上圖）。

?自我生成（Self-play Mutual Generation）：首先，目標(biāo)SLM（小型語言模型）通過蒙特卡洛樹搜索（Monte Carlo Tree Search，MCTS）增強(qiáng)，并引入一系列類似人類的推理行為來構(gòu)建更高質(zhì)量的推理軌跡。

?相互鑒別（Mutual Discrimination）：然后，另一個(gè)能力與目標(biāo)SLM相似的SLM作為鑒別器，對目標(biāo)SLM生成的每個(gè)推理軌跡進(jìn)行驗(yàn)證。相互同意的推理軌跡被認(rèn)為是相互一致的，因此更有可能是正確的。

RARE的五種類型的動(dòng)作包括提出一步思考、提出剩余的思考步驟、提問和回答子問題、重新回答子問題以及重新表述問題。

這些動(dòng)作有助于模型探索不同的推理路徑：

? 為回答基于事實(shí)的問題，RARE 還設(shè)計(jì)了新動(dòng)作：根據(jù)問題生成多個(gè)搜索查詢并檢索相關(guān)文檔。

? 為回答復(fù)合問題，添加了新動(dòng)作，用于細(xì)化子問題、檢索目標(biāo)信息并更新下一步。

受 rStar 的生成器-判別器結(jié)構(gòu)啟發(fā)，引入了檢索增強(qiáng)生成器和真實(shí)性評分器，提升大型語言模型的推理準(zhǔn)確性與事實(shí)完整性。

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng)-AI.x社區(qū) 圖片

如上圖所示，RARE 分兩個(gè)主要階段運(yùn)作。

?檢索增強(qiáng)生成器生成候選：檢索增強(qiáng)生成器基于 rStar 自生成器，融入了兩個(gè)新的檢索增強(qiáng)動(dòng)作，能動(dòng)態(tài)獲取相關(guān)外部信息。將豐富的上下文知識整合進(jìn)中間推理步驟，尤其是對于復(fù)雜問題，提升了候選推理軌跡的相關(guān)性和準(zhǔn)確性。

?檢索增強(qiáng)評分器進(jìn)行真實(shí)性評估：取代 rStar 中的判別器，檢索增強(qiáng)真實(shí)性評分器會(huì)評估每個(gè)候選軌跡的事實(shí)可靠性。評分器會(huì)核實(shí)中間推理步驟與檢索到的證據(jù)是否一致，并給出反映軌跡與外部知識一致性的真實(shí)性分?jǐn)?shù)。具有最高真實(shí)性分?jǐn)?shù)的軌跡會(huì)被選為最終答案，優(yōu)先考慮最有事實(shí)依據(jù)的推理路徑。這種選擇確保了一致性和事實(shí)一致性，增強(qiáng)了響應(yīng)的可靠性。

2.2 檢索增強(qiáng)生成器（Retrieval-Augmented Generator）

為了借助外部知識優(yōu)化推理流程，在原本的 rStar 生成器中引入了兩個(gè)新動(dòng)作，將其轉(zhuǎn)化為檢索增強(qiáng)型生成器，如上面兩個(gè)圖所示。

這些檢索增強(qiáng)動(dòng)作使得生成器能夠動(dòng)態(tài)融合外部信息，提升生成的推理軌跡的相關(guān)性與準(zhǔn)確性：

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng)-AI.x社區(qū) 圖片

? A6：搜索查詢生成與信息檢索（Search Query Generation and Information Retrieval.）。使 LLM 依據(jù)初始問題構(gòu)建搜索查詢并進(jìn)行信息檢索。檢索到的文檔提供了額外的背景信息，豐富了推理軌跡，助力生成器形成更全面且與上下文相關(guān)的最終答案。

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng)-AI.x社區(qū) 圖片

? A7：子問題檢索與重新回答（Sub-question Retrieval and Reanswering）。對通過動(dòng)作 A3 生成的子問題的答案進(jìn)行細(xì)化。對于每個(gè)子問題，生成器檢索特定的相關(guān)信息并用其重新回答子問題。這種方式提高了中間推理步驟的準(zhǔn)確性，進(jìn)而增強(qiáng)了整個(gè)推理軌跡的連貫性和事實(shí)可靠性。

憑借這些檢索增強(qiáng)動(dòng)作，生成器能夠探索更廣闊的解決方案空間，形成既邏輯連貫又富含外部知識的推理路徑。這種向檢索增強(qiáng)型生成器的轉(zhuǎn)變使 RARE 能夠更出色地處理復(fù)雜、知識密集型的推理任務(wù)。

2.3 檢索增強(qiáng)評分器（RAFS，Retrieval-Augmented Factuality Scorer）

受搜索增強(qiáng)事實(shí)性評估器（SAFE）的啟發(fā)：將 LLM（GPT-3.5-turbo）與谷歌搜索相結(jié)合來評估響應(yīng)的事實(shí)性，RARE 推出了檢索增強(qiáng)事實(shí)性評分器（RAFS）。

RAFS 對其方法進(jìn)行了調(diào)整，用 LLaMA 3.1 70B 取代 GPT-3.5-turbo，用包含通用領(lǐng)域知識（維基百科）和醫(yī)學(xué)領(lǐng)域資源（PubMed、StatPearls 及醫(yī)學(xué)教科書）的語料庫索引檢索系統(tǒng)取代谷歌搜索。

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng)-AI.x社區(qū) 圖片

為評估生成的推理路徑的事實(shí)準(zhǔn)確性，RAFS 按照上圖所示的四個(gè)系統(tǒng)性步驟來評估每個(gè)候選軌跡。

? 拆分（Split into sentences）：把每個(gè)推理軌跡分割為單獨(dú)的語句，讓 RAFS 能夠獨(dú)立核實(shí)離散推理步驟的事實(shí)準(zhǔn)確性，增強(qiáng)整體評估的可靠性。

? 生成檢索查詢（Generate retrieval queries）：針對每個(gè)語句，RAFS 運(yùn)用 LLM 生成多個(gè)檢索查詢，旨在檢索上下文相關(guān)的證據(jù)。

? 檢索信息（Retrieve information）：檢索系統(tǒng)收集與每個(gè)生成的查詢相對應(yīng)的文檔或信息。為評估每個(gè)推理步驟與外部來源的一致性提供了事實(shí)依據(jù)。

? 使用檢索到的信息進(jìn)行評分（Rate using retrieved information）：將每個(gè)語句與檢索到的證據(jù)進(jìn)行對比，并標(biāo)記為“支持”或“不支持”，依據(jù)與信息的一致性。推理路徑的總體事實(shí)性得分計(jì)算為支持陳述的比例，表明軌跡的事實(shí)可靠性。

3. 效果如何？

3.1 推理任務(wù)的性能

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng)-AI.x社區(qū) 圖片

上圖展示了 RARE 與其他方法在三個(gè)醫(yī)療推理基準(zhǔn)（MedQA、MedMCQA 以及 MMLU-Medical）上的表現(xiàn)。這些數(shù)據(jù)集既要求復(fù)雜的推理，又需要高度的事實(shí)準(zhǔn)確性，因而適合用來評估 RARE 的檢索增強(qiáng)推理方法的成效。

結(jié)果表面，相較于基線方法（如思維鏈（CoT）、檢索增強(qiáng)生成（RAG）、自一致性和 rStar），RARE 能有效提升 LLaMA 模型的推理能力。

在所有模型規(guī)模（LLaMA3.2 3B、LLaMA3.1 8B 以及 LLaMA3.1 70B）中，RARE 始終優(yōu)于基線方法。

隨著模型規(guī)模的增大，性能提升愈發(fā)顯著，RARE 增強(qiáng)的 LLaMA3.1 70B 在多個(gè)數(shù)據(jù)集上的表現(xiàn)優(yōu)于 GPT-4。

此外，RARE 在所有基準(zhǔn)測試中均顯著優(yōu)于其他大型模型，如 GPT-3.5、Mixtral 和 Meditron。

3.2 常識推理的表現(xiàn)

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng)-AI.x社區(qū) 圖片

上圖展示了 RARE 與其他推理方法以及更大的語言模型在常識推理基準(zhǔn)測試中的性能，涵蓋 StrategyQA、Commonsense QA、Social IQA 和 Physical IQA 等。

這些數(shù)據(jù)集對一系列常識推理技能進(jìn)行了測試，其中 StrategyQA 所需的推理更為復(fù)雜和隱性，而其他數(shù)據(jù)集即便沒有嚴(yán)格要求，也能從先進(jìn)的推理方法中獲益。

RARE 在 LLaMA3.1 8B 和 LLaMA3.1 70B 模型中始終優(yōu)于基線方法，如思維鏈、檢索增強(qiáng)生成、自我一致性和 rStar 等。

在 LLaMA3.1 70B 上，RARE 進(jìn)一步縮小了與最先進(jìn)專有模型的差距，在 StrategyQA 和 PIQA 上超越 GPT-4o Mini，表現(xiàn)與 GPT-4o 接近。

RARE 在所有基準(zhǔn)測試中也一直優(yōu)于 Claude-3 Haiku 和 Claude-3.5 Sonnet，展現(xiàn)出其競爭優(yōu)勢。結(jié)果彰顯了 RARE 在增強(qiáng)常識推理方面的可擴(kuò)展性和有效性，

3.3 消融研究

為評估 RARE 框架中各組件的貢獻(xiàn)，運(yùn)用 LLaMA 3.1 8B 模型，針對來自 MedQA 數(shù)據(jù)集的 250 個(gè)樣本展開了消融研究。

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng)-AI.x社區(qū) 圖片

上圖展示了不同配置下的準(zhǔn)確率結(jié)果，單獨(dú)考量了檢索增強(qiáng)的真實(shí)性評分器以及兩個(gè)檢索增強(qiáng)動(dòng)作（A6 和 A7）所產(chǎn)生的影響。

以準(zhǔn)確率為 70.0％的基線（rStar）為起點(diǎn)，發(fā)現(xiàn)僅添加檢索增強(qiáng)的真實(shí)性評分器，準(zhǔn)確率會(huì)適度提升至 70.6％，這表明真實(shí)性評分組件增強(qiáng)了推理的可靠性。

添加動(dòng)作 A6（生成搜索查詢并檢索相關(guān)信息），準(zhǔn)確率提升至 72.4％。

添加動(dòng)作 A7（檢索子問題的信息并重新作答），準(zhǔn)確率提高到 71.2％。

將 A6 和 A7 相結(jié)合，準(zhǔn)確率達(dá)到 73.2％，表明這兩個(gè)檢索增強(qiáng)動(dòng)作協(xié)同運(yùn)作，通過在多個(gè)階段提供相關(guān)背景信息來強(qiáng)化推理過程。

最終，完整的 RARE 配置，涵蓋 rStar、兩個(gè)檢索增強(qiáng)動(dòng)作（A6 和 A7）以及真實(shí)性評分器，準(zhǔn)確率達(dá)到最高的 74.8％。

3. 局限性

RARE 在推理準(zhǔn)確性和事實(shí)可靠性方面有顯著提升，但也存在一些局限，為后續(xù)研究指明了方向。

? RARE僅在諸如 LLaMA 3.1 這類開源模型上做了測試，尚未在 GPT-4 等大型專有模型上開展。原因在于 RARE 的迭代檢索與推理過程需要大量 API 調(diào)用，導(dǎo)致在閉源模型上評估成本過高。不過，此框架與模型無關(guān)，若資源允許，可直接用于專有模型。

? RARE 旨在找出能得出正確答案的單一推理路徑，卻未必能優(yōu)化出能使魯棒性最大化的最佳或最短路徑（比如實(shí)現(xiàn)最高的模型置信度）。未來的工作可以探索設(shè)計(jì)更優(yōu)的獎(jiǎng)勵(lì)函數(shù)，以防獎(jiǎng)勵(lì)作弊，并改進(jìn)最可靠推理路徑的選取。

? 另外，盡管檢索增強(qiáng)的事實(shí)性評分器是依據(jù)事實(shí)準(zhǔn)確性來評估推理路徑的，但RAFS 與人類評估之間的一致性尚未得到深入分析。而且，在醫(yī)學(xué)問答中評估推理步驟目前還沒有既定的評估指標(biāo)，這對研究界來說仍是一個(gè)開放的挑戰(zhàn)。

? 最后，RARE 當(dāng)下僅限于使用蒙特卡羅樹搜索來探索行動(dòng)路徑。雖然有效，但這種方式未利用經(jīng)過訓(xùn)練的獎(jiǎng)勵(lì)模型來動(dòng)態(tài)引導(dǎo)搜索過程。未來的拓展可以融入獎(jiǎng)勵(lì)模型或其他優(yōu)化策略，進(jìn)一步提升推理質(zhì)量和效率。

RARE：通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng)-AI.x社區(qū)

本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??，作者：HuggingAGI

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

通過檢索增強(qiáng)生成(RAG) 增強(qiáng)LLM的實(shí)戰(zhàn)演練

51CTO內(nèi)容精選 ? 3784瀏覽 ? 0回復(fù)
Easy-RAG 一個(gè)適合學(xué)習(xí)、使用、自主擴(kuò)展的檢索增強(qiáng)生成系統(tǒng)

AIGC觀察者 ? 4279瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

玄姐聊AGI ? 2869瀏覽 ? 0回復(fù)
RAG高級優(yōu)化：基于問題生成的文檔檢索增強(qiáng)

恰似驚鴻 ? 3359瀏覽 ? 0回復(fù)
從檢索增強(qiáng)——RAG看檢索技術(shù)的發(fā)展

AI探索時(shí)代 ? 2412瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

Halo咯咯 ? 2349瀏覽 ? 0回復(fù)
HtmlRAG：利用 HTML 結(jié)構(gòu)化信息增強(qiáng) RAG 系統(tǒng)的知識檢索能力和準(zhǔn)確性

Halo咯咯 ? 3879瀏覽 ? 0回復(fù)
再談大模型檢索增強(qiáng)生成——RAG

AI探索時(shí)代 ? 2328瀏覽 ? 0回復(fù)
OPEN-RAG：利用開源大模型增強(qiáng)檢索增強(qiáng)推理

大模型自然語言處理 ? 2578瀏覽 ? 0回復(fù)
提升RAG性能的全攻略：優(yōu)化檢索增強(qiáng)生成系統(tǒng)的策略大揭秘

Halo咯咯 ? 6346瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：RAG的檢索增強(qiáng)之ElasticSearch

一起AI技術(shù) ? 3283瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：RAG的檢索增強(qiáng)之上下文重排和壓縮

一起AI技術(shù) ? 2450瀏覽 ? 0回復(fù)
RARE: 提升LLM推理準(zhǔn)確性和事實(shí)完整性的檢索增強(qiáng)框架思路淺嘗

大模型自然語言處理 ? 2873瀏覽 ? 0回復(fù)
RAG檢索增強(qiáng)生成和大模型微調(diào)的抉擇

AI探索時(shí)代 ? 2631瀏覽 ? 0回復(fù)
ACL2024 ｜利用GPT4構(gòu)建的多Agent系統(tǒng)自動(dòng)發(fā)現(xiàn)科學(xué)假設(shè)

arnoldzhw ? 2823瀏覽 ? 0回復(fù)
九種不同類型的檢索增強(qiáng)生成 (RAG)

Halo咯咯 ? 3065瀏覽 ? 0回復(fù)
超越 RAG：構(gòu)建增強(qiáng)而非替代思維的知識管理系統(tǒng)

ermulong ? 2162瀏覽 ? 0回復(fù)
構(gòu)建一個(gè)完全本地的語音激活的實(shí)用RAG系統(tǒng)

51CTO內(nèi)容精選 ? 1869瀏覽 ? 0回復(fù)
什么是檢索增強(qiáng)生成 (RAG)？

Halo咯咯 ? 2172瀏覽 ? 0回復(fù)

大語言模型論文跟蹤

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

不懂RAG？看這一篇萬字長文就夠了 7天前發(fā)布
詳解 Minus AI：邁向AGI新紀(jì)元？ 2025-06-13 07:02:10發(fā)布

熱門推薦

不懂RAG？看這一篇萬字長文就夠了 0回復(fù)

詳解 Minus AI：邁向AGI新紀(jì)元？ 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

上一篇：一文看懂：四種多Agent范式哪種最好

下一篇： HybGRAG：Hit@1 的平均相對提升率達(dá)到 51%的新思路

社區(qū)精華內(nèi)容

目錄

<nobr id="zurop"><code id="zurop"></code></nobr>