RARE:通過檢索增強(qiáng)推理增強(qiáng)打造一個(gè)媲美GPT4的RAG系統(tǒng) 精華
1. 為什么要提出 RARE?
問答(QA,Question Answering)系統(tǒng)的目的以自然語言提出的問題生成答案,其涵蓋的領(lǐng)域和類型極為廣泛,從開放領(lǐng)域的 QA到更為專業(yè)的領(lǐng)域,比如醫(yī)療QA。
醫(yī)療 QA 要求模型能夠掌握復(fù)雜的醫(yī)學(xué)知識、解讀臨床場景,并選出正確且符合上下文的選項(xiàng)。
和多數(shù)專業(yè)領(lǐng)域的 QA 類似,醫(yī)療 QA 也需要結(jié)構(gòu)化的多步驟推理,從一系列連續(xù)的步驟中推理出答案。比如,依據(jù)患者信息給出恰當(dāng)?shù)某跏贾委煼桨福P褪紫纫R別患者的狀況,接著分析相關(guān)因素并診斷疾病,最后確定合適的基于證據(jù)的干預(yù)措施。如果沒有這種結(jié)構(gòu)化的多步驟推理,面對如此復(fù)雜的醫(yī)療場景,很難得出準(zhǔn)確且與上下文緊密相關(guān)的答案。
此外,醫(yī)療 QA 存在一些顯著區(qū)別于其他領(lǐng)域 QA 的問題:
?高度依賴特定領(lǐng)域的知識,而這些知識并非總能在預(yù)訓(xùn)練模型中獲取,因此需要從外部來源依據(jù)事實(shí)進(jìn)行檢索。比如涉及特定醫(yī)學(xué)術(shù)語,像射血分?jǐn)?shù)降低的心力衰竭(HFrEF)這類問題。而且,醫(yī)學(xué)知識更新迅速,新的治療方法或最新的指南可能未被納入模型的預(yù)訓(xùn)練語料庫。例如,較新的藥物(如用于 HFrEF 的 SGLT2 抑制劑)可能在近期的指南中被推薦,卻在較舊的預(yù)訓(xùn)練模型中缺失。
?包含各式各樣的問題類型,不僅有前面提及的多步驟推理和基于事實(shí)的檢索,還包括需要迭代證據(jù)檢索的問題,在整個(gè)過程中都要求在每個(gè)推理步驟檢索相關(guān)知識以確保準(zhǔn)確性和相關(guān)性。
2. 什么是RARE框架?
2.1 RARE 框架概覽
針對上述問題,作者提出了檢索增強(qiáng)推理增強(qiáng)(RARE,Retrieval-Augmented Reasoning Enhancement)。
RARE基于現(xiàn)有的 rStar,其中語言模型生成推理步驟,另一個(gè)進(jìn)行驗(yàn)證,在無需微調(diào)或使用高級模型的情況下提升準(zhǔn)確性。為生成有效的多步驟推理路徑,RARE 涵蓋了五種類型的動(dòng)作來提示語言模型生成下一個(gè)推理步驟。
圖片
什么是rStar?
Self-play muTuAl Reasoning (rStar) 是一種自我博弈的相互推理方法,顯著提高了小型語言模型(SLMs)的推理能力,而無需微調(diào)或依賴更高級的模型。rStar將推理過程分解為自我博弈的生成-鑒別過程(如上圖)。
?自我生成(Self-play Mutual Generation):首先,目標(biāo)SLM(小型語言模型)通過蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS)增強(qiáng),并引入一系列類似人類的推理行為來構(gòu)建更高質(zhì)量的推理軌跡。
?相互鑒別(Mutual Discrimination):然后,另一個(gè)能力與目標(biāo)SLM相似的SLM作為鑒別器,對目標(biāo)SLM生成的每個(gè)推理軌跡進(jìn)行驗(yàn)證。相互同意的推理軌跡被認(rèn)為是相互一致的,因此更有可能是正確的。
RARE的五種類型的動(dòng)作包括提出一步思考、提出剩余的思考步驟、提問和回答子問題、重新回答子問題以及重新表述問題。
這些動(dòng)作有助于模型探索不同的推理路徑:
? 為回答基于事實(shí)的問題,RARE 還設(shè)計(jì)了新動(dòng)作:根據(jù)問題生成多個(gè)搜索查詢并檢索相關(guān)文檔。
? 為回答復(fù)合問題,添加了新動(dòng)作,用于細(xì)化子問題、檢索目標(biāo)信息并更新下一步。
受 rStar 的生成器-判別器結(jié)構(gòu)啟發(fā),引入了檢索增強(qiáng)生成器和真實(shí)性評分器,提升大型語言模型的推理準(zhǔn)確性與事實(shí)完整性。
圖片
如上圖所示,RARE 分兩個(gè)主要階段運(yùn)作。
?檢索增強(qiáng)生成器生成候選:檢索增強(qiáng)生成器基于 rStar 自生成器,融入了兩個(gè)新的檢索增強(qiáng)動(dòng)作,能動(dòng)態(tài)獲取相關(guān)外部信息。將豐富的上下文知識整合進(jìn)中間推理步驟,尤其是對于復(fù)雜問題,提升了候選推理軌跡的相關(guān)性和準(zhǔn)確性。
?檢索增強(qiáng)評分器進(jìn)行真實(shí)性評估:取代 rStar 中的判別器,檢索增強(qiáng)真實(shí)性評分器會(huì)評估每個(gè)候選軌跡的事實(shí)可靠性。評分器會(huì)核實(shí)中間推理步驟與檢索到的證據(jù)是否一致,并給出反映軌跡與外部知識一致性的真實(shí)性分?jǐn)?shù)。具有最高真實(shí)性分?jǐn)?shù)的軌跡會(huì)被選為最終答案,優(yōu)先考慮最有事實(shí)依據(jù)的推理路徑。這種選擇確保了一致性和事實(shí)一致性,增強(qiáng)了響應(yīng)的可靠性。
2.2 檢索增強(qiáng)生成器(Retrieval-Augmented Generator)
為了借助外部知識優(yōu)化推理流程,在原本的 rStar 生成器中引入了兩個(gè)新動(dòng)作,將其轉(zhuǎn)化為檢索增強(qiáng)型生成器,如上面兩個(gè)圖所示。
這些檢索增強(qiáng)動(dòng)作使得生成器能夠動(dòng)態(tài)融合外部信息,提升生成的推理軌跡的相關(guān)性與準(zhǔn)確性:
圖片
? A6:搜索查詢生成與信息檢索(Search Query Generation and Information Retrieval.)。使 LLM 依據(jù)初始問題構(gòu)建搜索查詢并進(jìn)行信息檢索。檢索到的文檔提供了額外的背景信息,豐富了推理軌跡,助力生成器形成更全面且與上下文相關(guān)的最終答案。
圖片
? A7:子問題檢索與重新回答(Sub-question Retrieval and Reanswering)。對通過動(dòng)作 A3 生成的子問題的答案進(jìn)行細(xì)化。對于每個(gè)子問題,生成器檢索特定的相關(guān)信息并用其重新回答子問題。這種方式提高了中間推理步驟的準(zhǔn)確性,進(jìn)而增強(qiáng)了整個(gè)推理軌跡的連貫性和事實(shí)可靠性。
憑借這些檢索增強(qiáng)動(dòng)作,生成器能夠探索更廣闊的解決方案空間,形成既邏輯連貫又富含外部知識的推理路徑。這種向檢索增強(qiáng)型生成器的轉(zhuǎn)變使 RARE 能夠更出色地處理復(fù)雜、知識密集型的推理任務(wù)。
2.3 檢索增強(qiáng)評分器(RAFS,Retrieval-Augmented Factuality Scorer)
受搜索增強(qiáng)事實(shí)性評估器(SAFE)的啟發(fā):將 LLM(GPT-3.5-turbo)與谷歌搜索相結(jié)合來評估響應(yīng)的事實(shí)性,RARE 推出了檢索增強(qiáng)事實(shí)性評分器(RAFS)。
RAFS 對其方法進(jìn)行了調(diào)整,用 LLaMA 3.1 70B 取代 GPT-3.5-turbo,用包含通用領(lǐng)域知識(維基百科)和醫(yī)學(xué)領(lǐng)域資源(PubMed、StatPearls 及醫(yī)學(xué)教科書)的語料庫索引檢索系統(tǒng)取代谷歌搜索。
圖片
為評估生成的推理路徑的事實(shí)準(zhǔn)確性,RAFS 按照上圖所示的四個(gè)系統(tǒng)性步驟來評估每個(gè)候選軌跡。
? 拆分(Split into sentences):把每個(gè)推理軌跡分割為單獨(dú)的語句,讓 RAFS 能夠獨(dú)立核實(shí)離散推理步驟的事實(shí)準(zhǔn)確性,增強(qiáng)整體評估的可靠性。
? 生成檢索查詢(Generate retrieval queries):針對每個(gè)語句,RAFS 運(yùn)用 LLM 生成多個(gè)檢索查詢,旨在檢索上下文相關(guān)的證據(jù)。
? 檢索信息(Retrieve information):檢索系統(tǒng)收集與每個(gè)生成的查詢相對應(yīng)的文檔或信息。為評估每個(gè)推理步驟與外部來源的一致性提供了事實(shí)依據(jù)。
? 使用檢索到的信息進(jìn)行評分(Rate using retrieved information):將每個(gè)語句與檢索到的證據(jù)進(jìn)行對比,并標(biāo)記為“支持”或“不支持”,依據(jù)與信息的一致性。推理路徑的總體事實(shí)性得分計(jì)算為支持陳述的比例,表明軌跡的事實(shí)可靠性。
3. 效果如何?
3.1 推理任務(wù)的性能
圖片
上圖展示了 RARE 與其他方法在三個(gè)醫(yī)療推理基準(zhǔn)(MedQA、MedMCQA 以及 MMLU-Medical)上的表現(xiàn)。這些數(shù)據(jù)集既要求復(fù)雜的推理,又需要高度的事實(shí)準(zhǔn)確性,因而適合用來評估 RARE 的檢索增強(qiáng)推理方法的成效。
結(jié)果表面,相較于基線方法(如思維鏈(CoT)、檢索增強(qiáng)生成(RAG)、自一致性和 rStar),RARE 能有效提升 LLaMA 模型的推理能力。
在所有模型規(guī)模(LLaMA3.2 3B、LLaMA3.1 8B 以及 LLaMA3.1 70B)中,RARE 始終優(yōu)于基線方法。
隨著模型規(guī)模的增大,性能提升愈發(fā)顯著,RARE 增強(qiáng)的 LLaMA3.1 70B 在多個(gè)數(shù)據(jù)集上的表現(xiàn)優(yōu)于 GPT-4。
此外,RARE 在所有基準(zhǔn)測試中均顯著優(yōu)于其他大型模型,如 GPT-3.5、Mixtral 和 Meditron。
3.2 常識推理的表現(xiàn)
圖片
上圖展示了 RARE 與其他推理方法以及更大的語言模型在常識推理基準(zhǔn)測試中的性能,涵蓋 StrategyQA、Commonsense QA、Social IQA 和 Physical IQA 等。
這些數(shù)據(jù)集對一系列常識推理技能進(jìn)行了測試,其中 StrategyQA 所需的推理更為復(fù)雜和隱性,而其他數(shù)據(jù)集即便沒有嚴(yán)格要求,也能從先進(jìn)的推理方法中獲益。
RARE 在 LLaMA3.1 8B 和 LLaMA3.1 70B 模型中始終優(yōu)于基線方法,如思維鏈、檢索增強(qiáng)生成、自我一致性和 rStar 等。
在 LLaMA3.1 70B 上,RARE 進(jìn)一步縮小了與最先進(jìn)專有模型的差距,在 StrategyQA 和 PIQA 上超越 GPT-4o Mini,表現(xiàn)與 GPT-4o 接近。
RARE 在所有基準(zhǔn)測試中也一直優(yōu)于 Claude-3 Haiku 和 Claude-3.5 Sonnet,展現(xiàn)出其競爭優(yōu)勢。結(jié)果彰顯了 RARE 在增強(qiáng)常識推理方面的可擴(kuò)展性和有效性,
3.3 消融研究
為評估 RARE 框架中各組件的貢獻(xiàn),運(yùn)用 LLaMA 3.1 8B 模型,針對來自 MedQA 數(shù)據(jù)集的 250 個(gè)樣本展開了消融研究。
圖片
上圖展示了不同配置下的準(zhǔn)確率結(jié)果,單獨(dú)考量了檢索增強(qiáng)的真實(shí)性評分器以及兩個(gè)檢索增強(qiáng)動(dòng)作(A6 和 A7)所產(chǎn)生的影響。
以準(zhǔn)確率為 70.0%的基線(rStar)為起點(diǎn),發(fā)現(xiàn)僅添加檢索增強(qiáng)的真實(shí)性評分器,準(zhǔn)確率會(huì)適度提升至 70.6%,這表明真實(shí)性評分組件增強(qiáng)了推理的可靠性。
添加動(dòng)作 A6(生成搜索查詢并檢索相關(guān)信息),準(zhǔn)確率提升至 72.4%。
添加動(dòng)作 A7(檢索子問題的信息并重新作答),準(zhǔn)確率提高到 71.2%。
將 A6 和 A7 相結(jié)合,準(zhǔn)確率達(dá)到 73.2%,表明這兩個(gè)檢索增強(qiáng)動(dòng)作協(xié)同運(yùn)作,通過在多個(gè)階段提供相關(guān)背景信息來強(qiáng)化推理過程。
最終,完整的 RARE 配置,涵蓋 rStar、兩個(gè)檢索增強(qiáng)動(dòng)作(A6 和 A7)以及真實(shí)性評分器,準(zhǔn)確率達(dá)到最高的 74.8%。
3. 局限性
RARE 在推理準(zhǔn)確性和事實(shí)可靠性方面有顯著提升,但也存在一些局限,為后續(xù)研究指明了方向。
? RARE僅在諸如 LLaMA 3.1 這類開源模型上做了測試,尚未在 GPT-4 等大型專有模型上開展。原因在于 RARE 的迭代檢索與推理過程需要大量 API 調(diào)用,導(dǎo)致在閉源模型上評估成本過高。不過,此框架與模型無關(guān),若資源允許,可直接用于專有模型。
? RARE 旨在找出能得出正確答案的單一推理路徑,卻未必能優(yōu)化出能使魯棒性最大化的最佳或最短路徑(比如實(shí)現(xiàn)最高的模型置信度)。未來的工作可以探索設(shè)計(jì)更優(yōu)的獎(jiǎng)勵(lì)函數(shù),以防獎(jiǎng)勵(lì)作弊,并改進(jìn)最可靠推理路徑的選取。
? 另外,盡管檢索增強(qiáng)的事實(shí)性評分器是依據(jù)事實(shí)準(zhǔn)確性來評估推理路徑的,但RAFS 與人類評估之間的一致性尚未得到深入分析。而且,在醫(yī)學(xué)問答中評估推理步驟目前還沒有既定的評估指標(biāo),這對研究界來說仍是一個(gè)開放的挑戰(zhàn)。
? 最后,RARE 當(dāng)下僅限于使用蒙特卡羅樹搜索來探索行動(dòng)路徑。雖然有效,但這種方式未利用經(jīng)過訓(xùn)練的獎(jiǎng)勵(lì)模型來動(dòng)態(tài)引導(dǎo)搜索過程。未來的拓展可以融入獎(jiǎng)勵(lì)模型或其他優(yōu)化策略,進(jìn)一步提升推理質(zhì)量和效率。
本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??,作者:HuggingAGI
