RAG還是微調(diào)?微軟出了一份特定領(lǐng)域大模型應(yīng)用建設(shè)流程指南
在構(gòu)建大語(yǔ)言模型應(yīng)用程序時(shí)通常有兩種常見(jiàn)的方法來(lái)整合專有和特定領(lǐng)域的數(shù)據(jù):檢索增強(qiáng)生成和微調(diào)。檢索增強(qiáng)生成通過(guò)外部數(shù)據(jù)增強(qiáng)提示,而微調(diào)將額外的知識(shí)整合到模型本身中。不過(guò),對(duì)這兩種方法的優(yōu)缺點(diǎn)了解的卻不夠充分。
本文中,來(lái)自微軟的研究者引入一個(gè)新的關(guān)注點(diǎn):為需要特定背景和自適應(yīng)響應(yīng)的行業(yè)(農(nóng)業(yè))創(chuàng)建 AI 助手。本文提出了一個(gè)全面的大語(yǔ)言模型流程,用于生成高質(zhì)量的、行業(yè)特定的問(wèn)題和答案。該方法包含一個(gè)系統(tǒng)化的過(guò)程,包括鑒別和收集涵蓋廣泛農(nóng)業(yè)主題的相關(guān)文檔。接著清理和結(jié)構(gòu)化這些文檔,以便使用基本的 GPT 模型生成有意義的問(wèn)答對(duì)。生成的問(wèn)答對(duì)隨后根據(jù)其質(zhì)量進(jìn)行評(píng)估和篩選。
本文的目標(biāo)是為特定行業(yè)創(chuàng)建有價(jià)值的知識(shí)資源,以農(nóng)業(yè)為案例研究,最終的目標(biāo)是能為 LLM 在農(nóng)業(yè)領(lǐng)域的發(fā)展做出貢獻(xiàn)。

- 論文地址:https://arxiv.org/pdf/2401.08406.pdf
- 論文標(biāo)題:RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
本文提出的流程旨在生成滿足某個(gè)行業(yè)中專業(yè)人員和利益相關(guān)者需求的領(lǐng)域特定問(wèn)題和答案,在該行業(yè)中,期望從 AI 助手那里得到的答案應(yīng)該基于相關(guān)的行業(yè)特定因素。
本文涉及的是農(nóng)業(yè)研究,目標(biāo)是生成該特定領(lǐng)域的答案。因此研究的起點(diǎn)是農(nóng)業(yè)數(shù)據(jù)集,它被輸入到三個(gè)主要組件中:問(wèn)答生成、檢索增強(qiáng)生成和微調(diào)過(guò)程。問(wèn)答生成根據(jù)農(nóng)業(yè)數(shù)據(jù)集中的信息創(chuàng)建問(wèn)答對(duì),檢索增強(qiáng)生成將其用作知識(shí)源。生成的數(shù)據(jù)經(jīng)過(guò)精煉,并用于微調(diào)多個(gè)模型,其質(zhì)量通過(guò)一組提出的度量標(biāo)準(zhǔn)進(jìn)行評(píng)估。通過(guò)這種全面的方法,利用大語(yǔ)言模型的力量,造福農(nóng)業(yè)行業(yè)及其他利益相關(guān)者。
本文對(duì)大語(yǔ)言模型在農(nóng)業(yè)領(lǐng)域的理解做出了一些特殊貢獻(xiàn),這些貢獻(xiàn)可以歸納如下:
1、對(duì) LLMs 的全面評(píng)估:本文對(duì)大語(yǔ)言模型進(jìn)行了廣泛評(píng)估,包括 LlaMa2-13B、GPT-4 和 Vicuna,以回答與農(nóng)業(yè)相關(guān)的問(wèn)題。使用了來(lái)自主要農(nóng)業(yè)生產(chǎn)國(guó)的基準(zhǔn)數(shù)據(jù)集進(jìn)行評(píng)估。本文的分析中,GPT-4 一直表現(xiàn)優(yōu)于其它模型,但也需要考慮與其微調(diào)和推理相關(guān)的成本。
2、檢索技術(shù)和微調(diào)對(duì)性能的影響:本文研究了檢索技術(shù)和微調(diào)對(duì) LLMs 性能的影響。研究發(fā)現(xiàn),檢索增強(qiáng)生成和微調(diào)都是提高 LLMs 性能的有效技術(shù)。
3、LLMs 在不同行業(yè)潛在應(yīng)用的影響:對(duì)于想要建立 RAG 和微調(diào)技術(shù)在 LLMs 中應(yīng)用的流程而言,本文走出了開(kāi)創(chuàng)性的一步,并促進(jìn)了多個(gè)行業(yè)之間的創(chuàng)新和合作。
方法
本文第 2 部分詳細(xì)介紹采用了方法論,包括數(shù)據(jù)獲取過(guò)程、信息提取過(guò)程、問(wèn)題和答案生成,以及模型的微調(diào)。該方法論圍繞著一個(gè)旨在生成和評(píng)估用于構(gòu)建領(lǐng)域特定助手的問(wèn)答對(duì)流程展開(kāi),如下圖 1 所示。

該流程以數(shù)據(jù)獲取開(kāi)始,這包括從各種高質(zhì)量的存儲(chǔ)庫(kù)中獲取數(shù)據(jù),比如政府機(jī)構(gòu)、科學(xué)知識(shí)數(shù)據(jù)庫(kù),以及必要時(shí)使用專有數(shù)據(jù)。
在完成數(shù)據(jù)獲取后,流程繼續(xù)從收集的文檔中提取信息。這一步驟至關(guān)重要,因?yàn)樗婕敖馕鰪?fù)雜且非結(jié)構(gòu)化的 PDF 文件,以恢復(fù)其中的內(nèi)容和結(jié)構(gòu)。下圖 2 展示了數(shù)據(jù)集中一個(gè) PDF 文件的示例。

流程的下一個(gè)組成部分是問(wèn)題和答案生成。這里的目標(biāo)是生成有上下文基礎(chǔ)的高質(zhì)量問(wèn)題,準(zhǔn)確反映提取文本的內(nèi)容。本文方法采用了一個(gè)框架來(lái)控制輸入和輸出的結(jié)構(gòu)組成,從而增強(qiáng)語(yǔ)言模型生成響應(yīng)的整體效果。
隨后,流程為制定的問(wèn)題生成答案。此處采用的方法利用了檢索增強(qiáng)生成,結(jié)合了檢索和生成機(jī)制的能力,以創(chuàng)建高質(zhì)量的答案。
最后,流程通過(guò) Q&A 對(duì)微調(diào)模型。優(yōu)化過(guò)程采用了低秩調(diào)整(LoRA)等方法,確保全面理解科學(xué)文獻(xiàn)的內(nèi)容和背景,使其成為各個(gè)領(lǐng)域或行業(yè)的有價(jià)值資源。
數(shù)據(jù)集
研究中評(píng)估了經(jīng)過(guò)微調(diào)和檢索增強(qiáng)生成的語(yǔ)言模型,使用與背景相關(guān)的問(wèn)題和答案數(shù)據(jù)集,這些數(shù)據(jù)集來(lái)源于三個(gè)主要的作物生產(chǎn)國(guó):美國(guó)、巴西和印度。本文的案例中,以農(nóng)業(yè)作為工業(yè)背景??捎玫臄?shù)據(jù)在格式和內(nèi)容上變化很大,涵蓋了法規(guī)文件、科學(xué)報(bào)告、農(nóng)學(xué)考試以及知識(shí)數(shù)據(jù)庫(kù)等各種類型。
本文從美國(guó)農(nóng)業(yè)部、州農(nóng)業(yè)和消費(fèi)者服務(wù)機(jī)構(gòu)等公開(kāi)可獲得的在線文檔、手冊(cè)和報(bào)告中收集了信息。
可獲得的文檔包括了有關(guān)作物和牲畜管理、疾病和最佳實(shí)踐的聯(lián)邦法規(guī)和政策信息,質(zhì)量保證和出口法規(guī),援助計(jì)劃的詳細(xì)信息,以及保險(xiǎn)和定價(jià)指南。收集的數(shù)據(jù)總計(jì)超過(guò) 23,000 個(gè) PDF 文件,包含超過(guò) 5000 萬(wàn)個(gè) tokens,涵蓋了美國(guó) 44 個(gè)州。研究者下載并預(yù)處理了這些文件,提取了可以用作問(wèn)答生成流程輸入的文本信息。
為了對(duì)模型進(jìn)行基準(zhǔn)測(cè)試和評(píng)估,本文使用了與華盛頓州相關(guān)的文檔,其中包括 573 個(gè)文件,包含超過(guò) 200 萬(wàn)個(gè) tokens。如下清單 5 展示了這些文件中的內(nèi)容示例。

度量標(biāo)準(zhǔn)
本節(jié)的主要目的是建立一套全面的度量標(biāo)準(zhǔn),目的是指導(dǎo)對(duì)問(wèn)答生成過(guò)程的質(zhì)量評(píng)估,尤其是對(duì)微調(diào)和檢索增強(qiáng)生成方法的評(píng)估。
在開(kāi)發(fā)度量標(biāo)準(zhǔn)時(shí),必須考慮幾個(gè)關(guān)鍵因素。首先,問(wèn)題質(zhì)量中固有的主觀性提出了重大挑戰(zhàn)。
其次,度量標(biāo)準(zhǔn)必須考慮到問(wèn)題的相關(guān)性、實(shí)用性對(duì)上下文的依賴性。
第三,需要評(píng)估生成問(wèn)題的多樣性和新穎性。強(qiáng)大的問(wèn)題生成系統(tǒng)應(yīng)該能夠產(chǎn)生涵蓋給定內(nèi)容各個(gè)方面的廣泛?jiǎn)栴}。然而,對(duì)多樣性和新穎性進(jìn)行量化可能面臨著挑戰(zhàn),因?yàn)檫@涉及到評(píng)估問(wèn)題的獨(dú)特性以及它們與內(nèi)容、其他生成問(wèn)題的相似性。
最后,好的問(wèn)題應(yīng)該能夠基于提供的內(nèi)容得到回答。評(píng)估問(wèn)題是否可以使用現(xiàn)有信息來(lái)準(zhǔn)確回答,這需要對(duì)內(nèi)容進(jìn)行深刻的理解,并具備識(shí)別回答問(wèn)題的相關(guān)信息的能力。
這些度量標(biāo)準(zhǔn)在確保模型提供的答案準(zhǔn)確、相關(guān)且有效地回答問(wèn)題方面發(fā)揮著不可或缺的作用。然而,在專門(mén)設(shè)計(jì)用于評(píng)估問(wèn)題質(zhì)量的度量標(biāo)準(zhǔn)方面存在顯著的缺失。
意識(shí)到這一缺失,本文專注于開(kāi)發(fā)旨在評(píng)估問(wèn)題質(zhì)量的度量標(biāo)準(zhǔn)??紤]到問(wèn)題在推動(dòng)有意義的對(duì)話和生成有用答案方面的關(guān)鍵作用,確保問(wèn)題質(zhì)量與確保答案質(zhì)量同樣重要。
本文開(kāi)發(fā)的度量標(biāo)準(zhǔn)旨在彌補(bǔ)以往研究在這一領(lǐng)域的空缺,提供一種全面評(píng)估問(wèn)題質(zhì)量的手段,這將對(duì)問(wèn)答生成過(guò)程的進(jìn)展產(chǎn)生顯著影響。
問(wèn)題評(píng)估
本文開(kāi)發(fā)的用于評(píng)估問(wèn)題的度量標(biāo)準(zhǔn)如下:
- 相關(guān)性
- 全局相關(guān)性
- 覆蓋范圍
- 重疊度
- 多樣性
- 詳細(xì)程度
- 流暢度
答案評(píng)估
由于大語(yǔ)言模型傾向于生成長(zhǎng)而詳細(xì)的、富有信息的對(duì)話式回答,因此評(píng)估它們生成的答案是具有挑戰(zhàn)性的。
本文使用了 AzureML 模型評(píng)估,采用以下度量標(biāo)準(zhǔn)來(lái)將生成的答案與實(shí)際情況進(jìn)行比較:
- 一致性:在給定上下文的情況下,比較實(shí)際情況與預(yù)測(cè)之間的一致性。
- 相關(guān)性:衡量答案在上下文中如何有效地回答問(wèn)題的主要方面。
- 真實(shí)性:定義了答案是否邏輯上符合上下文中包含的信息,并提供一個(gè)整數(shù)分?jǐn)?shù)來(lái)確定答案的真實(shí)性。
模型評(píng)估
為了評(píng)估不同的微調(diào)模型,本文使用了 GPT-4 作為評(píng)估器。利用 GPT-4 從農(nóng)業(yè)文檔中生成了約 270 個(gè)問(wèn)題和答案對(duì),作為實(shí)際情況數(shù)據(jù)集。對(duì)于每個(gè)微調(diào)模型和檢索增強(qiáng)生成模型,生成這些問(wèn)題的答案。
本文對(duì) LLMs 進(jìn)行了多個(gè)不同度量標(biāo)準(zhǔn)的評(píng)估:
- 帶有指南的評(píng)估:對(duì)于每個(gè)問(wèn)答實(shí)際情況對(duì),本文提示 GPT-4 生成一個(gè)評(píng)估指南,列出正確答案應(yīng)包含的內(nèi)容。然后,GPT-4 被提示根據(jù)評(píng)估指南中的標(biāo)準(zhǔn),為每個(gè)答案打分,分?jǐn)?shù)范圍從 0 到 1。下面是一個(gè)例子:
- 簡(jiǎn)潔性:創(chuàng)建了描述簡(jiǎn)潔和冗長(zhǎng)答案可能包含內(nèi)容的評(píng)分表?;谠撛u(píng)分表、實(shí)際情況答案和 LLM 答案提示 GPT-4,并要求根據(jù) 1 到 5 的分?jǐn)?shù)給出評(píng)分。
- 正確性:本文創(chuàng)建了一個(gè)描述完整、部分正確或不正確的答案應(yīng)包含內(nèi)容的評(píng)分表。基于該評(píng)分表、實(shí)際情況答案和 LLM 答案提示 GPT-4,并要求給出正確、不正確或部分正確的評(píng)分。
實(shí)驗(yàn)
本文的實(shí)驗(yàn)被劃分為幾個(gè)獨(dú)立的實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)都側(cè)重于問(wèn)答生成和評(píng)估、檢索增強(qiáng)生成和微調(diào)的特定方面。
這些實(shí)驗(yàn)探索以下領(lǐng)域:
- 問(wèn)答質(zhì)量
- 上下文研究
- 模型到度量的計(jì)算
- 組合生成與分別生成對(duì)比
- 檢索消融研究
- 微調(diào)
問(wèn)答質(zhì)量
該實(shí)驗(yàn)評(píng)估了三個(gè)大語(yǔ)言模型,即 GPT-3、GPT-3.5 和 GPT-4,在不同上下文設(shè)置下生成的問(wèn)答對(duì)的質(zhì)量。質(zhì)量評(píng)估基于多個(gè)指標(biāo),包括相關(guān)性、覆蓋范圍、重疊度和多樣性。
上下文研究
該實(shí)驗(yàn)研究了不同上下文設(shè)置對(duì)模型生成問(wèn)答對(duì)性能的影響。它在三種上下文設(shè)置下評(píng)估生成的問(wèn)答對(duì):無(wú)上下文、上下文和外部上下文。表 12 中提供了一個(gè)示例。

在無(wú)上下文設(shè)置中,GPT-4 在三個(gè)模型中具有最高的覆蓋率和大小的提示,表明它可以涵蓋更多的文本部分,但生成的問(wèn)題更冗長(zhǎng)。然而,三個(gè)模型在多樣性、重疊度、相關(guān)性和流暢度方面的數(shù)值都相似。
當(dāng)包含上下文時(shí),與 GPT-3 相比,GPT-3.5 的覆蓋率略有增加,而 GPT-4 保持了最高的覆蓋率。對(duì)于 Size Prompt,GPT-4 具有最大的數(shù)值,表明其能夠生成更冗長(zhǎng)的問(wèn)題和答案。
在多樣性和重疊度方面,三個(gè)模型表現(xiàn)相似。對(duì)于相關(guān)性和流暢度,與其他模型相比,GPT-4 略有增加。
在外部上下文設(shè)置中,也有類似的情況。
此外,觀察每個(gè)模型時(shí),無(wú)上下文設(shè)置似乎在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面為 GPT-4 提供了最佳平衡,但生成的問(wèn)答對(duì)較短。上下文設(shè)置導(dǎo)致了較長(zhǎng)的問(wèn)答對(duì)和其他指標(biāo)的輕微下降,除了大小。外部上下文設(shè)置生成的問(wèn)答對(duì)最長(zhǎng),但保持了平均覆蓋率,并在平均相關(guān)性和流暢度上略有增加。
總體而言,對(duì)于 GPT-4,無(wú)上下文設(shè)置在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面似乎提供了最佳平衡,但生成的答案較短。上下文設(shè)置導(dǎo)致了更長(zhǎng)的提示和其他指標(biāo)的輕微下降。外部上下文設(shè)置生成的提示最長(zhǎng),但保持了平均覆蓋率,并在平均相關(guān)性和流暢度上略有增加。
因此,在這三者之間的選擇將取決于任務(wù)的具體要求。如果不考慮提示的長(zhǎng)度,則由于更高的相關(guān)性和流暢度分?jǐn)?shù),外部上下文可能是最佳選擇。
模型到度量的計(jì)算
該實(shí)驗(yàn)比較了在用于計(jì)算評(píng)估問(wèn)答對(duì)質(zhì)量的度量標(biāo)準(zhǔn)時(shí),GPT-3.5 和 GPT-4 的表現(xiàn)。
總體上,雖然 GPT-4 通常將生成的問(wèn)答對(duì)評(píng)價(jià)為更具流暢性和上下文真實(shí)性,但與 GPT-3.5 的評(píng)分相比, 它們的多樣性和相關(guān)性較低。這些觀點(diǎn)對(duì)于理解不同模型如何感知和評(píng)估生成內(nèi)容的質(zhì)量至關(guān)重要。
組合生成與單獨(dú)生成的對(duì)比
該實(shí)驗(yàn)探討了單獨(dú)生成問(wèn)題和答案與組合生成問(wèn)題和答案之間的優(yōu)劣,并側(cè)重于在 token 使用效率方面的比較。

總的來(lái)說(shuō),僅生成問(wèn)題的方法提供更好的覆蓋范圍和較低的多樣性,而組合生成方法在重疊度和相關(guān)性方面得分更高。在流暢度方面,兩種方法表現(xiàn)相似。因此在這兩種方法之間的選擇將取決于任務(wù)的具體要求。
如果目標(biāo)是覆蓋更多信息并保持更多的多樣性,那么只生成問(wèn)題的方法會(huì)更受青睞。然而,如果要與源材料保持較高的重疊度,那么組合生成方法將是更好的選擇。
檢索消融研究
這個(gè)實(shí)驗(yàn)評(píng)估了檢索增強(qiáng)生成的檢索能力,這是一種通過(guò)在問(wèn)題回答過(guò)程中提供額外上下文來(lái)增強(qiáng) LLMs 固有知識(shí)的方法。
本文研究了檢索的片段數(shù)量 (即 top-k) 對(duì)結(jié)果的影響,并在表 16 中呈現(xiàn)了結(jié)果。通過(guò)考慮更多的片段,檢索增強(qiáng)生成能夠更一致地恢復(fù)原始摘錄。

為確保模型能夠處理來(lái)自各種地理背景和現(xiàn)象的問(wèn)題,需要擴(kuò)展支持文檔的語(yǔ)料庫(kù),以涵蓋各種主題。隨著考慮更多文檔,預(yù)計(jì)索引的大小將增加。這可能會(huì)在檢索過(guò)程中增加相似片段之間的碰撞數(shù)量,從而阻礙恢復(fù)輸入問(wèn)題的相關(guān)信息的能力,降低召回率。
微調(diào)
該實(shí)驗(yàn)評(píng)估了微調(diào)模型與基礎(chǔ)指令微調(diào)模型的性能差異。目的在于了解微調(diào)對(duì)幫助模型學(xué)習(xí)新知識(shí)的潛力。
對(duì)于基礎(chǔ)模型,本文評(píng)估了開(kāi)源模型 Llama2-13B-chat 和 Vicuna-13B-v1.5-16k。這兩個(gè)模型相對(duì)較小,代表了計(jì)算與性能之間的有趣權(quán)衡。這兩個(gè)模型都是 Llama2-13B 的微調(diào)版本,使用了不同的方法。
Llama2-13B-chat 通過(guò)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)進(jìn)行了指令微調(diào)。Vicuna-13B-v1.5-16k 是通過(guò)在 ShareGPT 數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的指令微調(diào)版本。此外,本文還評(píng)估了基礎(chǔ)的 GPT-4,作為一個(gè)更大、更昂貴和更強(qiáng)大的替代方案。
對(duì)于微調(diào)模型,本文直接在農(nóng)業(yè)數(shù)據(jù)上對(duì) Llama2-13B 進(jìn)行微調(diào),以便將其性能與為更通用任務(wù)進(jìn)行微調(diào)的類似模型進(jìn)行比較。本文還對(duì) GPT-4 進(jìn)行微調(diào),以評(píng)估微調(diào)在非常大的模型上是否仍然有幫助。帶有指南的評(píng)估結(jié)果見(jiàn)表 18。

為全面衡量回答的質(zhì)量,除了準(zhǔn)確性外,本文還評(píng)估了回答的簡(jiǎn)潔性。

表 21 中顯示,這些模型并不始終對(duì)問(wèn)題提供完整的回答。例如,有些回答指出土壤流失是一個(gè)問(wèn)題,但并沒(méi)有提到空氣質(zhì)量。
總的來(lái)說(shuō),就準(zhǔn)確而簡(jiǎn)潔地回答參考答案而言,性能最好的模型是 Vicuna + 檢索增強(qiáng)生成、GPT-4 + 檢索增強(qiáng)生成、GPT-4 微調(diào)和 GPT-4 微調(diào) + 檢索增強(qiáng)生成。這些模型提供了精確性、簡(jiǎn)潔性和信息深度的平衡混合。

知識(shí)發(fā)現(xiàn)
本文的研究目標(biāo)是探索微調(diào)對(duì)幫助 GPT-4 學(xué)習(xí)新知識(shí)的潛力,這對(duì)應(yīng)用研究至關(guān)重要。
為了測(cè)試這一點(diǎn),本文選擇了在美國(guó)的 50 個(gè)州中至少有三個(gè)州相似的問(wèn)題。然后計(jì)算了嵌入的余弦相似度,并確定了 1000 個(gè)這樣的問(wèn)題列表。這些問(wèn)題從訓(xùn)練集中刪除,使用微調(diào)和帶有檢索增強(qiáng)生成的微調(diào)來(lái)評(píng)估 GPT-4 是否能夠根據(jù)不同州之間的相似性學(xué)習(xí)新知識(shí)。

更多實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。
































