偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rp id="eofj9"><dl id="eofj9"><legend id="eofj9"></legend></dl></rp>

<tt id="eofj9"></tt><table id="eofj9"><strong id="eofj9"></strong></table>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

RAG還是微調(diào)？微軟出了一份特定領(lǐng)域大模型應(yīng)用建設(shè)流程指南

作者：機(jī)器之心 2024-02-19 00:06:50

人工智能新聞

檢索增強(qiáng)生成（RAG）和微調(diào)（Fine-tuning）是提升大語(yǔ)言模型性能的兩種常用方法，那么到底哪種方法更好？在建設(shè)特定領(lǐng)域的應(yīng)用時(shí)哪種更高效？微軟的這篇論文供你選擇時(shí)進(jìn)行參考。

在構(gòu)建大語(yǔ)言模型應(yīng)用程序時(shí)通常有兩種常見(jiàn)的方法來(lái)整合專有和特定領(lǐng)域的數(shù)據(jù)：檢索增強(qiáng)生成和微調(diào)。檢索增強(qiáng)生成通過(guò)外部數(shù)據(jù)增強(qiáng)提示，而微調(diào)將額外的知識(shí)整合到模型本身中。不過(guò)，對(duì)這兩種方法的優(yōu)缺點(diǎn)了解的卻不夠充分。

本文中，來(lái)自微軟的研究者引入一個(gè)新的關(guān)注點(diǎn)：為需要特定背景和自適應(yīng)響應(yīng)的行業(yè)（農(nóng)業(yè)）創(chuàng)建 AI 助手。本文提出了一個(gè)全面的大語(yǔ)言模型流程，用于生成高質(zhì)量的、行業(yè)特定的問(wèn)題和答案。該方法包含一個(gè)系統(tǒng)化的過(guò)程，包括鑒別和收集涵蓋廣泛農(nóng)業(yè)主題的相關(guān)文檔。接著清理和結(jié)構(gòu)化這些文檔，以便使用基本的 GPT 模型生成有意義的問(wèn)答對(duì)。生成的問(wèn)答對(duì)隨后根據(jù)其質(zhì)量進(jìn)行評(píng)估和篩選。

本文的目標(biāo)是為特定行業(yè)創(chuàng)建有價(jià)值的知識(shí)資源，以農(nóng)業(yè)為案例研究，最終的目標(biāo)是能為 LLM 在農(nóng)業(yè)領(lǐng)域的發(fā)展做出貢獻(xiàn)。

論文地址：https://arxiv.org/pdf/2401.08406.pdf
論文標(biāo)題：RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture

本文提出的流程旨在生成滿足某個(gè)行業(yè)中專業(yè)人員和利益相關(guān)者需求的領(lǐng)域特定問(wèn)題和答案，在該行業(yè)中，期望從 AI 助手那里得到的答案應(yīng)該基于相關(guān)的行業(yè)特定因素。

本文涉及的是農(nóng)業(yè)研究，目標(biāo)是生成該特定領(lǐng)域的答案。因此研究的起點(diǎn)是農(nóng)業(yè)數(shù)據(jù)集，它被輸入到三個(gè)主要組件中：問(wèn)答生成、檢索增強(qiáng)生成和微調(diào)過(guò)程。問(wèn)答生成根據(jù)農(nóng)業(yè)數(shù)據(jù)集中的信息創(chuàng)建問(wèn)答對(duì)，檢索增強(qiáng)生成將其用作知識(shí)源。生成的數(shù)據(jù)經(jīng)過(guò)精煉，并用于微調(diào)多個(gè)模型，其質(zhì)量通過(guò)一組提出的度量標(biāo)準(zhǔn)進(jìn)行評(píng)估。通過(guò)這種全面的方法，利用大語(yǔ)言模型的力量，造福農(nóng)業(yè)行業(yè)及其他利益相關(guān)者。

本文對(duì)大語(yǔ)言模型在農(nóng)業(yè)領(lǐng)域的理解做出了一些特殊貢獻(xiàn)，這些貢獻(xiàn)可以歸納如下：

1、對(duì) LLMs 的全面評(píng)估：本文對(duì)大語(yǔ)言模型進(jìn)行了廣泛評(píng)估，包括 LlaMa2-13B、GPT-4 和 Vicuna，以回答與農(nóng)業(yè)相關(guān)的問(wèn)題。使用了來(lái)自主要農(nóng)業(yè)生產(chǎn)國(guó)的基準(zhǔn)數(shù)據(jù)集進(jìn)行評(píng)估。本文的分析中，GPT-4 一直表現(xiàn)優(yōu)于其它模型，但也需要考慮與其微調(diào)和推理相關(guān)的成本。

2、檢索技術(shù)和微調(diào)對(duì)性能的影響：本文研究了檢索技術(shù)和微調(diào)對(duì) LLMs 性能的影響。研究發(fā)現(xiàn)，檢索增強(qiáng)生成和微調(diào)都是提高 LLMs 性能的有效技術(shù)。

3、LLMs 在不同行業(yè)潛在應(yīng)用的影響：對(duì)于想要建立 RAG 和微調(diào)技術(shù)在 LLMs 中應(yīng)用的流程而言，本文走出了開(kāi)創(chuàng)性的一步，并促進(jìn)了多個(gè)行業(yè)之間的創(chuàng)新和合作。

方法

本文第 2 部分詳細(xì)介紹采用了方法論，包括數(shù)據(jù)獲取過(guò)程、信息提取過(guò)程、問(wèn)題和答案生成，以及模型的微調(diào)。該方法論圍繞著一個(gè)旨在生成和評(píng)估用于構(gòu)建領(lǐng)域特定助手的問(wèn)答對(duì)流程展開(kāi)，如下圖 1 所示。

該流程以數(shù)據(jù)獲取開(kāi)始，這包括從各種高質(zhì)量的存儲(chǔ)庫(kù)中獲取數(shù)據(jù)，比如政府機(jī)構(gòu)、科學(xué)知識(shí)數(shù)據(jù)庫(kù)，以及必要時(shí)使用專有數(shù)據(jù)。

在完成數(shù)據(jù)獲取后，流程繼續(xù)從收集的文檔中提取信息。這一步驟至關(guān)重要，因?yàn)樗婕敖馕鰪?fù)雜且非結(jié)構(gòu)化的 PDF 文件，以恢復(fù)其中的內(nèi)容和結(jié)構(gòu)。下圖 2 展示了數(shù)據(jù)集中一個(gè) PDF 文件的示例。

流程的下一個(gè)組成部分是問(wèn)題和答案生成。這里的目標(biāo)是生成有上下文基礎(chǔ)的高質(zhì)量問(wèn)題，準(zhǔn)確反映提取文本的內(nèi)容。本文方法采用了一個(gè)框架來(lái)控制輸入和輸出的結(jié)構(gòu)組成，從而增強(qiáng)語(yǔ)言模型生成響應(yīng)的整體效果。

隨后，流程為制定的問(wèn)題生成答案。此處采用的方法利用了檢索增強(qiáng)生成，結(jié)合了檢索和生成機(jī)制的能力，以創(chuàng)建高質(zhì)量的答案。

最后，流程通過(guò) Q&A 對(duì)微調(diào)模型。優(yōu)化過(guò)程采用了低秩調(diào)整（LoRA）等方法，確保全面理解科學(xué)文獻(xiàn)的內(nèi)容和背景，使其成為各個(gè)領(lǐng)域或行業(yè)的有價(jià)值資源。

數(shù)據(jù)集

研究中評(píng)估了經(jīng)過(guò)微調(diào)和檢索增強(qiáng)生成的語(yǔ)言模型，使用與背景相關(guān)的問(wèn)題和答案數(shù)據(jù)集，這些數(shù)據(jù)集來(lái)源于三個(gè)主要的作物生產(chǎn)國(guó)：美國(guó)、巴西和印度。本文的案例中，以農(nóng)業(yè)作為工業(yè)背景?？捎玫臄?shù)據(jù)在格式和內(nèi)容上變化很大，涵蓋了法規(guī)文件、科學(xué)報(bào)告、農(nóng)學(xué)考試以及知識(shí)數(shù)據(jù)庫(kù)等各種類型。

本文從美國(guó)農(nóng)業(yè)部、州農(nóng)業(yè)和消費(fèi)者服務(wù)機(jī)構(gòu)等公開(kāi)可獲得的在線文檔、手冊(cè)和報(bào)告中收集了信息。

可獲得的文檔包括了有關(guān)作物和牲畜管理、疾病和最佳實(shí)踐的聯(lián)邦法規(guī)和政策信息，質(zhì)量保證和出口法規(guī)，援助計(jì)劃的詳細(xì)信息，以及保險(xiǎn)和定價(jià)指南。收集的數(shù)據(jù)總計(jì)超過(guò) 23,000 個(gè) PDF 文件，包含超過(guò) 5000 萬(wàn)個(gè) tokens，涵蓋了美國(guó) 44 個(gè)州。研究者下載并預(yù)處理了這些文件，提取了可以用作問(wèn)答生成流程輸入的文本信息。

為了對(duì)模型進(jìn)行基準(zhǔn)測(cè)試和評(píng)估，本文使用了與華盛頓州相關(guān)的文檔，其中包括 573 個(gè)文件，包含超過(guò) 200 萬(wàn)個(gè) tokens。如下清單 5 展示了這些文件中的內(nèi)容示例。

度量標(biāo)準(zhǔn)

本節(jié)的主要目的是建立一套全面的度量標(biāo)準(zhǔn)，目的是指導(dǎo)對(duì)問(wèn)答生成過(guò)程的質(zhì)量評(píng)估，尤其是對(duì)微調(diào)和檢索增強(qiáng)生成方法的評(píng)估。

在開(kāi)發(fā)度量標(biāo)準(zhǔn)時(shí)，必須考慮幾個(gè)關(guān)鍵因素。首先，問(wèn)題質(zhì)量中固有的主觀性提出了重大挑戰(zhàn)。

其次，度量標(biāo)準(zhǔn)必須考慮到問(wèn)題的相關(guān)性、實(shí)用性對(duì)上下文的依賴性。

第三，需要評(píng)估生成問(wèn)題的多樣性和新穎性。強(qiáng)大的問(wèn)題生成系統(tǒng)應(yīng)該能夠產(chǎn)生涵蓋給定內(nèi)容各個(gè)方面的廣泛?jiǎn)栴}。然而，對(duì)多樣性和新穎性進(jìn)行量化可能面臨著挑戰(zhàn)，因?yàn)檫@涉及到評(píng)估問(wèn)題的獨(dú)特性以及它們與內(nèi)容、其他生成問(wèn)題的相似性。

最后，好的問(wèn)題應(yīng)該能夠基于提供的內(nèi)容得到回答。評(píng)估問(wèn)題是否可以使用現(xiàn)有信息來(lái)準(zhǔn)確回答，這需要對(duì)內(nèi)容進(jìn)行深刻的理解，并具備識(shí)別回答問(wèn)題的相關(guān)信息的能力。

這些度量標(biāo)準(zhǔn)在確保模型提供的答案準(zhǔn)確、相關(guān)且有效地回答問(wèn)題方面發(fā)揮著不可或缺的作用。然而，在專門(mén)設(shè)計(jì)用于評(píng)估問(wèn)題質(zhì)量的度量標(biāo)準(zhǔn)方面存在顯著的缺失。

意識(shí)到這一缺失，本文專注于開(kāi)發(fā)旨在評(píng)估問(wèn)題質(zhì)量的度量標(biāo)準(zhǔn)?？紤]到問(wèn)題在推動(dòng)有意義的對(duì)話和生成有用答案方面的關(guān)鍵作用，確保問(wèn)題質(zhì)量與確保答案質(zhì)量同樣重要。

本文開(kāi)發(fā)的度量標(biāo)準(zhǔn)旨在彌補(bǔ)以往研究在這一領(lǐng)域的空缺，提供一種全面評(píng)估問(wèn)題質(zhì)量的手段，這將對(duì)問(wèn)答生成過(guò)程的進(jìn)展產(chǎn)生顯著影響。

問(wèn)題評(píng)估

本文開(kāi)發(fā)的用于評(píng)估問(wèn)題的度量標(biāo)準(zhǔn)如下：

相關(guān)性
全局相關(guān)性
覆蓋范圍
重疊度
多樣性
詳細(xì)程度
流暢度

答案評(píng)估

由于大語(yǔ)言模型傾向于生成長(zhǎng)而詳細(xì)的、富有信息的對(duì)話式回答，因此評(píng)估它們生成的答案是具有挑戰(zhàn)性的。

本文使用了 AzureML 模型評(píng)估，采用以下度量標(biāo)準(zhǔn)來(lái)將生成的答案與實(shí)際情況進(jìn)行比較：

一致性：在給定上下文的情況下，比較實(shí)際情況與預(yù)測(cè)之間的一致性。
相關(guān)性：衡量答案在上下文中如何有效地回答問(wèn)題的主要方面。
真實(shí)性：定義了答案是否邏輯上符合上下文中包含的信息，并提供一個(gè)整數(shù)分?jǐn)?shù)來(lái)確定答案的真實(shí)性。

模型評(píng)估

為了評(píng)估不同的微調(diào)模型，本文使用了 GPT-4 作為評(píng)估器。利用 GPT-4 從農(nóng)業(yè)文檔中生成了約 270 個(gè)問(wèn)題和答案對(duì)，作為實(shí)際情況數(shù)據(jù)集。對(duì)于每個(gè)微調(diào)模型和檢索增強(qiáng)生成模型，生成這些問(wèn)題的答案。

本文對(duì) LLMs 進(jìn)行了多個(gè)不同度量標(biāo)準(zhǔn)的評(píng)估：

帶有指南的評(píng)估：對(duì)于每個(gè)問(wèn)答實(shí)際情況對(duì)，本文提示 GPT-4 生成一個(gè)評(píng)估指南，列出正確答案應(yīng)包含的內(nèi)容。然后，GPT-4 被提示根據(jù)評(píng)估指南中的標(biāo)準(zhǔn)，為每個(gè)答案打分，分?jǐn)?shù)范圍從 0 到 1。下面是一個(gè)例子：
簡(jiǎn)潔性：創(chuàng)建了描述簡(jiǎn)潔和冗長(zhǎng)答案可能包含內(nèi)容的評(píng)分表?；谠撛u(píng)分表、實(shí)際情況答案和 LLM 答案提示 GPT-4，并要求根據(jù) 1 到 5 的分?jǐn)?shù)給出評(píng)分。
正確性：本文創(chuàng)建了一個(gè)描述完整、部分正確或不正確的答案應(yīng)包含內(nèi)容的評(píng)分表。基于該評(píng)分表、實(shí)際情況答案和 LLM 答案提示 GPT-4，并要求給出正確、不正確或部分正確的評(píng)分。

實(shí)驗(yàn)

本文的實(shí)驗(yàn)被劃分為幾個(gè)獨(dú)立的實(shí)驗(yàn)，每個(gè)實(shí)驗(yàn)都側(cè)重于問(wèn)答生成和評(píng)估、檢索增強(qiáng)生成和微調(diào)的特定方面。

這些實(shí)驗(yàn)探索以下領(lǐng)域：

問(wèn)答質(zhì)量
上下文研究
模型到度量的計(jì)算
組合生成與分別生成對(duì)比
檢索消融研究
微調(diào)

問(wèn)答質(zhì)量

該實(shí)驗(yàn)評(píng)估了三個(gè)大語(yǔ)言模型，即 GPT-3、GPT-3.5 和 GPT-4，在不同上下文設(shè)置下生成的問(wèn)答對(duì)的質(zhì)量。質(zhì)量評(píng)估基于多個(gè)指標(biāo)，包括相關(guān)性、覆蓋范圍、重疊度和多樣性。

上下文研究

該實(shí)驗(yàn)研究了不同上下文設(shè)置對(duì)模型生成問(wèn)答對(duì)性能的影響。它在三種上下文設(shè)置下評(píng)估生成的問(wèn)答對(duì)：無(wú)上下文、上下文和外部上下文。表 12 中提供了一個(gè)示例。

在無(wú)上下文設(shè)置中，GPT-4 在三個(gè)模型中具有最高的覆蓋率和大小的提示，表明它可以涵蓋更多的文本部分，但生成的問(wèn)題更冗長(zhǎng)。然而，三個(gè)模型在多樣性、重疊度、相關(guān)性和流暢度方面的數(shù)值都相似。

當(dāng)包含上下文時(shí)，與 GPT-3 相比，GPT-3.5 的覆蓋率略有增加，而 GPT-4 保持了最高的覆蓋率。對(duì)于 Size Prompt，GPT-4 具有最大的數(shù)值，表明其能夠生成更冗長(zhǎng)的問(wèn)題和答案。

在多樣性和重疊度方面，三個(gè)模型表現(xiàn)相似。對(duì)于相關(guān)性和流暢度，與其他模型相比，GPT-4 略有增加。

在外部上下文設(shè)置中，也有類似的情況。

此外，觀察每個(gè)模型時(shí)，無(wú)上下文設(shè)置似乎在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面為 GPT-4 提供了最佳平衡，但生成的問(wèn)答對(duì)較短。上下文設(shè)置導(dǎo)致了較長(zhǎng)的問(wèn)答對(duì)和其他指標(biāo)的輕微下降，除了大小。外部上下文設(shè)置生成的問(wèn)答對(duì)最長(zhǎng)，但保持了平均覆蓋率，并在平均相關(guān)性和流暢度上略有增加。

總體而言，對(duì)于 GPT-4，無(wú)上下文設(shè)置在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面似乎提供了最佳平衡，但生成的答案較短。上下文設(shè)置導(dǎo)致了更長(zhǎng)的提示和其他指標(biāo)的輕微下降。外部上下文設(shè)置生成的提示最長(zhǎng)，但保持了平均覆蓋率，并在平均相關(guān)性和流暢度上略有增加。

因此，在這三者之間的選擇將取決于任務(wù)的具體要求。如果不考慮提示的長(zhǎng)度，則由于更高的相關(guān)性和流暢度分?jǐn)?shù)，外部上下文可能是最佳選擇。

模型到度量的計(jì)算

該實(shí)驗(yàn)比較了在用于計(jì)算評(píng)估問(wèn)答對(duì)質(zhì)量的度量標(biāo)準(zhǔn)時(shí)，GPT-3.5 和 GPT-4 的表現(xiàn)。

總體上，雖然 GPT-4 通常將生成的問(wèn)答對(duì)評(píng)價(jià)為更具流暢性和上下文真實(shí)性，但與 GPT-3.5 的評(píng)分相比，它們的多樣性和相關(guān)性較低。這些觀點(diǎn)對(duì)于理解不同模型如何感知和評(píng)估生成內(nèi)容的質(zhì)量至關(guān)重要。

組合生成與單獨(dú)生成的對(duì)比

該實(shí)驗(yàn)探討了單獨(dú)生成問(wèn)題和答案與組合生成問(wèn)題和答案之間的優(yōu)劣，并側(cè)重于在 token 使用效率方面的比較。

總的來(lái)說(shuō)，僅生成問(wèn)題的方法提供更好的覆蓋范圍和較低的多樣性，而組合生成方法在重疊度和相關(guān)性方面得分更高。在流暢度方面，兩種方法表現(xiàn)相似。因此在這兩種方法之間的選擇將取決于任務(wù)的具體要求。

如果目標(biāo)是覆蓋更多信息并保持更多的多樣性，那么只生成問(wèn)題的方法會(huì)更受青睞。然而，如果要與源材料保持較高的重疊度，那么組合生成方法將是更好的選擇。

檢索消融研究

這個(gè)實(shí)驗(yàn)評(píng)估了檢索增強(qiáng)生成的檢索能力，這是一種通過(guò)在問(wèn)題回答過(guò)程中提供額外上下文來(lái)增強(qiáng) LLMs 固有知識(shí)的方法。

本文研究了檢索的片段數(shù)量 (即 top-k) 對(duì)結(jié)果的影響，并在表 16 中呈現(xiàn)了結(jié)果。通過(guò)考慮更多的片段，檢索增強(qiáng)生成能夠更一致地恢復(fù)原始摘錄。

為確保模型能夠處理來(lái)自各種地理背景和現(xiàn)象的問(wèn)題，需要擴(kuò)展支持文檔的語(yǔ)料庫(kù)，以涵蓋各種主題。隨著考慮更多文檔，預(yù)計(jì)索引的大小將增加。這可能會(huì)在檢索過(guò)程中增加相似片段之間的碰撞數(shù)量，從而阻礙恢復(fù)輸入問(wèn)題的相關(guān)信息的能力，降低召回率。

微調(diào)

該實(shí)驗(yàn)評(píng)估了微調(diào)模型與基礎(chǔ)指令微調(diào)模型的性能差異。目的在于了解微調(diào)對(duì)幫助模型學(xué)習(xí)新知識(shí)的潛力。

對(duì)于基礎(chǔ)模型，本文評(píng)估了開(kāi)源模型 Llama2-13B-chat 和 Vicuna-13B-v1.5-16k。這兩個(gè)模型相對(duì)較小，代表了計(jì)算與性能之間的有趣權(quán)衡。這兩個(gè)模型都是 Llama2-13B 的微調(diào)版本，使用了不同的方法。

Llama2-13B-chat 通過(guò)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)進(jìn)行了指令微調(diào)。Vicuna-13B-v1.5-16k 是通過(guò)在 ShareGPT 數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的指令微調(diào)版本。此外，本文還評(píng)估了基礎(chǔ)的 GPT-4，作為一個(gè)更大、更昂貴和更強(qiáng)大的替代方案。

對(duì)于微調(diào)模型，本文直接在農(nóng)業(yè)數(shù)據(jù)上對(duì) Llama2-13B 進(jìn)行微調(diào)，以便將其性能與為更通用任務(wù)進(jìn)行微調(diào)的類似模型進(jìn)行比較。本文還對(duì) GPT-4 進(jìn)行微調(diào)，以評(píng)估微調(diào)在非常大的模型上是否仍然有幫助。帶有指南的評(píng)估結(jié)果見(jiàn)表 18。

為全面衡量回答的質(zhì)量，除了準(zhǔn)確性外，本文還評(píng)估了回答的簡(jiǎn)潔性。

表 21 中顯示，這些模型并不始終對(duì)問(wèn)題提供完整的回答。例如，有些回答指出土壤流失是一個(gè)問(wèn)題，但并沒(méi)有提到空氣質(zhì)量。

總的來(lái)說(shuō)，就準(zhǔn)確而簡(jiǎn)潔地回答參考答案而言，性能最好的模型是 Vicuna + 檢索增強(qiáng)生成、GPT-4 + 檢索增強(qiáng)生成、GPT-4 微調(diào)和 GPT-4 微調(diào) + 檢索增強(qiáng)生成。這些模型提供了精確性、簡(jiǎn)潔性和信息深度的平衡混合。

知識(shí)發(fā)現(xiàn)

本文的研究目標(biāo)是探索微調(diào)對(duì)幫助 GPT-4 學(xué)習(xí)新知識(shí)的潛力，這對(duì)應(yīng)用研究至關(guān)重要。

為了測(cè)試這一點(diǎn)，本文選擇了在美國(guó)的 50 個(gè)州中至少有三個(gè)州相似的問(wèn)題。然后計(jì)算了嵌入的余弦相似度，并確定了 1000 個(gè)這樣的問(wèn)題列表。這些問(wèn)題從訓(xùn)練集中刪除，使用微調(diào)和帶有檢索增強(qiáng)生成的微調(diào)來(lái)評(píng)估 GPT-4 是否能夠根據(jù)不同州之間的相似性學(xué)習(xí)新知識(shí)。

更多實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)