偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%

發(fā)布于 2024-6-26 15:30
瀏覽
0收藏

檢索增強(qiáng)生成(RAG)將檢索階段與生成階段結(jié)合起來,后者通常由大型語言模型(LLMs)驅(qū)動,RAG中的當(dāng)前常見實踐是使用“指導(dǎo)”的LLMs,這真的是最優(yōu)選擇嗎?

對RAG系統(tǒng)中的“instruct”模型及其模板與基礎(chǔ)版本(base)進(jìn)行了原則性評估。這些“instruct”模型通常經(jīng)過監(jiān)督訓(xùn)練來提高遵循指令的能力,并使用最先進(jìn)技術(shù)與人類偏好對齊。使用了兩個任務(wù)指令來評估模型,任務(wù)指令I(lǐng)要求模型從未提供的文檔中提取答案,任務(wù)指令I(lǐng)I要求模型提供證據(jù)來支持其答案。

在TriviaQA上的任務(wù)指令I(lǐng)下,基礎(chǔ)版與指導(dǎo)+模板版之間的比較。該圖展示了兩個版本的Llama 2 7B模型生成的回答之間的比較:基礎(chǔ)版和指導(dǎo)+模板版。每個版本都被賦予了基于提供文檔回答同一問題的任務(wù)?;A(chǔ)模型正確地識別出答案為“Burgess Meredith”,而指導(dǎo)+模板版錯誤地將答案歸因于“Danny DeVito”。斜體文本表示模板

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

在TriviaQA上的任務(wù)指令I(lǐng)I下,基礎(chǔ)版與指導(dǎo)+模板版之間的比較。這種比較展示了Llama 2 7B的基礎(chǔ)版和指導(dǎo)+模板版生成的回答之間的一個例子,其中基礎(chǔ)模型正確地識別了答案,而指導(dǎo)+模板版錯誤地將答案歸因于不同的演員。盡管如此,在兩種情況下,答案都與證據(jù)“一致”,因為每項證據(jù)都包含了生成的答案。斜體文本表示模板。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

實驗結(jié)果顯示,在RAG任務(wù)中,基礎(chǔ)模型在沒有額外的指令特定微調(diào)的情況下,平均性能比“instruct”模型高出20%。這一發(fā)現(xiàn)挑戰(zhàn)了關(guān)于“instruct”LLMs在RAG應(yīng)用中優(yōu)越性的普遍假設(shè)。進(jìn)一步的調(diào)查揭示了更復(fù)雜的情況,提出了對RAG和評估程序的更廣泛討論的需求。

在NQ和TriviaQA上任務(wù)指令I(lǐng)的準(zhǔn)確度。縮寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級別的報告。除了部分例外的Mistral,所有基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。


在NQ和TriviaQA上,需要提供證明的任務(wù)指令I(lǐng)I的準(zhǔn)確度。縮寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級別的報告。在所有考慮的情況下,基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

盡管“instruct”模型在遵循任務(wù)指令方面更為有效,但它們在準(zhǔn)確拒絕回答(即當(dāng)檢索文檔中不包含答案時回答NO-RES)方面的表現(xiàn)不如基礎(chǔ)模型(備注:這地方的結(jié)論貌似與實驗數(shù)據(jù)不匹配,有需要小伙伴自行評測哈)。此外,當(dāng)不要求模型在答案不出現(xiàn)在檢索文檔中時回答NO-RES時,基礎(chǔ)模型仍然表現(xiàn)更好,這表明監(jiān)督微調(diào)和對齊過程可能對模型在RAG任務(wù)中的能力產(chǎn)生了負(fù)面影響。

從參數(shù)化記憶中回憶 - Llama 2 7B - TriviaQA。報告的是參數(shù)化記憶回憶率,定義為模型在檢索文檔不包含正確答案的情況下仍能正確回答的實例數(shù),除以答案不在上下文中出現(xiàn)的次數(shù)。(左)如圖1所示的任務(wù)指令I(lǐng);(右)無拒絕設(shè)置,即不指定在檢索文檔中不包含答案時回答NO-RES(如圖6所示的示例)。在這種情況下,兩個模型版本的參數(shù)化記憶回憶率都有所提高。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

圖6:在NQ上,任務(wù)指令I(lǐng)下的基礎(chǔ)版與指導(dǎo)版,不允許拒絕回答。這張圖展示了在不允許拒絕回答的設(shè)置下的回答情況,即模型不需要在檢索文檔中不包含答案時回答NO-RES。它比較了Falcon 7B的基礎(chǔ)版和指導(dǎo)版。基礎(chǔ)模型準(zhǔn)確地識別出“Rocky”(洛奇)是1976年奧斯卡最佳影片獎的獲獎?wù)?,而指?dǎo)版錯誤地引用了“Network”(電視臺)。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)


在整個RAG流程中,除了Generation,還涉及Embedding、Indexing等等,PaperAgent團(tuán)隊RAG專欄進(jìn)行過詳細(xì)的歸納總結(jié):高級RAG之36技(術(shù)),可私信留言試看:RAG專欄。

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
https://arxiv.org/pdf/2406.14972
https://github.com/florin-git/Base-vs-Instruct-LLMs-in-RAG-Systems

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦