大型語(yǔ)言模型容易被無(wú)關(guān)上下文分散注意力(ICLM) 原創(chuàng)
摘要
大型語(yǔ)言模型在各種自然語(yǔ)言處理任務(wù)中取得了令人矚目的性能。然而,它們主要在所有輸入上下文信息都與任務(wù)相關(guān)的情況下進(jìn)行評(píng)估。在本研究中,我們探討了大型語(yǔ)言模型的分心問(wèn)題,即模型解決問(wèn)題的準(zhǔn)確性如何受到無(wú)關(guān)上下文的影響。具體而言,我們引入了帶有無(wú)關(guān)上下文的小學(xué)數(shù)學(xué)(GSM-IC),這是一個(gè)包含無(wú)關(guān)信息的算術(shù)推理數(shù)據(jù)集。我們利用這一基準(zhǔn)測(cè)試來(lái)衡量大型語(yǔ)言模型的最新提示技術(shù),并發(fā)現(xiàn)當(dāng)包含無(wú)關(guān)信息時(shí),模型性能顯著下降。我們還確定了幾種緩解這一缺陷的方法,例如使用自洽性解碼,以及在提示中添加指令,告知語(yǔ)言模型忽略無(wú)關(guān)信息。
1. 引言
提示大型語(yǔ)言模型在多個(gè)領(lǐng)域表現(xiàn)出色。然而,大多數(shù)評(píng)估基準(zhǔn)中,問(wèn)題描述中提供的所有信息都與問(wèn)題的解決相關(guān),類(lèi)似于考試中的問(wèn)題。這與現(xiàn)實(shí)世界的情況不同,現(xiàn)實(shí)世界中的問(wèn)題通常帶有多個(gè)上下文片段,這些上下文片段可能與我們想要解決的問(wèn)題相關(guān)或不相關(guān)。我們必須在解決問(wèn)題時(shí)識(shí)別哪些信息是必要的。心理學(xué)研究表明,無(wú)關(guān)信息會(huì)顯著降低兒童甚至成人的問(wèn)題解決準(zhǔn)確性。
在本研究中,我們探討了大型語(yǔ)言模型在不同提示技術(shù)下的分心問(wèn)題,即無(wú)關(guān)上下文如何影響大型語(yǔ)言模型的提示效果,以及可以采用哪些策略來(lái)提高性能。為了衡量分心,我們構(gòu)建了GSM-IC數(shù)據(jù)集,該數(shù)據(jù)集基于GSM8K生成,并引入了兩個(gè)不同的指標(biāo)。與以往通過(guò)替換基礎(chǔ)問(wèn)題的句子來(lái)生成基準(zhǔn)變體的工作不同,我們保留了基礎(chǔ)問(wèn)題描述,并添加了一個(gè)無(wú)關(guān)句子,確保它不會(huì)影響問(wèn)題的解決(見(jiàn)表1)。
我們使用GPT3模型系列中的Codex(code-davinci-002)和GPT-3.5(text-davinci-003)來(lái)評(píng)估GSM-IC上的最新提示技術(shù),包括鏈?zhǔn)剿伎继崾荆–OT; Wei等,2022)、零樣本鏈?zhǔn)剿伎继崾荆?-COT; Kojima等,2022)、最少到最多提示(LTM; Zhou等,2022)和程序提示(PROGRAM; Chowdhery等,2022)。我們發(fā)現(xiàn)它們?cè)贕SM-IC上的表現(xiàn)遠(yuǎn)低于原始的GSM8K(不含無(wú)關(guān)上下文)。然后,我們研究了幾種緩解這一弱點(diǎn)的方法,包括自洽性(Wang等,2022c)和在提示示例中添加無(wú)關(guān)信息。除了通過(guò)示例展示如何處理無(wú)關(guān)信息外,我們還研究了任務(wù)特定指令的使用(Wei等,2021; Sanh等,2021; Ouyang等,2022; Suzgun等,2022; Chung等,2022),在示例前添加指令句“請(qǐng)隨意忽略問(wèn)題描述中的無(wú)關(guān)信息”。我們總結(jié)了以下關(guān)鍵發(fā)現(xiàn):
1. 所有調(diào)查的提示技術(shù)都對(duì)問(wèn)題描述中的無(wú)關(guān)信息敏感。特別是,在基線(xiàn)提示可以解決的原始問(wèn)題中,當(dāng)添加少量無(wú)關(guān)信息時(shí),不超過(guò)18%的問(wèn)題能夠一致解決,這表明大型語(yǔ)言模型容易分心,并在添加無(wú)關(guān)信息時(shí)產(chǎn)生不一致的預(yù)測(cè)。
2. 自洽性提高了所有提示技術(shù)在GSM-IC上的性能。特別是,GSM-IC的正確答案的召回率高達(dá)99.7%,即在20個(gè)樣本中至少有一個(gè)解決方案得出正確最終答案,這意味著使用多個(gè)樣本允許模型幾乎總是檢索到正確答案。
3. 在提示中添加無(wú)關(guān)信息始終能提高性能,同樣,添加忽略無(wú)關(guān)上下文的指令也是如此。這表明語(yǔ)言模型在一定程度上可以通過(guò)遵循示例或指令來(lái)學(xué)習(xí)忽略無(wú)關(guān)信息。
4. 我們確定了無(wú)關(guān)信息的不同因素,這些因素影響模型對(duì)無(wú)關(guān)上下文的敏感性。我們的細(xì)分分析表明,改變無(wú)關(guān)信息中的數(shù)字不會(huì)顯著改變模型性能,而與原始問(wèn)題描述的詞匯重疊程度則有影響。
過(guò)濾無(wú)關(guān)信息對(duì)于處理現(xiàn)實(shí)世界任務(wù)至關(guān)重要。我們的評(píng)估表明,盡管在解決具有挑戰(zhàn)性的推理問(wèn)題上表現(xiàn)出色,但最新的語(yǔ)言模型在上下文理解和從輸入中識(shí)別相關(guān)信息方面仍有根本性的弱點(diǎn)。我們的發(fā)現(xiàn)表明,為了更全面地理解語(yǔ)言模型的推理能力,未來(lái)的工作除了解決更具挑戰(zhàn)性的問(wèn)題外,還應(yīng)考慮模型對(duì)無(wú)關(guān)上下文的敏感性。
2. 相關(guān)工作
少樣本提示。 少樣本提示(Brown等,2020; Chowdhery等,2022等)通過(guò)各種技術(shù)得到了顯著提升,包括生成中間步驟(Ling等,2017; Cobbe等,2021; Nye等,2021; Wei等,2022; Suzgun等,2022; Shi等,2022b等)、問(wèn)題分解(Zhou等,2022; Drozdov等,2022; Dohan等,2022; Khot等,2022; Press等,2022等)、生成程序(Austin等,2021; Chowdhery等,2022; Gao等,2022; Chen等,2022等)、對(duì)共享相同結(jié)果的中間步驟進(jìn)行邊緣化(Wang等,2022c; Shi等,2022a)和集成(Wang等,2022b; Drozdov等,2022)。此外,Kojima等(2022)證明,適當(dāng)?shù)奶崾咎崾炯词箾](méi)有示例也能取得不錯(cuò)的性能。在本研究中,我們檢查了這些最新的提示技術(shù)(Wei等,2022; Zhou等,2022; Kojima等,2022; Wang等,2022c)在我們的基準(zhǔn)測(cè)試上的表現(xiàn),并證明它們對(duì)無(wú)關(guān)輸入上下文敏感。
帶有輸入擾動(dòng)的自然語(yǔ)言基準(zhǔn)。 有關(guān)自然語(yǔ)言任務(wù)的輸入擾動(dòng)的長(zhǎng)期工作包括模型無(wú)關(guān)的輸入變換(Liang等,2022; Ravichander等,2022等)和針對(duì)單個(gè)模型的對(duì)抗樣本生成(Jia & Liang,2017; Shi等,2018; Morris等,2020; Wang等,2021)。特別是,先前的工作通過(guò)從干凈數(shù)據(jù)集中改寫(xiě)基礎(chǔ)問(wèn)題的句子來(lái)構(gòu)建算術(shù)推理基準(zhǔn)(Patel等,2021; Kumar等,2021)。與此同時(shí),Liang等(2022)在包括準(zhǔn)確性、魯棒性、公平性等方面的多個(gè)指標(biāo)下評(píng)估了各種大型語(yǔ)言模型。具體來(lái)說(shuō),他們魯棒性評(píng)估中的輸入變換包括注入拼寫(xiě)錯(cuò)誤和修改句子以改變真實(shí)類(lèi)別標(biāo)簽等語(yǔ)義改變擾動(dòng)。與上述工作不同,其中擾動(dòng)可能會(huì)改變問(wèn)題描述的含義,我們保留了原始問(wèn)題描述中的所有句子,并引入了一個(gè)無(wú)關(guān)句子,確保它不會(huì)影響標(biāo)準(zhǔn)答案。
帶有無(wú)關(guān)輸入上下文的自然語(yǔ)言基準(zhǔn)。 Jia & Liang(2017)表明,神經(jīng)問(wèn)答系統(tǒng)在很大程度上受到對(duì)抗性干擾句子的影響,而后續(xù)工作(Khashabi等,2017; Ni等,2019)提出了減輕這一問(wèn)題的學(xué)習(xí)策略。類(lèi)似的問(wèn)題在事實(shí)推理(Kassner & Schütze,2020; Pandia & Ettinger,2021; Misra等,2023; Li等,2022)、代碼生成(Jones & Steinhardt,2022)和句法泛化(Chaves & Richter,2021)等任務(wù)中的一般預(yù)訓(xùn)練語(yǔ)言模型中也被發(fā)現(xiàn)。特別是,Li等(2022)評(píng)估了帶有少樣本提示的T5(Raffel等,2020)和PaLM(Chowdhery等,2022),并提出了知識(shí)感知微調(diào),通過(guò)在反事實(shí)和無(wú)關(guān)上下文中微調(diào)模型來(lái)增強(qiáng)模型對(duì)噪聲上下文的魯棒性。在我們的評(píng)估中,我們表明,即使沒(méi)有訓(xùn)練或微調(diào),通過(guò)在提示中添加無(wú)關(guān)上下文也能減輕底層語(yǔ)言模型的分心問(wèn)題,并顯著提高模型在我們的GSM-IC基準(zhǔn)測(cè)試上的性能。
帶有噪聲真相的提示。 一系列工作研究了模型在帶有錯(cuò)誤提示示例的情況下表現(xiàn),即示例問(wèn)題是與錯(cuò)誤答案配對(duì)的(Min等,2022; Kim等,2022)。此外,先前的工作研究了模型對(duì)提示其他部分的敏感性,例如帶有誤導(dǎo)性和無(wú)關(guān)指令的指令調(diào)整(Webson & Pavlick,2021)以及示例中的錯(cuò)誤推理步驟(Madaan & Yazdanbakhsh,2022; Wang等,2022a)。特別是,Madaan & Yazdanbakhsh(2022)得出結(jié)論,鏈?zhǔn)剿伎继崾局袛?shù)字和方程的正確性并不在模型性能中起關(guān)鍵作用,但在推理步驟中使用錯(cuò)誤實(shí)體或刪除方程或文本解釋會(huì)嚴(yán)重阻礙性能。與這條線(xiàn)的工作不同,我們始終在提示中包含正確答案的示例問(wèn)題,并確保添加到問(wèn)題描述中的無(wú)關(guān)上下文不會(huì)改變地面真相答案。我們表明,當(dāng)問(wèn)題描述中出現(xiàn)無(wú)關(guān)上下文時(shí),模型性能顯著下降,而無(wú)關(guān)上下文中數(shù)字和實(shí)體的不同分布也會(huì)導(dǎo)致不同程度的性能下降。
3. GSM-IC 數(shù)據(jù)集
在本節(jié)中,我們介紹GSM-IC數(shù)據(jù)集的創(chuàng)建過(guò)程(第3.1節(jié))和評(píng)估指標(biāo)(第3.2節(jié))。
3.1. 數(shù)據(jù)集創(chuàng)建
我們從GSM8K訓(xùn)練集中隨機(jī)選擇1,000個(gè)問(wèn)題作為開(kāi)發(fā)集。為了構(gòu)建我們的基礎(chǔ)數(shù)據(jù)集,我們從這個(gè)開(kāi)發(fā)集中選擇100個(gè)問(wèn)題,這些問(wèn)題至少可以通過(guò)本文提到的一種提示技術(shù)正確解決;也就是說(shuō),我們的基礎(chǔ)數(shù)據(jù)集是GSM8K的一個(gè)“簡(jiǎn)單”子集(見(jiàn)表2)。每個(gè)基礎(chǔ)問(wèn)題需要兩到七個(gè)推理步驟來(lái)解決。在100個(gè)基礎(chǔ)問(wèn)題中,60個(gè)問(wèn)題可以通過(guò)兩個(gè)推理步驟解決。完整數(shù)據(jù)集統(tǒng)計(jì)信息見(jiàn)附錄A。
然后,我們通過(guò)向每個(gè)基礎(chǔ)問(wèn)題添加一個(gè)包含無(wú)關(guān)信息的句子來(lái)生成新數(shù)據(jù)集的示例。我們使用基于模板的方法(見(jiàn)圖1)來(lái)生成這些句子,這些句子的特征可以歸納為以下三個(gè)因素:
- 插入句子的話(huà)題。 我們?yōu)橄嚓P(guān)話(huà)題和無(wú)關(guān)話(huà)題的句子編寫(xiě)了模板。相關(guān)話(huà)題的句子與原問(wèn)題的話(huà)題密切相關(guān),而無(wú)關(guān)話(huà)題的句子則涉及不同的內(nèi)容。
- 角色名稱(chēng)重疊。 大多數(shù)句子模板包含一些角色名稱(chēng)的空白,這些空白可以填入與原問(wèn)題描述中的角色名稱(chēng)相同或不同的名稱(chēng)。對(duì)于與原角色名稱(chēng)重疊的空白,我們:(1)從原問(wèn)題描述中隨機(jī)選擇一個(gè)角色名稱(chēng)A,并(2)使用類(lèi)似“A的父親”和“A的妹妹”的模板來(lái)創(chuàng)建空白。
- 數(shù)字范圍。 由于我們關(guān)注的是算術(shù)推理,大多數(shù)句子模板還包含一個(gè)數(shù)字空白。我們可以選擇用與原問(wèn)題描述或解決方案中的數(shù)字相似或不同的數(shù)字來(lái)填充數(shù)字空白。具體來(lái)說(shuō),對(duì)于一個(gè)數(shù)字a,如果存在原問(wèn)題描述或解決方案中的數(shù)字b,使得1/10≤a/b≤10,我們將其視為范圍內(nèi)的數(shù)字;否則,我們將其視為范圍外的數(shù)字。由于GSM8K問(wèn)題的標(biāo)準(zhǔn)答案都是正整數(shù),我們只考慮正整數(shù)作為數(shù)字空白的填充。
我們手動(dòng)驗(yàn)證了以下兩點(diǎn):(1)所有生成的句子在英語(yǔ)中都是可接受的,(2)添加這些句子不會(huì)影響基礎(chǔ)問(wèn)題的標(biāo)準(zhǔn)解決方案。由于上述因素是正交的,我們?yōu)槊總€(gè)基礎(chǔ)示例生成了一組具有不同因素組合的派生示例。完整的GSM-IC基準(zhǔn)測(cè)試包含58,052個(gè)示例。關(guān)于數(shù)據(jù)集創(chuàng)建過(guò)程的更多細(xì)節(jié)可以在附錄A中找到。
3.2. 評(píng)估指標(biāo)
對(duì)于一個(gè)問(wèn)題p,我們用s(p)表示其標(biāo)準(zhǔn)解決方案,用M(p)表示方法M的解決方案。為了評(píng)估方法M的分心程度,我們考慮以下兩個(gè)指標(biāo):
- 微精度(Micro Accuracy) Accmicro(M; P) 是方法M在所有測(cè)試問(wèn)題P上的平均精度。
這意味著微精度將所有單個(gè)測(cè)試問(wèn)題同等對(duì)待。
- 宏精度(Macro Accuracy) Accmacro(M; B) 是方法M在測(cè)試問(wèn)題類(lèi)上的平均精度,其中每個(gè)類(lèi)P(b)由基礎(chǔ)示例b ∈ B的所有測(cè)試示例組成。我們定義方法M對(duì)類(lèi)P(b)的預(yù)測(cè)為正確,當(dāng)且僅當(dāng)M對(duì)類(lèi)中的所有問(wèn)題的預(yù)測(cè)都正確。
這意味著宏精度是基礎(chǔ)問(wèn)題中無(wú)論添加了什么無(wú)關(guān)句子都能一致解決的比率。
- 歸一化精度 衡量方法受干擾因素影響的程度,考慮其在基礎(chǔ)問(wèn)題上的精度。對(duì)于方法M在微精度或宏精度上達(dá)到的精度aM,我們通過(guò)以下公式計(jì)算相應(yīng)的歸一化精度:
其中,nM表示方法M在基礎(chǔ)問(wèn)題上的精度(見(jiàn)表2)。
4. 調(diào)查的解決方案
在以下部分,我們回顧了調(diào)查的提示技術(shù)(第4.1節(jié)),介紹了我們的提示格式(第4.2節(jié)),并引入了指令式提示(第4.3節(jié))。
4.1. 基礎(chǔ)技術(shù)
- 鏈?zhǔn)剿伎继崾荆–OT; Wei等,2022) 是一種引導(dǎo)語(yǔ)言模型以逐步方式解決問(wèn)題的提示技術(shù)。通過(guò)在提示中展示帶有中間推理步驟的示例,COT顯著提高了推理性能,優(yōu)于不帶中間推理步驟的直接答案預(yù)測(cè)。
- 零樣本鏈?zhǔn)剿伎继崾荆?-COT; Kojima等,2022) 是COT的一種變體,提示中不包含任何示例。相反,模型直接被呈現(xiàn)感興趣的問(wèn)題,后面跟著指令“讓我們一步一步思考:”。
- 最少到最多提示(LTM; Zhou等,2022) 教授語(yǔ)言模型將問(wèn)題分解為子問(wèn)題,并使用COT依次解決這些子問(wèn)題。最終答案是最后一個(gè)子問(wèn)題的答案。
- 程序提示(PROGRAM; Chowdhery等,2022) 將算術(shù)推理過(guò)程表示為程序。根據(jù)先前在GSM8K問(wèn)題中使用代碼的工作(Chowdhery等,2022; Gao等,2022; Chen等,2022),我們?cè)谔崾局邪私鉀Q問(wèn)題的Python程序,并使用外部Python解釋器執(zhí)行生成的Python代碼以獲得最終答案。
- 自洽性(SC; Wang等,2022c; Shi等,2022a) 可以通過(guò)考慮具有相同最終結(jié)果的多個(gè)推理步驟來(lái)進(jìn)一步提高推理性能。實(shí)際上,SC可以通過(guò)(1)從大型語(yǔ)言模型中采樣多個(gè)解決方案并(2)取多數(shù)投票來(lái)實(shí)現(xiàn)。注意,SC與上述技術(shù)正交,可以與任何技術(shù)結(jié)合使用。
4.2. 提示設(shè)計(jì)
我們展示了實(shí)驗(yàn)中使用的一些示例提示(見(jiàn)圖2)。對(duì)于少樣本提示技術(shù)(即COT、LTM和PROGRAM),輸入提示在感興趣的問(wèn)題之前包含示例問(wèn)題及其解決方案。為了保持簡(jiǎn)單并避免提示工程中的過(guò)擬合,我們遵循Zhou等(2022)的示例創(chuàng)建方法;也就是說(shuō),我們只使用一個(gè)簡(jiǎn)單的示例進(jìn)行主要實(shí)驗(yàn)。這個(gè)示例要么基于[原始問(wèn)題],要么基于[帶有無(wú)關(guān)上下文的問(wèn)題],這使我們能夠調(diào)查提示示例中無(wú)關(guān)信息的影響。對(duì)于0-COT,我們遵循Kojima等(2022)的方法,直接呈現(xiàn)感興趣的問(wèn)題,后面跟著“A: 讓我們一步一步思考:”。
圖2.右側(cè)所列技術(shù)的提示格式,這些格式由左側(cè)的構(gòu)建模塊精心構(gòu)建(彩色顯示效果更佳)。通過(guò)在原始問(wèn)題描述中添加一個(gè)無(wú)關(guān)的句子(斜體并下劃線(xiàn)),我們得到了[帶有無(wú)關(guān)上下文的問(wèn)題],這可以作為右側(cè)提示中[原始問(wèn)題]的替代選項(xiàng)。在這些提示中,用括號(hào)突出顯示的標(biāo)識(shí)符(例如,[感興趣的問(wèn)題])將被相應(yīng)構(gòu)建模塊的內(nèi)容所替換。所有設(shè)置的提示格式詳見(jiàn)附錄C。
4.3. 指令式提示
除了在示例中呈現(xiàn)無(wú)關(guān)信息外,我們還調(diào)查了自然語(yǔ)言指令是否有助于語(yǔ)言模型忽略無(wú)關(guān)上下文,減少分心。擴(kuò)展了包括在示例之前添加一般任務(wù)描述的工作(Suzgun等,2022; Sanh等,2021; Ouyang等,2022),我們?cè)谔崾局械氖纠疤砑恿司渥印敖鉀Q小學(xué)數(shù)學(xué)問(wèn)題。請(qǐng)隨意忽略問(wèn)題中的無(wú)關(guān)信息。”,這明確指示語(yǔ)言模型忽略問(wèn)題描述中的無(wú)關(guān)信息。
5. 實(shí)驗(yàn)
考慮到實(shí)驗(yàn)成本,我們從GSM-IC數(shù)據(jù)集中均勻采樣了4,000個(gè)示例(記為GSM-IC-4K),用于整個(gè)論文的評(píng)估和分析。除非另有說(shuō)明,我們主要在實(shí)驗(yàn)中使用code-davinci-002,并評(píng)估了經(jīng)過(guò)RLHF訓(xùn)練以更好地遵循指令的text-davinci-003(Ouyang等,2022)。對(duì)于沒(méi)有自洽性解碼的實(shí)驗(yàn),我們使用貪婪解碼(即溫度τ = 0);對(duì)于需要多個(gè)樣本的自洽性實(shí)驗(yàn),我們按照Wang等(2022c)的方法,使用溫度τ = 0.7采樣20個(gè)響應(yīng)。
5.1. 主要結(jié)果在GSM-IC上
我們?cè)贕SM-IC-4K上比較了不同提示技術(shù)的性能(見(jiàn)表3),包括微精度和宏精度及其相應(yīng)的歸一化精度??傮w而言,我們觀察到所有提示技術(shù)在兩個(gè)模型上的性能都有顯著下降。宏精度的下降尤為顯著,表明在添加干擾因素后,不到30%的基礎(chǔ)問(wèn)題能夠一致解決。比較兩個(gè)模型的結(jié)果,text-davinci-003在歸一化微精度上優(yōu)于code-davinci-002,盡管其宏精度大多更差。在圖3中,我們展示了GSM-IC-4K中的一個(gè)示例,其中單個(gè)無(wú)關(guān)句子在調(diào)查的提示技術(shù)中引發(fā)了不同類(lèi)型的錯(cuò)誤。一個(gè)常見(jiàn)的錯(cuò)誤類(lèi)型是錯(cuò)誤地使用了無(wú)關(guān)句子中的數(shù)字,如LTM預(yù)測(cè)和其他附錄B中的示例所示。即使模型沒(méi)有直接使用無(wú)關(guān)數(shù)字進(jìn)行數(shù)值計(jì)算,無(wú)關(guān)句子僅出現(xiàn)在推理步驟中也會(huì)導(dǎo)致錯(cuò)誤預(yù)測(cè),如COT預(yù)測(cè)所示。
表 3. GSM-IC-4K 數(shù)據(jù)集上的微觀準(zhǔn)確率(Micro Accuracy)和宏觀準(zhǔn)確率(Macro Accuracy)(×100 表示百分比)。SC 表示自一致性(self-consistency)。Norm 表示通過(guò)已解決的基礎(chǔ)問(wèn)題比例(表 2)歸一化的總體準(zhǔn)確率,這是衡量模型針對(duì)無(wú)關(guān)信息魯棒性的一項(xiàng)指標(biāo)。對(duì)于 text-davinci-003 模型,使用鏈?zhǔn)剿季S(COT)的基礎(chǔ)問(wèn)題準(zhǔn)確率為 80.0,使用逐步解決法(LTM)的基礎(chǔ)問(wèn)題準(zhǔn)確率為 81.0。在每一部分中(即使用 code-davinci-002 或 text-davinci-003,是否使用帶有無(wú)關(guān)上下文的示例,或是否應(yīng)用自一致性),每列的最佳結(jié)果以加粗字體表示。
圖 3. 使用不同提示技術(shù)的示例問(wèn)題及其對(duì)應(yīng)輸出(彩色查看效果最佳)。原始問(wèn)題的 COT 答案用綠色高亮表示。新增的無(wú)關(guān)句子用紅色高亮并采用斜體顯示,這些無(wú)關(guān)信息導(dǎo)致了所有提示技術(shù)產(chǎn)生不同的錯(cuò)誤,這些錯(cuò)誤用黃色高亮表示。更多模型預(yù)測(cè)的示例可以在附錄 B 中找到。
在表3中,我們總結(jié)了不同提示技術(shù)在GSM-IC-4K數(shù)據(jù)集上的微精度和宏精度。LTM在所有子類(lèi)別中表現(xiàn)最為穩(wěn)健。使用code-davinci-002時(shí),LTM的宏精度約為COT的兩倍。然而,使用text-davinci-003時(shí),盡管LTM在微精度上優(yōu)于COT,但其宏精度較低。具體而言,text-davinci-003對(duì)角色重疊的無(wú)關(guān)上下文高度敏感,導(dǎo)致在需要超過(guò)兩個(gè)推理步驟的問(wèn)題上,宏精度降至0。表4進(jìn)一步展示了不同無(wú)關(guān)上下文因素的細(xì)分性能。
表 4. 針對(duì)添加的無(wú)關(guān)句子因素的準(zhǔn)確率分解(×100 表示百分比)。較低的準(zhǔn)確率表明模型對(duì)相應(yīng)類(lèi)型的無(wú)關(guān)上下文更脆弱。需要注意的是,此處的宏觀平均準(zhǔn)確率高于表 3 中報(bào)告的對(duì)應(yīng)值,因?yàn)槲覀儍H包含了一部分創(chuàng)建的問(wèn)題(即與相關(guān)因素對(duì)應(yīng)的問(wèn)題)來(lái)計(jì)算該指標(biāo)。每列的最佳結(jié)果以加粗字體表示。
5.2. 細(xì)分分析
5.2.1. 無(wú)關(guān)上下文的因素?
我們分析了COT、LTM和PROGRAM在考慮的無(wú)關(guān)句子因素(第3.1節(jié))上的性能(見(jiàn)表4)。對(duì)于兩個(gè)模型,我們發(fā)現(xiàn)(1)相關(guān)話(huà)題句子與(2)角色名稱(chēng)重疊和(3)范圍內(nèi)的數(shù)字結(jié)合時(shí),通常更具挑戰(zhàn)性,如圖3所示。對(duì)于LTM,后兩個(gè)因素對(duì)微精度的影響不大,但對(duì)宏精度的影響顯著。值得注意的是,使用示例中的無(wú)關(guān)上下文時(shí),使用范圍內(nèi)數(shù)字的干擾因素比范圍外數(shù)字的干擾因素更具挑戰(zhàn)性。再次使用code-davinci-002時(shí),LTM在所有子類(lèi)別中優(yōu)于COT和PROGRAM。
5.2.2. 按推理步驟細(xì)分的精度?
我們分析了不同推理步驟問(wèn)題的細(xì)分精度(見(jiàn)圖4)。雖然我們?cè)谛枰膫€(gè)或更多推理步驟的問(wèn)題上觀察到COT和PROGRAM的精度顯著下降,但LTM的性能在不同難度水平上保持一致。除了Zhou等(2022)證明的LTM在復(fù)雜問(wèn)題上的優(yōu)勢(shì)外,我們的結(jié)果表明,LTM對(duì)需要更多步驟解決的復(fù)雜問(wèn)題中的無(wú)關(guān)上下文也較少敏感。
5.3. 指令式提示提高了對(duì)無(wú)關(guān)上下文的魯棒性
我們已經(jīng)證明,使用帶有干擾因素的示例可以提高對(duì)無(wú)關(guān)上下文的魯棒性。我們還在表3中比較了指令式提示和沒(méi)有指令的提示的性能。向COT、LTM和PROGRAM添加指令始終提高了它們的性能。令人驚訝的是,對(duì)于COT和LTM,使用原始示例的指令式提示達(dá)到了與使用帶有干擾因素的示例的無(wú)指令提示相當(dāng)甚至更好的性能。需要注意的是,僅添加指令“解決小學(xué)數(shù)學(xué)問(wèn)題?!辈⒉粫?huì)顯著提高性能;而是指令“請(qǐng)隨意忽略問(wèn)題中的無(wú)關(guān)信息?!逼鸬搅岁P(guān)鍵作用。類(lèi)似于0-COT中使用的指令“讓我們一步一步思考?!保@表明語(yǔ)言模型在一定程度上能夠遵循自然語(yǔ)言指令,顯著改變其解決問(wèn)題的行為,這表明此類(lèi)指令可能對(duì)指導(dǎo)語(yǔ)言模型在更多任務(wù)上的行為有用。
在原始的GSM8K開(kāi)發(fā)集(Cobbe等,2021; Zhou等,2022)上,我們沒(méi)有觀察到在使用帶有無(wú)關(guān)信息的示例、添加自然語(yǔ)言指令或兩者結(jié)合時(shí)精度下降(見(jiàn)表5)。這令人印象深刻,因?yàn)镚SM-IC的結(jié)果表明,提示中的示例和指令式提示都提高了魯棒性。對(duì)于PROGRAM提示,我們發(fā)現(xiàn)使用帶有干擾因素的示例甚至在SVAMP上提高了性能。
表 5. 在 GSM8K 開(kāi)發(fā)集和 SVAMP 測(cè)試集上的準(zhǔn)確率(×100 表示百分比)。IRRCTX 表示使用無(wú)關(guān)上下文,+INST. 表示使用指令提示(instructed prompting)?;鶞?zhǔn)結(jié)果(即使用最簡(jiǎn)單的示例且無(wú)無(wú)關(guān)上下文或指令提示的情況)用下劃線(xiàn)標(biāo)注。
5.4. 復(fù)雜提示可能損害對(duì)無(wú)關(guān)上下文的魯棒性
我們將1-exemplarCOT提示(見(jiàn)圖2)與Zhou等(2022)報(bào)告的在GSM8K上表現(xiàn)最佳的4-示例提示(附錄D)進(jìn)行了比較。雖然4-exemplar提示在原始的GSM8K開(kāi)發(fā)集上表現(xiàn)更好,但該提示在無(wú)關(guān)上下文提供的干擾上出乎意料地更敏感。特別是,4-exemplar提示在需要超過(guò)兩個(gè)中間步驟的問(wèn)題上始終比1-exemplar提示表現(xiàn)更差。即使對(duì)于2步提示,從添加更多示例中獲得的精度提升也幾乎可以忽略不計(jì),當(dāng)使用指令時(shí)(79.0 vs 79.2)。總體而言,這一發(fā)現(xiàn)表明,添加更多示例會(huì)使提示更不魯棒,因?yàn)樗鼘?dǎo)致了一些過(guò)擬合。
5.5. 擴(kuò)展到DROP
除了GSM-IC外,我們還將評(píng)估擴(kuò)展到DROP數(shù)據(jù)集(Dua等,2019),其中任務(wù)是根據(jù)包含無(wú)關(guān)上下文的長(zhǎng)段落回答問(wèn)題。我們展示了關(guān)于足球比賽的示例(見(jiàn)表8)。
我們使用Zhou等(2022)中的COT和LTM提示作為基線(xiàn),并評(píng)估了在示例之前添加指令“根據(jù)以下問(wèn)題回答。請(qǐng)隨意忽略問(wèn)題中的無(wú)關(guān)信息。”的提示變體。需要注意的是,通過(guò)在示例解決方案中添加問(wèn)題簡(jiǎn)化步驟,最少到最多提示隱含地引導(dǎo)模型提出相關(guān)子問(wèn)題來(lái)解決給定問(wèn)題。同樣,我們觀察到指令在DROP的足球分割上始終提高了COT和LTM提示的性能(見(jiàn)表7)。
6. 結(jié)論和討論
在本研究中,我們介紹了GSM-IC,這是一個(gè)支持全面研究大型語(yǔ)言模型在存在無(wú)關(guān)上下文時(shí)的分心問(wèn)題的數(shù)據(jù)集。我們?cè)贕SM-IC上檢查了各種提示技術(shù),并證明了它們都對(duì)問(wèn)題中的無(wú)關(guān)信息敏感。在研究的技術(shù)中,自洽性(Wang等,2022c)在普遍提高對(duì)無(wú)關(guān)上下文的魯棒性方面取得了實(shí)質(zhì)性進(jìn)展,展示示例中的無(wú)關(guān)上下文也始終提高了性能。同樣,我們發(fā)現(xiàn)簡(jiǎn)單地添加忽略無(wú)關(guān)信息的指令在我們的基準(zhǔn)測(cè)試上帶來(lái)了顯著的性能提升。
盡管通過(guò)這些方法取得了改進(jìn),但一個(gè)根本問(wèn)題仍然存在:一個(gè)單一的無(wú)關(guān)信息可以分散模型的注意力,并顯著降低其性能,即使在它們正確解決的清潔版本上也是如此。我們鼓勵(lì)研究人員在開(kāi)發(fā)新的訓(xùn)練和提示技術(shù)時(shí),也優(yōu)先考慮改進(jìn)這一根本限制。我們將在未來(lái)的工作中進(jìn)一步調(diào)查其他任務(wù)和不同語(yǔ)言模型的分心問(wèn)題。
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:Freda Shi等
原文鏈接:??https://mp.weixin.qq.com/s/VsHVfJFx9PCnZ2WGRNxdXw???
