多種思維鏈-CoT
思維鏈(Chain-of-Thought, CoT)是一種通過(guò)逐步推理來(lái)解決復(fù)雜問(wèn)題的技術(shù),近年來(lái)在大型語(yǔ)言模型(LLMs)中得到了廣泛應(yīng)用。CoT通過(guò)將復(fù)雜問(wèn)題分解為一系列可管理的步驟,并建立這些步驟之間的邏輯聯(lián)系,顯著提高了模型的推理能力和可解釋性。
初步知識(shí)
在本節(jié)中,我們提供了標(biāo)準(zhǔn)提示和思維鏈推理的初步知識(shí)。定義以下符號(hào):?jiǎn)栴} Q、提示T 、概率語(yǔ)言模型PLM 和預(yù)測(cè)A 。
少樣本標(biāo)準(zhǔn)提示
少樣本思維鏈提示
思維鏈推理的優(yōu)勢(shì)
作為一種新穎的推理范式,思維鏈推理具有多種優(yōu)勢(shì):
- 提升推理能力:思維鏈推理將復(fù)雜問(wèn)題分解為可管理的步驟,并建立這些步驟之間的聯(lián)系,從而促進(jìn)推理。
- 提供可解釋性:思維鏈推理提供可觀察的推理軌跡,使用戶能夠理解模型的決策過(guò)程,使推理過(guò)程透明且可信。
- 促進(jìn)協(xié)作:細(xì)粒度的推理軌跡促進(jìn)用戶與系統(tǒng)的交互,允許用戶改變模型的執(zhí)行軌跡,從而促進(jìn)基于LLM的自主代理的發(fā)展。
通過(guò)上述初步知識(shí),介紹了標(biāo)準(zhǔn)提示和思維鏈提示的基本概念和公式。思維鏈推理通過(guò)逐步推理的方式顯著提高了模型的推理能力,并提供了可解釋性和協(xié)作優(yōu)勢(shì)。這些初步知識(shí)為進(jìn)一步探討思維鏈推理的先進(jìn)方法和應(yīng)用奠定了基礎(chǔ)。
思維鏈方法
1.Few-shot CoT
Few-shot CoT 通過(guò)提供少量的示例來(lái)激發(fā)大型語(yǔ)言模型(LLM)的推理能力。這種方法的核心在于,不僅僅給出問(wèn)題的答案,還要展示出推導(dǎo)答案的思維過(guò)程,即“思維鏈”。這樣,模型可以學(xué)習(xí)到如何通過(guò)一系列邏輯步驟來(lái)解決新的問(wèn)題。Few-shot CoT通常需要在提示中包含問(wèn)題的推導(dǎo)過(guò)程,讓模型學(xué)會(huì)如何進(jìn)行推理。
2. PAL(Program-Aided Language Models)
它的核心思想是利用大型語(yǔ)言模型(LLMs)來(lái)閱讀自然語(yǔ)言問(wèn)題,并生成程序作為中間推理步驟,然后將求解步驟外包給運(yùn)行時(shí)環(huán)境,例如Python解釋器。這樣,LLMs只需要負(fù)責(zé)將自然語(yǔ)言問(wèn)題分解成可執(zhí)行的步驟,而具體的求解任務(wù)則由解釋器來(lái)完成。
3. PoT(Program of Thoughts)
它旨在解決復(fù)雜的數(shù)值推理任務(wù)。這種方法通過(guò)使用語(yǔ)言模型(主要是Codex)來(lái)表達(dá)推理過(guò)程作為程序,將計(jì)算從推理中分離出來(lái),由外部計(jì)算機(jī)執(zhí)行生成的程序以得出答案。
4. MathPrompter
MathPrompter是一種用于提高大型語(yǔ)言模型(LLMs)在解決算術(shù)推理任務(wù)時(shí)性能的技術(shù)。這項(xiàng)技術(shù)的核心思想是利用零樣本鏈?zhǔn)剿伎迹╖ero-shot chain-of-thought)提示技術(shù),生成多個(gè)代數(shù)表達(dá)式或Python函數(shù)來(lái)解決同一個(gè)數(shù)學(xué)問(wèn)題,從而提高輸出結(jié)果的置信度。與傳統(tǒng)的基于提示的方法不同,MathPrompter會(huì)檢查中間步驟的有效性。
具體來(lái)說(shuō),MathPrompter的工作流程包括以下幾個(gè)步驟:
- 生成代數(shù)模板:將問(wèn)題轉(zhuǎn)化為代數(shù)形式,用變量替換數(shù)值,并建立關(guān)鍵值映射。
- 數(shù)學(xué)提示:使用兩種不同的方法——代數(shù)方法和Python方法——來(lái)生成問(wèn)題的解析解。通過(guò)給LLM提供提示,讓它生成額外的上下文。
代數(shù)提示:要求LLM寫出數(shù)學(xué)方程,并以“Answer =”格式生成答案。
Python提示:要求LLM寫出一個(gè)返回答案的Python函數(shù)。
- 多驗(yàn)證和交叉檢查:通過(guò)從多個(gè)角度解決問(wèn)題并比較結(jié)果,來(lái)確認(rèn)解決方案的有效性,并確保其合理性和準(zhǔn)確性。
MathPrompter的一個(gè)限制是,盡管通過(guò)多次運(yùn)行來(lái)提高結(jié)果的準(zhǔn)確性,但這并不能總是保證輸出的正確性。代數(shù)和Python表達(dá)式都有可能產(chǎn)生錯(cuò)誤的結(jié)果,即使提示輸出匹配。
5. Complex CoT(Complexity-CoT)
它是一種針對(duì)Chain-of-Thought(CoT)提示方法的改進(jìn),旨在通過(guò)挑選合適的示例(exemplar)來(lái)引導(dǎo)大型語(yǔ)言模型進(jìn)行更有效的推理。這種方法的核心思想是,如果作為上下文“訓(xùn)練示例”的推理路徑足夠復(fù)雜,那么在這些示例組成的提示下引導(dǎo)大模型推理的效果會(huì)更好。
6. Zero-shot CoT(Zero-shot Chain-of-Thought)
它允許模型在沒(méi)有額外訓(xùn)練或示例的情況下,通過(guò)一系列邏輯推理步驟來(lái)解決復(fù)雜問(wèn)題。這種方法的核心在于,通過(guò)在問(wèn)題前添加特定的提示(例如“Let’s think step by step!”),激發(fā)模型的邏輯推理能力,使其能夠生成解決問(wèn)題的中間步驟。
7. Plan-and-Solve(PS)
Plan-and-Solve(PS)是一種用于提升大型語(yǔ)言模型(LLMs)在多步推理任務(wù)中表現(xiàn)的提示策略。
- 目的與組成: Plan-and-Solve(PS)提示策略旨在解決Zero-shot-CoT(零樣本鏈?zhǔn)剿季S)推理中存在的問(wèn)題,如計(jì)算錯(cuò)誤、缺失步驟錯(cuò)誤和語(yǔ)義誤解錯(cuò)誤。PS提示策略包含兩個(gè)主要部分:首先,制定一個(gè)計(jì)劃將整個(gè)任務(wù)分解為更小的子任務(wù);其次,根據(jù)計(jì)劃執(zhí)行這些子任務(wù)。
- PS與PS+提示:
(1)PS提示:這是一種新的Chain-of-Thought提示方法,它使LLMs能夠明確地設(shè)計(jì)解決問(wèn)題的計(jì)劃,并在預(yù)測(cè)輸入問(wèn)題的答案之前生成中間推理過(guò)程。
(2)PS+提示:為了解決計(jì)算錯(cuò)誤并提高生成的推理步驟的質(zhì)量,PS提示策略被擴(kuò)展為PS+提示策略,其中增加了更詳細(xì)的指令,如“注意計(jì)算”、“提取相關(guān)變量及其對(duì)應(yīng)的數(shù)值”以及“計(jì)算中間結(jié)果”。
Plan-and-Solve通過(guò)引導(dǎo)LLMs制定詳細(xì)的計(jì)劃并執(zhí)行該計(jì)劃,提高了LLMs在復(fù)雜推理任務(wù)上的性能,減少了由于計(jì)算錯(cuò)誤或遺漏關(guān)鍵信息而導(dǎo)致的錯(cuò)誤。
8. Auto-CoT
Auto-CoT(Automatic Chain of Thought Prompting in Large Language Models)是一種自動(dòng)化構(gòu)建大模型演示的方法,旨在提高大型語(yǔ)言模型(LLMs)在復(fù)雜推理任務(wù)中的表現(xiàn)。這種方法通過(guò)采樣豐富的問(wèn)題并生成相應(yīng)的推理鏈來(lái)構(gòu)建演示,實(shí)驗(yàn)結(jié)果表明,Auto-CoT能夠達(dá)到甚至超過(guò)手工設(shè)計(jì)的演示效果。
Auto-CoT的核心思想是利用大型語(yǔ)言模型的能力,通過(guò)自動(dòng)化流程來(lái)構(gòu)建“讓我們一步步思考”的思維過(guò)程,從而避免手動(dòng)設(shè)計(jì)思維鏈帶來(lái)的巨大工作量。它包括兩個(gè)主要階段:聚類和抽樣。首先,將給定數(shù)據(jù)集的問(wèn)題劃分為幾個(gè)簇;然后,從每個(gè)簇中選擇一個(gè)代表性問(wèn)題,并使用簡(jiǎn)單的啟發(fā)式方法使用Zero-Shot-CoT生成其推理鏈。
Auto-CoT的實(shí)現(xiàn)方法主要依賴于問(wèn)題向量表示、聚類算法和范例構(gòu)建。使用Sentence-BERT對(duì)問(wèn)題進(jìn)行編碼,然后使用K-means等聚類算法根據(jù)問(wèn)題的向量表示進(jìn)行聚類,最后選擇距離聚類中心近的問(wèn)題,并生成推理鏈。
在實(shí)際應(yīng)用中,Auto-CoT技術(shù)適用于各種需要復(fù)雜推理的任務(wù),如數(shù)學(xué)計(jì)算、問(wèn)題解答和零樣本學(xué)習(xí)。它可以顯著提高模型在解決這些問(wèn)題時(shí)的透明度和準(zhǔn)確性,對(duì)于教育、搜索引擎優(yōu)化和智能家居等領(lǐng)域的應(yīng)用有著巨大的潛力。
9. Reprompting
Reprompting是一種自動(dòng)化的鏈?zhǔn)剿伎继崾就茢嗨惴?,它通過(guò)吉布斯采樣(Gibbs sampling)來(lái)自動(dòng)學(xué)習(xí)給定任務(wù)的CoT配方,無(wú)需人工干預(yù)。該算法通過(guò)迭代采樣新配方,使用先前采樣的配方作為父提示來(lái)解決其他訓(xùn)練問(wèn)題,從而推斷出對(duì)于一組訓(xùn)練樣本始終有效的CoT配方。
Reprompting的核心思想是通過(guò)迭代采樣來(lái)發(fā)現(xiàn)有效的CoT提示,這些提示可以在訓(xùn)練集上優(yōu)化,并作為解決未見(jiàn)測(cè)試問(wèn)題的有效CoT提示。這種方法使得大型語(yǔ)言模型(LLMs)能夠在沒(méi)有人工指導(dǎo)的情況下解決復(fù)雜的推理任務(wù)。Reprompting還支持模型組合,即使用不同的LLMs來(lái)初始化和采樣新的配方,這可以通過(guò)使用一個(gè)更強(qiáng)的LLM來(lái)生成初始CoT解決方案,然后使用一個(gè)較弱的LLM來(lái)優(yōu)化自身提示,從而顯著提高較弱模型的性能。
10. Agent-Instruct
Agent-Instruct是一個(gè)可擴(kuò)展的代理框架,用于自動(dòng)創(chuàng)建大量多樣化和高質(zhì)量的合成數(shù)據(jù)。這個(gè)框架專注于創(chuàng)建示范和反饋數(shù)據(jù),只需要原始文檔作為輸入。它被設(shè)計(jì)用于“生成教學(xué)”(Generative Teaching),即通過(guò)強(qiáng)大的模型創(chuàng)建數(shù)據(jù)來(lái)教授另一個(gè)模型新技能或行為。
主要流程:
- 種子收集(Seed Collection):收集各種初始資源,如教科書章節(jié)、網(wǎng)絡(luò)文章和代碼片段,作為創(chuàng)建新指令的基礎(chǔ)材料。
- 內(nèi)容轉(zhuǎn)換(Content Transformation):專業(yè)代理處理每個(gè)種子,將其轉(zhuǎn)換為便于創(chuàng)建指令的中間形式。
- 種子指令生成(Seed Instruction Generation):多個(gè)代理使用轉(zhuǎn)換后的種子生成廣泛的指令。
- 指令優(yōu)化(Instruction Refinement):通過(guò)迭代過(guò)程提高生成指令的復(fù)雜性和質(zhì)量。
Agent-Instruct通過(guò)自動(dòng)化流程生成高質(zhì)量的合成數(shù)據(jù),用于后訓(xùn)練語(yǔ)言模型,以教授新技能或行為,從而提高模型在各種任務(wù)上的性能。
11. MetaCoT
MetaCoT是一種在混合任務(wù)場(chǎng)景中提升大型語(yǔ)言模型(LLMs)泛化能力的方法。它通過(guò)思維鏈(CoT)提示技術(shù),生成中間推理鏈作為得出答案的依據(jù)。MetaCoT的核心思想是彌補(bǔ)CoT提示方法在使用LLMs時(shí)的性能與泛化之間的差距。MetaCoT主要包括三個(gè)階段:場(chǎng)景識(shí)別、示例選擇和答案推導(dǎo)。
- 場(chǎng)景識(shí)別(Scenario Identification):這個(gè)階段通過(guò)抽樣不同的問(wèn)題作為上下文學(xué)習(xí)示例,幫助自動(dòng)根據(jù)輸入問(wèn)題分類場(chǎng)景。
- 示例選擇(Demonstration Selection):根據(jù)第一階段獲得的場(chǎng)景,從池中構(gòu)建多樣化的示例。
- 答案推導(dǎo)(Answer Derivation):這個(gè)階段使用先前獲取的示例對(duì)輸入問(wèn)題進(jìn)行最終的答案推斷。
12. COSP
COSP(Consistency-based Self-Adaptive Prompting)是由Wan等人在2023年提出的一種用于改善零樣本(zero-shot)鏈?zhǔn)酵评恚╟hain-of-thought reasoning)的方法。這種方法的核心在于它不需要手工制作的響應(yīng)或真實(shí)標(biāo)簽,而是通過(guò)從大型語(yǔ)言模型(LLM)的零樣本輸出中選擇和構(gòu)建示例集。COSP通過(guò)結(jié)合一致性、多樣性和重復(fù)性的標(biāo)準(zhǔn)來(lái)選擇示例。
COSP使用答案熵作為選擇標(biāo)準(zhǔn)之一,其思想是利用熵的概念來(lái)衡量答案的不確定性或多樣性。在COSP中,答案熵被用作一個(gè)代理指標(biāo),用于評(píng)估不同任務(wù)中答案的正確性,其中低熵與正確性正相關(guān)。具體來(lái)說(shuō),COSP在第一階段執(zhí)行零樣本推理,并計(jì)算歸一化熵,以評(píng)估不同解碼路徑產(chǎn)生的預(yù)測(cè)的一致性。歸一化熵是通過(guò)計(jì)算預(yù)測(cè)答案的分布的熵來(lái)得到的,如果所有預(yù)測(cè)都不同,則熵達(dá)到最大值;如果預(yù)測(cè)集中,則熵值較低。通過(guò)這種方式,COSP能夠識(shí)別出那些具有高一致性(即低熵)的預(yù)測(cè),并將它們作為構(gòu)建示例集的候選。
總結(jié)來(lái)說(shuō),COSP通過(guò)答案熵來(lái)評(píng)估LLM輸出的一致性,并基于此來(lái)選擇用于構(gòu)建示例集的答案,從而提高零樣本推理的性能。
13. LogiCoT
LogiCoT(Logical Chain-of-Thought Instruction-Tuning)是一種新的指令調(diào)整數(shù)據(jù)集,專為GPT-4設(shè)計(jì)的邏輯鏈?zhǔn)酵评砟芰?。它旨在通過(guò)一系列指令來(lái)提升模型的邏輯推理能力,這些指令能夠引導(dǎo)GPT-4生成鏈?zhǔn)酵评淼睦碛?。LogiCoT的核心在于利用GPT-4的能力來(lái)生成高質(zhì)量的輸出,這些輸出既包含符號(hào)推理也包含多步驟的鏈?zhǔn)酵评?,為增?qiáng)AI模型的邏輯推理能力提供了一個(gè)全面而細(xì)致的資源。
LogiCoT的構(gòu)建是一個(gè)多階段的過(guò)程,它使用GPT-4作為一個(gè)教學(xué)助手。首先,選擇合適的種子數(shù)據(jù),這些數(shù)據(jù)包含正確的輸出和可選的鏈?zhǔn)酵评礞湣H缓?,將這些任務(wù)轉(zhuǎn)化為清晰、明確的提示,以激發(fā)GPT-4的邏輯推理能力。接著,將種子數(shù)據(jù)和相應(yīng)的指令結(jié)合起來(lái),輸入到GPT-4中以生成響應(yīng)。GPT-4的輸出由正確的標(biāo)簽和推理鏈引導(dǎo),最終使用正確的輸出和GPT-4的響應(yīng)作為指令數(shù)據(jù)。
LogiCoT通過(guò)指令調(diào)整方案對(duì)LLaMA-7b模型進(jìn)行了微調(diào),結(jié)果表明,與最先進(jìn)的指令調(diào)整模型相比,LogiCoT在邏輯推理基準(zhǔn)測(cè)試和以人為中心的基準(zhǔn)測(cè)試上都顯示出顯著的性能提升。這項(xiàng)工作與最近的研究表明,當(dāng)小型語(yǔ)言模型專門針對(duì)目標(biāo)鏈?zhǔn)酵评砣蝿?wù)時(shí),它們可以實(shí)現(xiàn)競(jìng)爭(zhēng)性的多步推理能力。
總的來(lái)說(shuō),LogiCoT通過(guò)結(jié)合邏輯推理和GPT-4的生成能力,為AI系統(tǒng)在邏輯推理任務(wù)上的能力提升設(shè)定了新的標(biāo)準(zhǔn)。
14.Role-Play Prompting
Role-Play Prompting(角色扮演提示)是一種提示方法,它通過(guò)給大型語(yǔ)言模型(LLMs)分配一個(gè)角色,如“老師”或“銷售員”,來(lái)指導(dǎo)響應(yīng)的風(fēng)格、語(yǔ)氣和焦點(diǎn)。這種方法可以增強(qiáng)文本的清晰度和準(zhǔn)確性,通過(guò)與角色對(duì)齊來(lái)提高推理和解釋任務(wù)的表現(xiàn)。角色扮演提示適用于廣泛的任務(wù),如寫作、推理和基于對(duì)話的應(yīng)用,并且可以定制響應(yīng)以適應(yīng)特定的上下文。
在角色扮演提示中,最佳實(shí)踐包括使用非親密角色、性別中立術(shù)語(yǔ),并采用兩步方法以獲得更好的結(jié)果。然而,這種方法的限制在于它可能會(huì)強(qiáng)化刻板印象,并且嚴(yán)重依賴于模型訓(xùn)練數(shù)據(jù)中角色表示的質(zhì)量。
角色扮演提示的核心在于通過(guò)分配角色給LLM來(lái)引導(dǎo)其行為,從而增強(qiáng)輸出的風(fēng)格、準(zhǔn)確性和深度。無(wú)論是為了某種特定的語(yǔ)氣、提高清晰度還是引出復(fù)雜和微妙的響應(yīng),角色扮演提示都可以提供幫助。通過(guò)遵循最佳實(shí)踐并意識(shí)到潛在的陷阱,你可以充分利用角色扮演提示,使你與語(yǔ)言模型的互動(dòng)更加有效,并滿足特定需求。
15. Synthetic Prompting
Synthetic Prompting是一種用于提升大型語(yǔ)言模型(LLMs)推理能力的技術(shù)。它通過(guò)利用少量手工制作的示例來(lái)提示模型自我生成更多的示例,并選擇有效的演示來(lái)激發(fā)更好的推理。這種方法在生成新示例時(shí)交替進(jìn)行反向和正向過(guò)程。
- 反向過(guò)程(Backward Process):在這個(gè)步驟中,模型根據(jù)采樣的推理鏈生成一個(gè)問(wèn)題,確保這個(gè)問(wèn)題是可以解決且清晰的。
- 正向過(guò)程(Forward Process):在這一步,模型為合成的問(wèn)題產(chǎn)生一個(gè)更詳細(xì)的推理鏈,提高示例的質(zhì)量。
Synthetic Prompting通過(guò)這種方式,可以顯著提高LLMs在數(shù)值推理、算法推理和符號(hào)推理等任務(wù)上的表現(xiàn),相比于現(xiàn)有的提示技術(shù),可以達(dá)到高達(dá)15.6%的絕對(duì)增益。
此外,Synthetic Prompting還提出了一種基于簇內(nèi)復(fù)雜度的選擇方案,旨在通過(guò)聚類它們并從每個(gè)簇中選擇最復(fù)雜的一個(gè)(推理鏈最長(zhǎng)的那一個(gè)),來(lái)最大化演示的多樣性和信息量。
16. AutoMate CoT
AutoMate CoT是一種自動(dòng)化構(gòu)建大型語(yǔ)言模型(LLMs)推理鏈提示(Chain-of-Thought, CoT)的方法。這種方法的核心在于減少人工設(shè)計(jì)推理鏈的需要,通過(guò)自動(dòng)化的方式生成和選擇推理鏈,以提高模型在復(fù)雜推理任務(wù)中的表現(xiàn)。
- 自動(dòng)化推理鏈生成:AutoMate CoT能夠自動(dòng)從少量標(biāo)注數(shù)據(jù)集中增強(qiáng)推理鏈,并修剪低質(zhì)量的鏈,構(gòu)建基于標(biāo)簽的機(jī)器生成推理鏈的候選池。
- 聚類和抽樣:AutoMate CoT包括兩個(gè)主要階段。首先是聚類階段,將給定數(shù)據(jù)集的問(wèn)題劃分為幾個(gè)簇。其次是抽樣階段,從每個(gè)簇中選擇一個(gè)代表性問(wèn)題,并使用簡(jiǎn)單的啟發(fā)式方法使用Zero-Shot-CoT生成其推理鏈。
- 質(zhì)量控制:由于Zero-Shot-CoT生成的推理鏈可能包含錯(cuò)誤,AutoMate CoT提出了一些緩解策略,通過(guò)后處理質(zhì)量控制來(lái)生成可用的推理鏈。
17. Explanation-Selection
Explanation-Selection(解釋選擇)是一個(gè)在可解釋人工智能(XAI)領(lǐng)域中的關(guān)鍵技術(shù),它涉及到從多個(gè)可能的解釋中選擇最合適的一個(gè)來(lái)解釋人工智能系統(tǒng)的行為或決策。以下是關(guān)于Explanation-Selection的一些關(guān)鍵點(diǎn):
- 自動(dòng)化推理與解釋選擇:在XAI領(lǐng)域,自動(dòng)化推理技術(shù)是核心,它幫助構(gòu)建對(duì)AI系統(tǒng)的信任,超越了單純的預(yù)測(cè)準(zhǔn)確性和魯棒性。Explanation-Selection技術(shù)結(jié)合了機(jī)器學(xué)習(xí)和自動(dòng)化推理,用于生成和選擇解釋,以促進(jìn)科學(xué)發(fā)現(xiàn)的過(guò)程。
- 解釋選擇問(wèn)題分類:提出了一個(gè)基于社會(huì)學(xué)和認(rèn)知科學(xué)見(jiàn)解的解釋選擇問(wèn)題的分類體系,這個(gè)體系包含了現(xiàn)有的概念,并引入了新屬性。
- 解釋的期望屬性:解釋選擇問(wèn)題的研究相對(duì)較少,導(dǎo)致文獻(xiàn)中存在冗余和重疊的概念。為了解決這些問(wèn)題,研究者們從社會(huì)科學(xué)中識(shí)別出一組可以用來(lái)指導(dǎo)解釋選擇的期望屬性,包括必要性、充分性、最小性和普遍性等。
- 與因果關(guān)系和溯因理論的聯(lián)系:解釋選擇與依賴?yán)碚摰囊蚬P(guān)系有關(guān),也與溯因理論緊密相關(guān),后者是皮爾斯提出的除了演繹和歸納之外的第三種推理模式。
- 解釋選擇的應(yīng)用:在實(shí)際應(yīng)用中,不同的解釋可以導(dǎo)致模型性能的顯著差異。未經(jīng)針對(duì)特定任務(wù)調(diào)整的解釋,如非專家編寫的現(xiàn)成解釋,可能導(dǎo)致平庸的性能。因此,優(yōu)化解釋注入提示成為一個(gè)黑盒問(wèn)題,研究者們提出了一個(gè)兩階段框架來(lái)有效地搜索可能獲得高分的解釋組合。
- 使用未標(biāo)記數(shù)據(jù)進(jìn)行解釋選擇:在鏈?zhǔn)剿伎继崾局?,可以使用未?biāo)記數(shù)據(jù)來(lái)優(yōu)化解釋。首先為提示中的每個(gè)示例生成候選解釋集,然后通過(guò)兩階段框架找到有效的解釋組合。首先根據(jù)兩個(gè)代理指標(biāo)(對(duì)數(shù)似然和新示例上的準(zhǔn)確性)評(píng)估每個(gè)上下文示例中的解釋,然后搜索解釋組合以找到在銀標(biāo)發(fā)展集上表現(xiàn)良好的那一個(gè)。
- 實(shí)驗(yàn)結(jié)果:在四個(gè)文本推理任務(wù)中,包括問(wèn)答、數(shù)學(xué)推理和自然語(yǔ)言推理,結(jié)果表明代理指標(biāo)與真實(shí)準(zhǔn)確性相關(guān),并且整體方法可以有效改進(jìn)提示,超過(guò)眾包注釋和簡(jiǎn)單搜索策略。
綜上所述,Explanation-Selection是一個(gè)復(fù)雜的過(guò)程,它涉及到從多個(gè)可能的解釋中選擇最佳解釋,以提高AI系統(tǒng)的可解釋性和性能。通過(guò)自動(dòng)化推理和科學(xué)的解釋選擇,可以更好地理解和信任AI系統(tǒng)。
18. BoostedPrompt
BoostedPrompt是一種用于大型語(yǔ)言模型(LLMs)的提示集成方法,它通過(guò)使用一個(gè)小數(shù)據(jù)集來(lái)構(gòu)建一組少量樣本提示(few-shot prompts),這些提示共同組成一個(gè)“增強(qiáng)提示集成”(boosted prompt ensemble)。這種方法的核心在于,每個(gè)提示的少量樣本例子都是逐步選擇的,以確保這些例子是“困難”的例子,即在前一步集成上的不確定性較高的例子。
BoostedPrompt的主要特點(diǎn)包括:
- 逐步選擇困難樣本:對(duì)于每個(gè)提示,其少量樣本例子被選擇為前一步集成不確定的“困難”例子,這些例子是模型當(dāng)前性能邊界之外的問(wèn)題。
- 優(yōu)于單一提示集成:在GSM8k和AQuA等數(shù)據(jù)集上,BoostedPrompt顯示出比單一提示輸出空間集成和裝袋提示空間集成更好的性能。
- 訓(xùn)練時(shí)和測(cè)試時(shí)版本:提出了BoostedPrompt的訓(xùn)練時(shí)和測(cè)試時(shí)版本,這兩個(gè)版本使用不同級(jí)別的可用標(biāo)注,并對(duì)該算法進(jìn)行了詳細(xì)的實(shí)證研究。
- 算法細(xì)節(jié):算法通過(guò)逐步迭代過(guò)程構(gòu)建增強(qiáng)的少量樣本提示集成,每一步都會(huì)添加新的提示以改善性能。
- 在線BoostedPrompting:可以通過(guò)在線方式運(yùn)行BoostedPrompting,即每當(dāng)有新的多樣化提示可用時(shí),就將其添加到提示集中。
總的來(lái)說(shuō),BoostedPrompt是一種創(chuàng)新的提示集成方法,它通過(guò)精心選擇和逐步構(gòu)建提示集來(lái)提高大型語(yǔ)言模型在復(fù)雜推理任務(wù)上的性能。