偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

^{<sub id="fxw9o"></sub>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

多種思維鏈-CoT

2024-12-18 14:53:28

思維鏈（Chain-of-Thought, CoT）是一種通過(guò)逐步推理來(lái)解決復(fù)雜問(wèn)題的技術(shù)，近年來(lái)在大型語(yǔ)言模型（LLMs）中得到了廣泛應(yīng)用。CoT通過(guò)將復(fù)雜問(wèn)題分解為一系列可管理的步驟，并建立這些步驟之間的邏輯聯(lián)系，顯著提高了模型的推理能力和可解釋性。

思維鏈（Chain-of-Thought, CoT）是一種通過(guò)逐步推理來(lái)解決復(fù)雜問(wèn)題的技術(shù)，近年來(lái)在大型語(yǔ)言模型（LLMs）中得到了廣泛應(yīng)用。CoT通過(guò)將復(fù)雜問(wèn)題分解為一系列可管理的步驟，并建立這些步驟之間的邏輯聯(lián)系，顯著提高了模型的推理能力和可解釋性。

初步知識(shí)

在本節(jié)中，我們提供了標(biāo)準(zhǔn)提示和思維鏈推理的初步知識(shí)。定義以下符號(hào)：?jiǎn)栴} Q、提示T 、概率語(yǔ)言模型P_LM 和預(yù)測(cè)A 。

少樣本標(biāo)準(zhǔn)提示

少樣本思維鏈提示

思維鏈推理的優(yōu)勢(shì)

作為一種新穎的推理范式，思維鏈推理具有多種優(yōu)勢(shì)：

提升推理能力：思維鏈推理將復(fù)雜問(wèn)題分解為可管理的步驟，并建立這些步驟之間的聯(lián)系，從而促進(jìn)推理。
提供可解釋性：思維鏈推理提供可觀察的推理軌跡，使用戶能夠理解模型的決策過(guò)程，使推理過(guò)程透明且可信。
促進(jìn)協(xié)作：細(xì)粒度的推理軌跡促進(jìn)用戶與系統(tǒng)的交互，允許用戶改變模型的執(zhí)行軌跡，從而促進(jìn)基于LLM的自主代理的發(fā)展。

通過(guò)上述初步知識(shí)，介紹了標(biāo)準(zhǔn)提示和思維鏈提示的基本概念和公式。思維鏈推理通過(guò)逐步推理的方式顯著提高了模型的推理能力，并提供了可解釋性和協(xié)作優(yōu)勢(shì)。這些初步知識(shí)為進(jìn)一步探討思維鏈推理的先進(jìn)方法和應(yīng)用奠定了基礎(chǔ)。

思維鏈方法

1.Few-shot CoT

Few-shot CoT 通過(guò)提供少量的示例來(lái)激發(fā)大型語(yǔ)言模型（LLM）的推理能力。這種方法的核心在于，不僅僅給出問(wèn)題的答案，還要展示出推導(dǎo)答案的思維過(guò)程，即“思維鏈”。這樣，模型可以學(xué)習(xí)到如何通過(guò)一系列邏輯步驟來(lái)解決新的問(wèn)題。Few-shot CoT通常需要在提示中包含問(wèn)題的推導(dǎo)過(guò)程，讓模型學(xué)會(huì)如何進(jìn)行推理。

2. PAL（Program-Aided Language Models）

它的核心思想是利用大型語(yǔ)言模型（LLMs）來(lái)閱讀自然語(yǔ)言問(wèn)題，并生成程序作為中間推理步驟，然后將求解步驟外包給運(yùn)行時(shí)環(huán)境，例如Python解釋器。這樣，LLMs只需要負(fù)責(zé)將自然語(yǔ)言問(wèn)題分解成可執(zhí)行的步驟，而具體的求解任務(wù)則由解釋器來(lái)完成。

3. PoT（Program of Thoughts）

它旨在解決復(fù)雜的數(shù)值推理任務(wù)。這種方法通過(guò)使用語(yǔ)言模型（主要是Codex）來(lái)表達(dá)推理過(guò)程作為程序，將計(jì)算從推理中分離出來(lái)，由外部計(jì)算機(jī)執(zhí)行生成的程序以得出答案。

4. MathPrompter

MathPrompter是一種用于提高大型語(yǔ)言模型（LLMs）在解決算術(shù)推理任務(wù)時(shí)性能的技術(shù)。這項(xiàng)技術(shù)的核心思想是利用零樣本鏈?zhǔn)剿伎迹╖ero-shot chain-of-thought）提示技術(shù)，生成多個(gè)代數(shù)表達(dá)式或Python函數(shù)來(lái)解決同一個(gè)數(shù)學(xué)問(wèn)題，從而提高輸出結(jié)果的置信度。與傳統(tǒng)的基于提示的方法不同，MathPrompter會(huì)檢查中間步驟的有效性。

具體來(lái)說(shuō)，MathPrompter的工作流程包括以下幾個(gè)步驟：

生成代數(shù)模板：將問(wèn)題轉(zhuǎn)化為代數(shù)形式，用變量替換數(shù)值，并建立關(guān)鍵值映射。
數(shù)學(xué)提示：使用兩種不同的方法——代數(shù)方法和Python方法——來(lái)生成問(wèn)題的解析解。通過(guò)給LLM提供提示，讓它生成額外的上下文。

代數(shù)提示：要求LLM寫(xiě)出數(shù)學(xué)方程，并以“Answer =”格式生成答案。

Python提示：要求LLM寫(xiě)出一個(gè)返回答案的Python函數(shù)。

多驗(yàn)證和交叉檢查：通過(guò)從多個(gè)角度解決問(wèn)題并比較結(jié)果，來(lái)確認(rèn)解決方案的有效性，并確保其合理性和準(zhǔn)確性。

MathPrompter的一個(gè)限制是，盡管通過(guò)多次運(yùn)行來(lái)提高結(jié)果的準(zhǔn)確性，但這并不能總是保證輸出的正確性。代數(shù)和Python表達(dá)式都有可能產(chǎn)生錯(cuò)誤的結(jié)果，即使提示輸出匹配。

5. Complex CoT（Complexity-CoT）

它是一種針對(duì)Chain-of-Thought（CoT）提示方法的改進(jìn)，旨在通過(guò)挑選合適的示例（exemplar）來(lái)引導(dǎo)大型語(yǔ)言模型進(jìn)行更有效的推理。這種方法的核心思想是，如果作為上下文“訓(xùn)練示例”的推理路徑足夠復(fù)雜，那么在這些示例組成的提示下引導(dǎo)大模型推理的效果會(huì)更好。

6. Zero-shot CoT（Zero-shot Chain-of-Thought）

它允許模型在沒(méi)有額外訓(xùn)練或示例的情況下，通過(guò)一系列邏輯推理步驟來(lái)解決復(fù)雜問(wèn)題。這種方法的核心在于，通過(guò)在問(wèn)題前添加特定的提示（例如“Let’s think step by step!”），激發(fā)模型的邏輯推理能力，使其能夠生成解決問(wèn)題的中間步驟。

7. Plan-and-Solve（PS）

Plan-and-Solve（PS）是一種用于提升大型語(yǔ)言模型（LLMs）在多步推理任務(wù)中表現(xiàn)的提示策略。

目的與組成： Plan-and-Solve（PS）提示策略旨在解決Zero-shot-CoT（零樣本鏈?zhǔn)剿季S）推理中存在的問(wèn)題，如計(jì)算錯(cuò)誤、缺失步驟錯(cuò)誤和語(yǔ)義誤解錯(cuò)誤。PS提示策略包含兩個(gè)主要部分：首先，制定一個(gè)計(jì)劃將整個(gè)任務(wù)分解為更小的子任務(wù)；其次，根據(jù)計(jì)劃執(zhí)行這些子任務(wù)。
PS與PS+提示：

(1)PS提示：這是一種新的Chain-of-Thought提示方法，它使LLMs能夠明確地設(shè)計(jì)解決問(wèn)題的計(jì)劃，并在預(yù)測(cè)輸入問(wèn)題的答案之前生成中間推理過(guò)程。

(2)PS+提示：為了解決計(jì)算錯(cuò)誤并提高生成的推理步驟的質(zhì)量，PS提示策略被擴(kuò)展為PS+提示策略，其中增加了更詳細(xì)的指令，如“注意計(jì)算”、“提取相關(guān)變量及其對(duì)應(yīng)的數(shù)值”以及“計(jì)算中間結(jié)果”。

Plan-and-Solve通過(guò)引導(dǎo)LLMs制定詳細(xì)的計(jì)劃并執(zhí)行該計(jì)劃，提高了LLMs在復(fù)雜推理任務(wù)上的性能，減少了由于計(jì)算錯(cuò)誤或遺漏關(guān)鍵信息而導(dǎo)致的錯(cuò)誤。

8. Auto-CoT

Auto-CoT（Automatic Chain of Thought Prompting in Large Language Models）是一種自動(dòng)化構(gòu)建大模型演示的方法，旨在提高大型語(yǔ)言模型（LLMs）在復(fù)雜推理任務(wù)中的表現(xiàn)。這種方法通過(guò)采樣豐富的問(wèn)題并生成相應(yīng)的推理鏈來(lái)構(gòu)建演示，實(shí)驗(yàn)結(jié)果表明，Auto-CoT能夠達(dá)到甚至超過(guò)手工設(shè)計(jì)的演示效果。

Auto-CoT的核心思想是利用大型語(yǔ)言模型的能力，通過(guò)自動(dòng)化流程來(lái)構(gòu)建“讓我們一步步思考”的思維過(guò)程，從而避免手動(dòng)設(shè)計(jì)思維鏈帶來(lái)的巨大工作量。它包括兩個(gè)主要階段：聚類和抽樣。首先，將給定數(shù)據(jù)集的問(wèn)題劃分為幾個(gè)簇；然后，從每個(gè)簇中選擇一個(gè)代表性問(wèn)題，并使用簡(jiǎn)單的啟發(fā)式方法使用Zero-Shot-CoT生成其推理鏈。

Auto-CoT的實(shí)現(xiàn)方法主要依賴于問(wèn)題向量表示、聚類算法和范例構(gòu)建。使用Sentence-BERT對(duì)問(wèn)題進(jìn)行編碼，然后使用K-means等聚類算法根據(jù)問(wèn)題的向量表示進(jìn)行聚類，最后選擇距離聚類中心近的問(wèn)題，并生成推理鏈。

在實(shí)際應(yīng)用中，Auto-CoT技術(shù)適用于各種需要復(fù)雜推理的任務(wù)，如數(shù)學(xué)計(jì)算、問(wèn)題解答和零樣本學(xué)習(xí)。它可以顯著提高模型在解決這些問(wèn)題時(shí)的透明度和準(zhǔn)確性，對(duì)于教育、搜索引擎優(yōu)化和智能家居等領(lǐng)域的應(yīng)用有著巨大的潛力。

9. Reprompting

Reprompting是一種自動(dòng)化的鏈?zhǔn)剿伎继崾就茢嗨惴ǎㄟ^(guò)吉布斯采樣（Gibbs sampling）來(lái)自動(dòng)學(xué)習(xí)給定任務(wù)的CoT配方，無(wú)需人工干預(yù)。該算法通過(guò)迭代采樣新配方，使用先前采樣的配方作為父提示來(lái)解決其他訓(xùn)練問(wèn)題，從而推斷出對(duì)于一組訓(xùn)練樣本始終有效的CoT配方。

Reprompting的核心思想是通過(guò)迭代采樣來(lái)發(fā)現(xiàn)有效的CoT提示，這些提示可以在訓(xùn)練集上優(yōu)化，并作為解決未見(jiàn)測(cè)試問(wèn)題的有效CoT提示。這種方法使得大型語(yǔ)言模型（LLMs）能夠在沒(méi)有人工指導(dǎo)的情況下解決復(fù)雜的推理任務(wù)。Reprompting還支持模型組合，即使用不同的LLMs來(lái)初始化和采樣新的配方，這可以通過(guò)使用一個(gè)更強(qiáng)的LLM來(lái)生成初始CoT解決方案，然后使用一個(gè)較弱的LLM來(lái)優(yōu)化自身提示，從而顯著提高較弱模型的性能。

10. Agent-Instruct

Agent-Instruct是一個(gè)可擴(kuò)展的代理框架，用于自動(dòng)創(chuàng)建大量多樣化和高質(zhì)量的合成數(shù)據(jù)。這個(gè)框架專注于創(chuàng)建示范和反饋數(shù)據(jù)，只需要原始文檔作為輸入。它被設(shè)計(jì)用于“生成教學(xué)”（Generative Teaching），即通過(guò)強(qiáng)大的模型創(chuàng)建數(shù)據(jù)來(lái)教授另一個(gè)模型新技能或行為。

主要流程：

種子收集（Seed Collection）：收集各種初始資源，如教科書(shū)章節(jié)、網(wǎng)絡(luò)文章和代碼片段，作為創(chuàng)建新指令的基礎(chǔ)材料。
內(nèi)容轉(zhuǎn)換（Content Transformation）：專業(yè)代理處理每個(gè)種子，將其轉(zhuǎn)換為便于創(chuàng)建指令的中間形式。
種子指令生成（Seed Instruction Generation）：多個(gè)代理使用轉(zhuǎn)換后的種子生成廣泛的指令。
指令優(yōu)化（Instruction Refinement）：通過(guò)迭代過(guò)程提高生成指令的復(fù)雜性和質(zhì)量。

Agent-Instruct通過(guò)自動(dòng)化流程生成高質(zhì)量的合成數(shù)據(jù)，用于后訓(xùn)練語(yǔ)言模型，以教授新技能或行為，從而提高模型在各種任務(wù)上的性能。

11. MetaCoT

MetaCoT是一種在混合任務(wù)場(chǎng)景中提升大型語(yǔ)言模型（LLMs）泛化能力的方法。它通過(guò)思維鏈（CoT）提示技術(shù)，生成中間推理鏈作為得出答案的依據(jù)。MetaCoT的核心思想是彌補(bǔ)CoT提示方法在使用LLMs時(shí)的性能與泛化之間的差距。MetaCoT主要包括三個(gè)階段：場(chǎng)景識(shí)別、示例選擇和答案推導(dǎo)。

場(chǎng)景識(shí)別（Scenario Identification）：這個(gè)階段通過(guò)抽樣不同的問(wèn)題作為上下文學(xué)習(xí)示例，幫助自動(dòng)根據(jù)輸入問(wèn)題分類場(chǎng)景。
示例選擇（Demonstration Selection）：根據(jù)第一階段獲得的場(chǎng)景，從池中構(gòu)建多樣化的示例。
答案推導(dǎo)（Answer Derivation）：這個(gè)階段使用先前獲取的示例對(duì)輸入問(wèn)題進(jìn)行最終的答案推斷。

12. COSP

COSP（Consistency-based Self-Adaptive Prompting）是由Wan等人在2023年提出的一種用于改善零樣本（zero-shot）鏈?zhǔn)酵评恚╟hain-of-thought reasoning）的方法。這種方法的核心在于它不需要手工制作的響應(yīng)或真實(shí)標(biāo)簽，而是通過(guò)從大型語(yǔ)言模型（LLM）的零樣本輸出中選擇和構(gòu)建示例集。COSP通過(guò)結(jié)合一致性、多樣性和重復(fù)性的標(biāo)準(zhǔn)來(lái)選擇示例。

COSP使用答案熵作為選擇標(biāo)準(zhǔn)之一，其思想是利用熵的概念來(lái)衡量答案的不確定性或多樣性。在COSP中，答案熵被用作一個(gè)代理指標(biāo)，用于評(píng)估不同任務(wù)中答案的正確性，其中低熵與正確性正相關(guān)。具體來(lái)說(shuō)，COSP在第一階段執(zhí)行零樣本推理，并計(jì)算歸一化熵，以評(píng)估不同解碼路徑產(chǎn)生的預(yù)測(cè)的一致性。歸一化熵是通過(guò)計(jì)算預(yù)測(cè)答案的分布的熵來(lái)得到的，如果所有預(yù)測(cè)都不同，則熵達(dá)到最大值；如果預(yù)測(cè)集中，則熵值較低。通過(guò)這種方式，COSP能夠識(shí)別出那些具有高一致性（即低熵）的預(yù)測(cè)，并將它們作為構(gòu)建示例集的候選。

總結(jié)來(lái)說(shuō)，COSP通過(guò)答案熵來(lái)評(píng)估LLM輸出的一致性，并基于此來(lái)選擇用于構(gòu)建示例集的答案，從而提高零樣本推理的性能。

13. LogiCoT

LogiCoT（Logical Chain-of-Thought Instruction-Tuning）是一種新的指令調(diào)整數(shù)據(jù)集，專為GPT-4設(shè)計(jì)的邏輯鏈?zhǔn)酵评砟芰?。它旨在通過(guò)一系列指令來(lái)提升模型的邏輯推理能力，這些指令能夠引導(dǎo)GPT-4生成鏈?zhǔn)酵评淼睦碛?。LogiCoT的核心在于利用GPT-4的能力來(lái)生成高質(zhì)量的輸出，這些輸出既包含符號(hào)推理也包含多步驟的鏈?zhǔn)酵评?，為增?qiáng)AI模型的邏輯推理能力提供了一個(gè)全面而細(xì)致的資源。

LogiCoT的構(gòu)建是一個(gè)多階段的過(guò)程，它使用GPT-4作為一個(gè)教學(xué)助手。首先，選擇合適的種子數(shù)據(jù)，這些數(shù)據(jù)包含正確的輸出和可選的鏈?zhǔn)酵评礞湣Ｈ缓?，將這些任務(wù)轉(zhuǎn)化為清晰、明確的提示，以激發(fā)GPT-4的邏輯推理能力。接著，將種子數(shù)據(jù)和相應(yīng)的指令結(jié)合起來(lái)，輸入到GPT-4中以生成響應(yīng)。GPT-4的輸出由正確的標(biāo)簽和推理鏈引導(dǎo)，最終使用正確的輸出和GPT-4的響應(yīng)作為指令數(shù)據(jù)。

LogiCoT通過(guò)指令調(diào)整方案對(duì)LLaMA-7b模型進(jìn)行了微調(diào)，結(jié)果表明，與最先進(jìn)的指令調(diào)整模型相比，LogiCoT在邏輯推理基準(zhǔn)測(cè)試和以人為中心的基準(zhǔn)測(cè)試上都顯示出顯著的性能提升。這項(xiàng)工作與最近的研究表明，當(dāng)小型語(yǔ)言模型專門針對(duì)目標(biāo)鏈?zhǔn)酵评砣蝿?wù)時(shí)，它們可以實(shí)現(xiàn)競(jìng)爭(zhēng)性的多步推理能力。

總的來(lái)說(shuō)，LogiCoT通過(guò)結(jié)合邏輯推理和GPT-4的生成能力，為AI系統(tǒng)在邏輯推理任務(wù)上的能力提升設(shè)定了新的標(biāo)準(zhǔn)。

14.Role-Play Prompting

Role-Play Prompting（角色扮演提示）是一種提示方法，它通過(guò)給大型語(yǔ)言模型（LLMs）分配一個(gè)角色，如“老師”或“銷售員”，來(lái)指導(dǎo)響應(yīng)的風(fēng)格、語(yǔ)氣和焦點(diǎn)。這種方法可以增強(qiáng)文本的清晰度和準(zhǔn)確性，通過(guò)與角色對(duì)齊來(lái)提高推理和解釋任務(wù)的表現(xiàn)。角色扮演提示適用于廣泛的任務(wù)，如寫(xiě)作、推理和基于對(duì)話的應(yīng)用，并且可以定制響應(yīng)以適應(yīng)特定的上下文。

在角色扮演提示中，最佳實(shí)踐包括使用非親密角色、性別中立術(shù)語(yǔ)，并采用兩步方法以獲得更好的結(jié)果。然而，這種方法的限制在于它可能會(huì)強(qiáng)化刻板印象，并且嚴(yán)重依賴于模型訓(xùn)練數(shù)據(jù)中角色表示的質(zhì)量。

角色扮演提示的核心在于通過(guò)分配角色給LLM來(lái)引導(dǎo)其行為，從而增強(qiáng)輸出的風(fēng)格、準(zhǔn)確性和深度。無(wú)論是為了某種特定的語(yǔ)氣、提高清晰度還是引出復(fù)雜和微妙的響應(yīng)，角色扮演提示都可以提供幫助。通過(guò)遵循最佳實(shí)踐并意識(shí)到潛在的陷阱，你可以充分利用角色扮演提示，使你與語(yǔ)言模型的互動(dòng)更加有效，并滿足特定需求。

15. Synthetic Prompting

Synthetic Prompting是一種用于提升大型語(yǔ)言模型（LLMs）推理能力的技術(shù)。它通過(guò)利用少量手工制作的示例來(lái)提示模型自我生成更多的示例，并選擇有效的演示來(lái)激發(fā)更好的推理。這種方法在生成新示例時(shí)交替進(jìn)行反向和正向過(guò)程。

反向過(guò)程（Backward Process）：在這個(gè)步驟中，模型根據(jù)采樣的推理鏈生成一個(gè)問(wèn)題，確保這個(gè)問(wèn)題是可以解決且清晰的。
正向過(guò)程（Forward Process）：在這一步，模型為合成的問(wèn)題產(chǎn)生一個(gè)更詳細(xì)的推理鏈，提高示例的質(zhì)量。

Synthetic Prompting通過(guò)這種方式，可以顯著提高LLMs在數(shù)值推理、算法推理和符號(hào)推理等任務(wù)上的表現(xiàn)，相比于現(xiàn)有的提示技術(shù)，可以達(dá)到高達(dá)15.6%的絕對(duì)增益。

此外，Synthetic Prompting還提出了一種基于簇內(nèi)復(fù)雜度的選擇方案，旨在通過(guò)聚類它們并從每個(gè)簇中選擇最復(fù)雜的一個(gè)（推理鏈最長(zhǎng)的那一個(gè)），來(lái)最大化演示的多樣性和信息量。

16. AutoMate CoT

AutoMate CoT是一種自動(dòng)化構(gòu)建大型語(yǔ)言模型（LLMs）推理鏈提示（Chain-of-Thought, CoT）的方法。這種方法的核心在于減少人工設(shè)計(jì)推理鏈的需要，通過(guò)自動(dòng)化的方式生成和選擇推理鏈，以提高模型在復(fù)雜推理任務(wù)中的表現(xiàn)。

自動(dòng)化推理鏈生成：AutoMate CoT能夠自動(dòng)從少量標(biāo)注數(shù)據(jù)集中增強(qiáng)推理鏈，并修剪低質(zhì)量的鏈，構(gòu)建基于標(biāo)簽的機(jī)器生成推理鏈的候選池。
聚類和抽樣：AutoMate CoT包括兩個(gè)主要階段。首先是聚類階段，將給定數(shù)據(jù)集的問(wèn)題劃分為幾個(gè)簇。其次是抽樣階段，從每個(gè)簇中選擇一個(gè)代表性問(wèn)題，并使用簡(jiǎn)單的啟發(fā)式方法使用Zero-Shot-CoT生成其推理鏈。
質(zhì)量控制：由于Zero-Shot-CoT生成的推理鏈可能包含錯(cuò)誤，AutoMate CoT提出了一些緩解策略，通過(guò)后處理質(zhì)量控制來(lái)生成可用的推理鏈。

17. Explanation-Selection

Explanation-Selection（解釋選擇）是一個(gè)在可解釋人工智能（XAI）領(lǐng)域中的關(guān)鍵技術(shù)，它涉及到從多個(gè)可能的解釋中選擇最合適的一個(gè)來(lái)解釋人工智能系統(tǒng)的行為或決策。以下是關(guān)于Explanation-Selection的一些關(guān)鍵點(diǎn)：

自動(dòng)化推理與解釋選擇：在XAI領(lǐng)域，自動(dòng)化推理技術(shù)是核心，它幫助構(gòu)建對(duì)AI系統(tǒng)的信任，超越了單純的預(yù)測(cè)準(zhǔn)確性和魯棒性。Explanation-Selection技術(shù)結(jié)合了機(jī)器學(xué)習(xí)和自動(dòng)化推理，用于生成和選擇解釋，以促進(jìn)科學(xué)發(fā)現(xiàn)的過(guò)程。
解釋選擇問(wèn)題分類：提出了一個(gè)基于社會(huì)學(xué)和認(rèn)知科學(xué)見(jiàn)解的解釋選擇問(wèn)題的分類體系，這個(gè)體系包含了現(xiàn)有的概念，并引入了新屬性。
解釋的期望屬性：解釋選擇問(wèn)題的研究相對(duì)較少，導(dǎo)致文獻(xiàn)中存在冗余和重疊的概念。為了解決這些問(wèn)題，研究者們從社會(huì)科學(xué)中識(shí)別出一組可以用來(lái)指導(dǎo)解釋選擇的期望屬性，包括必要性、充分性、最小性和普遍性等。
與因果關(guān)系和溯因理論的聯(lián)系：解釋選擇與依賴?yán)碚摰囊蚬P(guān)系有關(guān)，也與溯因理論緊密相關(guān)，后者是皮爾斯提出的除了演繹和歸納之外的第三種推理模式。
解釋選擇的應(yīng)用：在實(shí)際應(yīng)用中，不同的解釋可以導(dǎo)致模型性能的顯著差異。未經(jīng)針對(duì)特定任務(wù)調(diào)整的解釋，如非專家編寫(xiě)的現(xiàn)成解釋，可能導(dǎo)致平庸的性能。因此，優(yōu)化解釋注入提示成為一個(gè)黑盒問(wèn)題，研究者們提出了一個(gè)兩階段框架來(lái)有效地搜索可能獲得高分的解釋組合。
使用未標(biāo)記數(shù)據(jù)進(jìn)行解釋選擇：在鏈?zhǔn)剿伎继崾局?，可以使用未?biāo)記數(shù)據(jù)來(lái)優(yōu)化解釋。首先為提示中的每個(gè)示例生成候選解釋集，然后通過(guò)兩階段框架找到有效的解釋組合。首先根據(jù)兩個(gè)代理指標(biāo)（對(duì)數(shù)似然和新示例上的準(zhǔn)確性）評(píng)估每個(gè)上下文示例中的解釋，然后搜索解釋組合以找到在銀標(biāo)發(fā)展集上表現(xiàn)良好的那一個(gè)。
實(shí)驗(yàn)結(jié)果：在四個(gè)文本推理任務(wù)中，包括問(wèn)答、數(shù)學(xué)推理和自然語(yǔ)言推理，結(jié)果表明代理指標(biāo)與真實(shí)準(zhǔn)確性相關(guān)，并且整體方法可以有效改進(jìn)提示，超過(guò)眾包注釋和簡(jiǎn)單搜索策略。

綜上所述，Explanation-Selection是一個(gè)復(fù)雜的過(guò)程，它涉及到從多個(gè)可能的解釋中選擇最佳解釋，以提高AI系統(tǒng)的可解釋性和性能。通過(guò)自動(dòng)化推理和科學(xué)的解釋選擇，可以更好地理解和信任AI系統(tǒng)。

18. BoostedPrompt

BoostedPrompt是一種用于大型語(yǔ)言模型（LLMs）的提示集成方法，它通過(guò)使用一個(gè)小數(shù)據(jù)集來(lái)構(gòu)建一組少量樣本提示（few-shot prompts），這些提示共同組成一個(gè)“增強(qiáng)提示集成”（boosted prompt ensemble）。這種方法的核心在于，每個(gè)提示的少量樣本例子都是逐步選擇的，以確保這些例子是“困難”的例子，即在前一步集成上的不確定性較高的例子。

BoostedPrompt的主要特點(diǎn)包括：

逐步選擇困難樣本：對(duì)于每個(gè)提示，其少量樣本例子被選擇為前一步集成不確定的“困難”例子，這些例子是模型當(dāng)前性能邊界之外的問(wèn)題。
優(yōu)于單一提示集成：在GSM8k和AQuA等數(shù)據(jù)集上，BoostedPrompt顯示出比單一提示輸出空間集成和裝袋提示空間集成更好的性能。
訓(xùn)練時(shí)和測(cè)試時(shí)版本：提出了BoostedPrompt的訓(xùn)練時(shí)和測(cè)試時(shí)版本，這兩個(gè)版本使用不同級(jí)別的可用標(biāo)注，并對(duì)該算法進(jìn)行了詳細(xì)的實(shí)證研究。
算法細(xì)節(jié)：算法通過(guò)逐步迭代過(guò)程構(gòu)建增強(qiáng)的少量樣本提示集成，每一步都會(huì)添加新的提示以改善性能。
在線BoostedPrompting：可以通過(guò)在線方式運(yùn)行BoostedPrompting，即每當(dāng)有新的多樣化提示可用時(shí)，就將其添加到提示集中。

總的來(lái)說(shuō)，BoostedPrompt是一種創(chuàng)新的提示集成方法，它通過(guò)精心選擇和逐步構(gòu)建提示集來(lái)提高大型語(yǔ)言模型在復(fù)雜推理任務(wù)上的性能。

責(zé)任編輯：龐桂玉來(lái)源：簡(jiǎn)單的機(jī)器學(xué)習(xí)

思維鏈 CoT 大型語(yǔ)言模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="n16tw"></style>

<style id="n16tw"></style>