ACL 2025|為什么你設(shè)計(jì)的 Prompt 會成功?新理論揭示大模型 Prompt 設(shè)計(jì)的奧秘與效能
本文共同一作是張翔和曹峻泰。張翔是英屬哥倫比亞大學(xué)研究生,主要研究興趣集中在大模型推理和 AI for Science;曹峻泰是英屬哥倫比亞大學(xué)研究生,主要研究興趣集中在大模型推理和可解釋性研究;本文通訊作者是來自紐約大學(xué)石溪分校的助理教授尤晨羽,以及來自 Meta Gen AI 的研究員丁渡鑒。
近年來,大型語言模型(LLM)在自然語言處理領(lǐng)域取得了革命性進(jìn)展。然而,其底層的 Transformer 架構(gòu)在處理復(fù)雜推理任務(wù)時仍有不足。盡管「思維鏈」(CoT)提示技術(shù)提供了一條實(shí)用路徑,但多數(shù)方法依賴通用指令,導(dǎo)致提示工程高度依賴反復(fù)試驗(yàn),缺乏理論指導(dǎo)。
圖 1:Prompt 模板深刻影響著答案空間的配置和導(dǎo)航方式。左側(cè)展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空間」中進(jìn)行搜索,而右側(cè)則展示了在特定 Prompt 指導(dǎo)下,如何在「答案空間」中進(jìn)行搜索以得到解決方案(如 Tree-of-Thought、Graph-of-Thought)。
來自英屬哥倫比亞大學(xué)、紐約大學(xué)石溪分校和浙江大學(xué)的研究團(tuán)隊(duì)深入剖析了 Prompt 如何在 LLM 的 CoT 推理過程中調(diào)控模型內(nèi)部信息流。這項(xiàng)研究首次構(gòu)建了一個量化 Prompt 搜索空間復(fù)雜度的理論框架,為 LLM 提示工程從經(jīng)驗(yàn)性的「煉丹」走向科學(xué)奠定了基礎(chǔ)。
- 論文標(biāo)題:Why Prompt Design Matters and Works: A Complexity Analysis of Prompt Search Space in LLMs
- 論文鏈接:https://arxiv.org/abs/2503.10084
- 論文發(fā)表:ACL 2025 main(主會)已接收 論文得分 Meta score:4(滿分為 5 分)
- 作者信息:Xiang Zhang、Juntai Cao、Jiaqi Wei、Chenyu You、Dujian Ding
圖 2:(a) 在沒有精心設(shè)計(jì) Prompt 的樸素 CoT 中,模型可能生成錯誤或次優(yōu)的思考步驟,導(dǎo)致任務(wù)失敗。(b) 通過最優(yōu)的 Prompt 設(shè)計(jì),可以有效引導(dǎo)模型,使其成功執(zhí)行任務(wù)。(c) 當(dāng)不采用 CoT 時,模型僅能依賴其 Transformer 架構(gòu)進(jìn)行內(nèi)部推理。(d) Transformer 架構(gòu)本身只能執(zhí)行固定且深度有限的計(jì)算,難以應(yīng)對復(fù)雜的多步推理。
突破「煉丹」:Prompt 設(shè)計(jì)走向科學(xué)
長期以來,提示工程的有效性似乎帶有一絲「玄學(xué)」色彩——為何某些提示組合能奇跡般地提升模型性能,而另一些則收效甚微?本研究從理論層面解釋了為何某些提示組合能有效提升模型性能。研究團(tuán)隊(duì)指出,Prompt 在 CoT 推理過程中扮演著至關(guān)重要的「信息選擇器」(selectors)角色。
大型語言模型在處理任務(wù)時,其內(nèi)部的隱藏狀態(tài)(hidden state, h)實(shí)際蘊(yùn)含了極為豐富的信息,包括對任務(wù)的理解、中間計(jì)算結(jié)果、甚至模型自身的「置信度」等。然而,并非所有這些信息都對當(dāng)前推理步驟同等重要。
正如論文圖 3 所示(見下方),CoT 的核心機(jī)制,便是將這種復(fù)雜的、高維度的內(nèi)部隱狀態(tài) h 中的信息,通過生成自然語言文本的方式,進(jìn)行「離散化」和「外化」。這些生成的文本步驟隨后又被模型重新編碼,用于指導(dǎo)下一步的計(jì)算,從而近似一種遞歸計(jì)算過程。
圖 3:CoT 通過生成非答案的輔助 Token(中間步驟),近似了循環(huán)網(wǎng)絡(luò)的計(jì)算方式。模型內(nèi)部隱藏狀態(tài) h 中蘊(yùn)含的豐富信息(如先前的錯誤、中間結(jié)果、置信度等)可以通過不同的 Prompt 設(shè)計(jì)被選擇性地提取并言語化。
關(guān)鍵在于,由于每個 CoT 步驟的文本長度有限,模型每一步只能提取并表達(dá) h 中的部分信息,而哪些信息被提取,則是由 Prompt 模板決定的。如圖 4 所示,Prompt 模板指導(dǎo)模型提取關(guān)鍵的計(jì)算信息,而非關(guān)鍵信息可能被丟棄。
圖 4:在 CoT 過程中,并非所有隱藏狀態(tài) h 中的信息都會被傳遞。Prompt 模板指導(dǎo)模型提取關(guān)鍵的計(jì)算信息,而其他非關(guān)鍵信息則可能被丟棄。
一個精心設(shè)計(jì)的提示模板,就如同一個精確的導(dǎo)航儀,它明確地指示模型在 CoT 的每一步中,應(yīng)該從其完整的隱藏狀態(tài) h 中「選擇」并「提取」哪些與任務(wù)最相關(guān)的信息進(jìn)行「言語化」(verbalization)輸出。這一選擇過程的復(fù)雜性,即「Prompt 空間復(fù)雜度」,如論文圖 5 所示,取決于隱藏狀態(tài) h 中總信息量 n 以及每個 CoT 步驟能提取的信息量 s。
圖 5:每個 Prompt 模板都規(guī)定了一種從隱藏狀態(tài) h 到非答案 Token 的信息言語化方式。Prompt 空間的復(fù)雜度可以基于這種信息提取方式的數(shù)量來估算。
因此,不同的提示設(shè)計(jì)定義了不同的信息提取策略,從而在潛在的「答案空間」中塑造出獨(dú)一無二的推理「軌跡」(trajectory)。論文圖 6 直觀地描繪了這一過程。
圖 6:CoT 的整體空間可以分解為「Prompt 空間」和「答案空間」。在 Prompt 空間中選擇不同的 Prompt 設(shè)計(jì)(例如,決定在象棋推演的每一步是提取「棋盤布局」還是「剩余棋子數(shù)」),會直接影響在答案空間中導(dǎo)航并找到解決方案的路徑和效率。
簡而言之,提示之所以有效,是因?yàn)樗軌蚩茖W(xué)地指導(dǎo)模型在復(fù)雜的推理鏈條中,每一步都「抓重點(diǎn)」。
探尋最佳路徑:如何科學(xué)設(shè)計(jì)高效提示詞?
既然提示設(shè)計(jì)如此關(guān)鍵,那么我們應(yīng)如何告別「煉丹式」的反復(fù)試驗(yàn),轉(zhuǎn)而系統(tǒng)性地找到針對特定任務(wù)的「最優(yōu)提示設(shè)計(jì)」呢?該研究為此提供了一套理論框架和分析思路。
研究者們創(chuàng)新性地將整個 CoT 的推理過程分解為兩個相互關(guān)聯(lián)但又有所區(qū)別的搜索空間(圖 6):「提示空間」(Prompt Space)的搜索和「答案空間」(Answer Space)的搜索。前者關(guān)乎如何找到最佳的「思考模板」或「解題策略」(即提示本身),后者則是在選定模板后,如何執(zhí)行具體的思考步驟以找到最終答案。
尋找最優(yōu)提示設(shè)計(jì)的核心,正是在「提示空間」中進(jìn)行有效導(dǎo)航。那么,一個「最優(yōu)提示模板」究竟是什么樣的呢?根據(jù)這項(xiàng)研究,一個優(yōu)化的提示模板必須能夠:
- 明確指引每步輸出:精確規(guī)定 CoT 推理的每一個中間步驟應(yīng)該輸出什么內(nèi)容,確保這些內(nèi)容是后續(xù)計(jì)算所必需的。
- 聚焦核心信息:在模型隱藏狀態(tài) h 所包含的眾多信息中(假設(shè)總信息量為 n 比特),最優(yōu)提示應(yīng)引導(dǎo)模型在每個 CoT 步驟中,識別并提取出對當(dāng)前推理任務(wù)最為關(guān)鍵的、最頂部的 s 比特信息,并將其轉(zhuǎn)化為文本輸出,同時舍棄其余的無關(guān)或冗余信號。
- 充當(dāng)「算法藍(lán)圖」:一個好的提示模板,實(shí)際上是在為特定任務(wù)「編碼」一套高效的「算法」,它決定了在推理的每一步需要哪些「變量」(信息),以及如何利用這些「變量」來計(jì)算下一個狀態(tài)。
因此,這項(xiàng)工作將尋找最優(yōu)提示的過程,從一種依賴直覺和運(yùn)氣的嘗試,轉(zhuǎn)變?yōu)橐粋€可以在理論指導(dǎo)下進(jìn)行的、對信息提取和利用方式的系統(tǒng)性探索。它為我們指明了方向:要設(shè)計(jì)出最佳提示,就需要深入理解任務(wù)的計(jì)算需求,并確保提示能夠引導(dǎo) LLM 在每一步都準(zhǔn)確地「抓住」并「用好」解決問題所需的核心信息。
實(shí)驗(yàn)證據(jù):精心設(shè)計(jì)的提示詞如何驅(qū)動 LLM 推理性能飛躍
為了驗(yàn)證上述理論框架的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列精心設(shè)計(jì)的實(shí)驗(yàn)。他們選取了涵蓋不同計(jì)算復(fù)雜度等級(包括常規(guī) Regular、上下文無關(guān) Context-Free 及上下文敏感 Context-Sensitive 等)的基礎(chǔ)推理任務(wù),這些任務(wù)本身對計(jì)算深度有較高要求,通常超出標(biāo)準(zhǔn) Transformer 架構(gòu)的直接處理能力,因而非常依賴 CoT 機(jī)制來輔助完成。實(shí)驗(yàn)中使用了 gpt-4o-classic 網(wǎng)頁版及 gpt-4o mini API,并特別注意通過統(tǒng)一輸入格式(如將字符串任務(wù)轉(zhuǎn)換為列表格式)等方式,來最小化 Tokenization 等外部因素對實(shí)驗(yàn)結(jié)果的干擾。
核心實(shí)驗(yàn)結(jié)果清晰地揭示了以下幾點(diǎn):
「遞歸計(jì)算」的基石作用
實(shí)驗(yàn)首先證實(shí)了「遞歸計(jì)算」對于復(fù)雜推理任務(wù)的不可或缺性。如表 1 所示,當(dāng) LLM 不使用思維鏈(CoT)機(jī)制時,其在需要多步推理的任務(wù)上表現(xiàn)不佳。然而,一旦引入 CoT,賦予模型文本空間「遞歸計(jì)算」的能力,準(zhǔn)確率便顯著提高。這凸顯了 CoT 為 LLM 帶來的「類遞歸」能力的重要性。
表 1
提示設(shè)計(jì)的決定性影響——「最優(yōu)監(jiān)督」的力量
最為關(guān)鍵的發(fā)現(xiàn)是,提示模板(即「思考步驟」的具體設(shè)計(jì))的選擇,對 LLM 的推理性能起著決定性作用。研究對比了三種情況(見表 1 和表 3):
- 無監(jiān)督 CoT (Unsupervised CoT):模型自行推導(dǎo)思考步驟。
- 最優(yōu)監(jiān)督 CoT (CoT Supervised / S-CoT):研究者提供精心設(shè)計(jì)的最優(yōu)步驟模板。
- 次優(yōu)監(jiān)督 CoT (CoT Supervised-SUB / S-CoT-SUB):模型使用次優(yōu)或存在冗余/誤導(dǎo)信息的步驟模板。
結(jié)果顯示,通過 S-CoT 提供理想的步驟模板時,LLM 性能最佳,顯著優(yōu)于無監(jiān)督 CoT。相反,使用次優(yōu)監(jiān)督會導(dǎo)致性能急劇下降。這證實(shí)了論文核心觀點(diǎn):答案空間和搜索復(fù)雜度受提示空間中模板選擇的影響。正確的人類監(jiān)督(最優(yōu)提示設(shè)計(jì))能引導(dǎo)模型達(dá)到最高效的推理狀態(tài),可將推理任務(wù)性能提升超過 50%。
表 3
CoT 變體:輔助「答案空間」導(dǎo)航,但非「提示空間」的解決方案
研究還考察了不同的 CoT 變體,如思維樹(ToT)和思維圖(GoT)等(見表 2)。結(jié)果顯示,這些方法能在一定程度上提升樸素 CoT 的性能,例如 GoT 因其自我修正機(jī)制表現(xiàn)出較好的準(zhǔn)確率增益。
然而,它們的改進(jìn)主要在于通過更復(fù)雜的搜索策略(如多路徑探索、自我校驗(yàn))來糾正計(jì)算過程中的「小錯誤」或探索更多解題路徑,而非優(yōu)化提示模板本身的選擇。這意味著,即便 ToT 或 GoT 等高級方法,如果其依賴的底層提示模板本身是次優(yōu)的,其性能上限依然會受到制約。它們主要解決的是「答案空間」的導(dǎo)航問題,而非「提示空間」的模板選擇問題。
圖 8:ToT(思維樹)機(jī)制通過探索答案空間中的多個分支路徑來提升問題解決能力。然而,狀態(tài)如何轉(zhuǎn)換仍然受到 CoT 步驟模板的制約,這超出了 ToT 本身提供的范疇。
表 2
結(jié)論:為高效提示詞設(shè)計(jì)鋪路
這項(xiàng)研究首次系統(tǒng)性地探索了提示空間的復(fù)雜性,為理解和設(shè)計(jì) LLM 的高效提示策略奠定了堅(jiān)實(shí)的理論基礎(chǔ)。其核心洞見在于:
- Prompt 作為信息選擇器:提示通過從模型的隱藏狀態(tài)中精確提取與任務(wù)相關(guān)的特定信息,從而主導(dǎo)并塑造 CoT 的推理過程。
- Prompt 設(shè)計(jì)至關(guān)重要,而非附屬:提示的設(shè)計(jì)并非一項(xiàng)輔助性或錦上添花的工作,而是決定 CoT 推理有效性的核心環(huán)節(jié)。提示結(jié)構(gòu)的微小調(diào)整可能帶來模型性能的巨大飛躍或驟降。
- 通用 Prompt 的固有局限:簡單依賴模型自我引導(dǎo)的樸素 CoT 策略(例如,萬能的「think step by step」)可能會嚴(yán)重限制模型在復(fù)雜任務(wù)上的表現(xiàn)潛力。
- 最優(yōu) Prompt 探索的巨大價值:實(shí)驗(yàn)清晰證明,通過系統(tǒng)性的最優(yōu)提示搜索與設(shè)計(jì),LLM 在推理任務(wù)上的性能可以獲得超過 50% 的顯著提升。
這項(xiàng)工作為我們理解和提升 LLM 基于 Prompt 的推理能力提供了寶貴的理論框架和實(shí)踐指引,并深刻預(yù)示著在未來的 LLM 應(yīng)用浪潮中,科學(xué)化的提示工程與人類的智慧監(jiān)督將扮演不可或缺的關(guān)鍵角色。