AI自動(dòng)生成prompt媲美人類(lèi),網(wǎng)友:工程師剛被聘用,又要淘汰了
?現(xiàn)階段,得益于模型規(guī)模的擴(kuò)大和基于注意力架構(gòu)的出現(xiàn),語(yǔ)言模型表現(xiàn)出了前所未有的通用性。這些大型語(yǔ)言模型(LLM,large language models)在各種不同任務(wù)中表現(xiàn)出非凡的能力,其中包括零樣本和小樣本設(shè)置。
然而,在模型通用性的基礎(chǔ)上,繼而引出一個(gè)控制問(wèn)題:我們?nèi)绾尾拍茏?LLM 按照我們的要求去做?
為了回答這個(gè)問(wèn)題并引導(dǎo) LLM 朝著我們期望的行為方向發(fā)展,研究者們采取了一系列措施來(lái)達(dá)到這個(gè)目的,例如對(duì)模型進(jìn)行微調(diào)、通過(guò)上下文進(jìn)行學(xué)習(xí)、不同形式的 prompt 生成等。而基于 prompt 的方法又包括可微調(diào)的 soft prompt 以及自然語(yǔ)言 prompt engineering(提示工程)。眾多研究者對(duì)后者表現(xiàn)出了極大的興趣,因?yàn)樗鼮槿祟?lèi)與機(jī)器交互提供了一個(gè)自然交互的界面。?
然而簡(jiǎn)單的 prompt 并不總能產(chǎn)生所需的結(jié)果,例如,在生成熊貓圖像時(shí),添加諸如「cute」之類(lèi)的形容詞或諸如「eat bamboo」之類(lèi)的短語(yǔ)對(duì)輸出有何影響,我們不了解。
因此,人類(lèi)用戶必須嘗試各種 prompt 來(lái)引導(dǎo)模型完成我們期望的行為。LLM 這一執(zhí)行過(guò)程可視為黑盒過(guò)程:雖然它們可以執(zhí)行大范圍的自然語(yǔ)言程序,但這些程序的處理方式對(duì)人類(lèi)來(lái)說(shuō)可能并不直觀,非常難以理解,而且只有在執(zhí)行下游任務(wù)時(shí)才能衡量指令的質(zhì)量。
我們不禁會(huì)問(wèn):大型語(yǔ)言模型可以為自己編寫(xiě) prompt 嗎?答案是,不但可以,還能達(dá)到人類(lèi)水平。
為了減少創(chuàng)建和驗(yàn)證有效指令的人工工作量,來(lái)自多倫多大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究者提出了一種使用 LLM 自動(dòng)生成和選擇指令的新算法:APE(Automatic Prompt Engineer)。他們將此問(wèn)題描述為自然語(yǔ)言程序合成,并建議將其作為黑盒優(yōu)化問(wèn)題來(lái)處理,LLM 可以用來(lái)生成以及搜索可行的候選解決方案。
- 論文地址:https://arxiv.org/pdf/2211.01910.pdf
- 論文主頁(yè):https://sites.google.com/view/automatic-prompt-engineer?
研究者從 LLM 的三個(gè)特性入手。首先,使用 LLM 作為推理模型,根據(jù)輸入 - 輸出對(duì)形式的一小組演示生成指令候選。接下來(lái),通過(guò) LLM 下的每條指令計(jì)算一個(gè)分?jǐn)?shù)來(lái)指導(dǎo)搜索過(guò)程。最后,他們提出一種迭代蒙特卡洛搜索方法,LLM 通過(guò)提出語(yǔ)義相似指令變體來(lái)改進(jìn)最佳候選指令。
直觀地說(shuō),本文提出的算法要求 LLM 根據(jù)演示生成一組指令候選,然后要求算法評(píng)估哪些指令更有希望,并將該算法命名為 APE。
本文貢獻(xiàn)如下:?
- 研究者將指令生成作為自然語(yǔ)言程序合成,將其表述為一個(gè)由 LLM 引導(dǎo)的黑盒優(yōu)化問(wèn)題,并提出迭代蒙特卡羅搜索方法來(lái)近似求解;
- APE 方法在 19/24 任務(wù)中實(shí)現(xiàn)了比人工注釋器生成的指令更好或相當(dāng)?shù)男阅堋?/span>
看到這項(xiàng)研究,網(wǎng)友不禁感嘆:那些剛被聘用的 prompt 工程師,幾個(gè)月后可能要被 AI 淘汰。言外之意就是,這項(xiàng)研究要搶了人類(lèi) prompt 工程師的活。
「該研究盡最大的努力使 prompt engineering 自動(dòng)化,這樣從事 ML 的研究人員就可以回到真正的算法問(wèn)題上了(附加兩個(gè)大哭的表情)。」
還有人感嘆:LLM 不愧是原始 AGI 的中流砥柱。
使用 LLM 進(jìn)行自然語(yǔ)言程序合成
APE 在建議(proposal)和評(píng)分這兩個(gè)關(guān)鍵組件中都使用 LLM。
如下圖 2 和算法 1 所示,APE 首先提出幾個(gè)候選 prompt,然后根據(jù)選定的評(píng)分函數(shù)對(duì)候選集合進(jìn)行篩選 / 精煉,最終選擇得分最高的指令。
下圖為 APE 的執(zhí)行過(guò)程。它可以通過(guò)直接推理或基于語(yǔ)義相似度的遞歸過(guò)程生成幾個(gè)候選 prompt,評(píng)估其性能,并迭代地提出新的 prompt。
初始提議分布?
由于搜索空間無(wú)限大,找到正確指令是極其困難的,這使得自然語(yǔ)言程序合成歷來(lái)難以處理?;诖?,研究者考慮利用一個(gè)預(yù)先訓(xùn)練過(guò)的 LLM 來(lái)提出一個(gè)候選解決方案,以指導(dǎo)搜索過(guò)程。?
他們考慮兩種方法生成高質(zhì)量候選。首先采用一種基于前向模式生成的方法。此外,他們還考慮了反向模式生成,使用具有填充功能的 LLM(如 T5、GLM、InsertGPT)來(lái)推斷缺失的指令。
得分函數(shù)
為了將問(wèn)題轉(zhuǎn)換為黑盒優(yōu)化問(wèn)題,研究者選擇了一個(gè)得分函數(shù)來(lái)準(zhǔn)確測(cè)量數(shù)據(jù)集和模型生成的數(shù)據(jù)之間的對(duì)齊情況。
在歸納實(shí)驗(yàn)中,研究者考慮了兩個(gè)潛在的得分函數(shù)。在 TruthfulQA 實(shí)驗(yàn)中,研究者主要關(guān)注 Lin 等人提出的自動(dòng)化指標(biāo),類(lèi)似于執(zhí)行精度。
在每一種情況下,研究者使用如下公式 (1) 來(lái)評(píng)估生成指令的質(zhì)量,并對(duì)持有測(cè)試數(shù)據(jù)集 Dtest 進(jìn)行期望。
實(shí)驗(yàn)?
研究者對(duì) APE 如何引導(dǎo) LLM 實(shí)現(xiàn)預(yù)期的行為進(jìn)行了研究。他們從三個(gè)角度進(jìn)行:零樣本性能、少樣本上下文學(xué)習(xí)性能和真實(shí)性(truthfulness)。
研究者評(píng)估了 Honovich 等人提出的 24 個(gè)指令歸納任務(wù)的零樣本和少樣本上下文學(xué)習(xí)。這些任務(wù)涵蓋語(yǔ)言理解的許多方面,從簡(jiǎn)單的短語(yǔ)結(jié)構(gòu)到相似性和因果關(guān)系識(shí)別。為了了解 APE 生成的指令如何引導(dǎo) LLM 生成不同風(fēng)格的答案,本文將 APE 應(yīng)用于 TruthfulQA(一個(gè)數(shù)據(jù)集)。?
對(duì)于零樣本測(cè)試準(zhǔn)確率,APE 在 24 項(xiàng)任務(wù)中有 19 項(xiàng)達(dá)到了人類(lèi)水平的表現(xiàn)。
對(duì)于少樣本上下文測(cè)試準(zhǔn)確率,在 24 個(gè)任務(wù)中,APE 提高了 21 個(gè)任務(wù)的少樣本上下文學(xué)習(xí)性能。
研究者還將 APE prompt 與 Lin 等人提出的人工 prompt 進(jìn)行了對(duì)比。圖 (a) 顯示 APE 指令在所有三個(gè)指標(biāo)上的表現(xiàn)都優(yōu)于人工 prompt。圖(b)顯示了 truthfulness 和 informativeness 之間的權(quán)衡。
更多細(xì)節(jié)請(qǐng)參閱原論文。