偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從自然語(yǔ)言到“胡言亂語(yǔ)”:PROMPTQUINE 框架的Prompt進(jìn)化術(shù)

人工智能
PROMPTQUINE 框架的誕生,是對(duì)提示工程的一次創(chuàng)新嘗試。 它通過(guò)修剪自然語(yǔ)言提示,使其進(jìn)化為看似無(wú)章的“胡言亂語(yǔ)”,卻能在多種任務(wù)上顯著提升 LLM 的性能。這一創(chuàng)新范式,不僅重新定義了提示設(shè)計(jì)的邊界,更為我們深入理解 LLM 的運(yùn)行機(jī)制提供了全新視角。

大家好,我是肆〇柒,大型語(yǔ)言模型(LLM)目前已成推動(dòng)技術(shù)革新的核心力量。然而,為了充分釋放 LLM 的潛力,提示工程作為關(guān)鍵環(huán)節(jié),正面臨著效率與效果的雙重挑戰(zhàn)。如今,由阿里集團(tuán)、達(dá)摩院、湖畔實(shí)驗(yàn)室聯(lián)合提出的一種名為 PROMPTQUINE 的創(chuàng)新框架,通過(guò)修剪自然語(yǔ)言提示,使其進(jìn)化為看似不連貫的 “胡言亂語(yǔ)”,卻能在多種任務(wù)上顯著提升 LLM 的性能,顛覆了傳統(tǒng)提示工程的理念。下面我們一起深入了解一下這項(xiàng)研究,探索其背后的原理、方法與成果。

提示工程,目前主流的做法是依賴精心雕琢的指令和示范樣例,以此為基礎(chǔ)開(kāi)展上下文學(xué)習(xí)(ICL)。但這一方法存在諸多弊端:其一,對(duì)提示內(nèi)容的細(xì)微變動(dòng)極為敏感,哪怕只是稍作調(diào)整,也可能引發(fā)模型輸出的大幅波動(dòng);其二,輸出結(jié)果難以預(yù)測(cè),這無(wú)疑給實(shí)際應(yīng)用帶來(lái)了巨大的不確定性;其三,設(shè)計(jì)優(yōu)質(zhì)提示的過(guò)程繁瑣且耗時(shí),通常需要反復(fù)試驗(yàn),嚴(yán)重制約了開(kāi)發(fā)效率。

一些令人意外的發(fā)現(xiàn):在特定任務(wù)場(chǎng)景下,那些語(yǔ)法混亂、語(yǔ)義怪異的不自然提示,竟有時(shí)會(huì)優(yōu)于精心設(shè)計(jì)的自然語(yǔ)言指令。這一現(xiàn)象激發(fā)了研究者的好奇心,促使他們重新審視提示工程的底層邏輯。他們提出一個(gè)大膽的設(shè)想:或許通過(guò)對(duì)自然語(yǔ)言提示進(jìn)行修剪,去除某些成分,能夠挖掘出更契合 LLM 運(yùn)行機(jī)制的提示形式,進(jìn)而提升其性能表現(xiàn)。這一設(shè)想的提出,為提示工程領(lǐng)域開(kāi)辟了全新的探索方向。

問(wèn)題形式化與相關(guān)討論

上下文學(xué)習(xí)(ICL)的基石

用戶可以從預(yù)測(cè) ytest 中解析出任務(wù)輸出(即映射到相應(yīng)的任務(wù) verbalizers)。ICL 為 LLM 提供了強(qiáng)大的靈活性,使其能夠在不同任務(wù)中快速調(diào)整表現(xiàn),也為后續(xù)的提示優(yōu)化提供了基礎(chǔ)。然而,ICL 的性能受到提示設(shè)計(jì)的顯著影響。傳統(tǒng)的 ICL 方法依賴于精心設(shè)計(jì)的指令和示范樣例,但這些提示往往對(duì)細(xì)微的變動(dòng)極為敏感,且設(shè)計(jì)過(guò)程繁瑣耗時(shí)。

不自然提示的潛力挖掘

在特定任務(wù)中,不自然的提示(即語(yǔ)法和語(yǔ)義奇怪的提示)可能優(yōu)于精心設(shè)計(jì)的自然語(yǔ)言指令。例如,某些看似不合邏輯的提示組合能夠引導(dǎo) LLM 準(zhǔn)確完成復(fù)雜的推理任務(wù)。這些發(fā)現(xiàn)為 PROMPTQUINE 的研究方向提供了支持,表明通過(guò)修剪自然語(yǔ)言提示可以探索更優(yōu)的提示形式。

研究者提出“部分上下文假設(shè)”:給定一個(gè)自然語(yǔ)言提示,通過(guò)修剪少量提示 token,可以顯著提升任務(wù)性能,甚至超過(guò)通過(guò) token 級(jí)搜索發(fā)現(xiàn)的不自然提示。這一假設(shè)的驗(yàn)證涉及到對(duì)提示壓縮的重新思考,即將提示壓縮視為一種引導(dǎo)式提示搜索,而不是單純的壓縮。在這種視角下,提示壓縮的目標(biāo)是尋找能夠激發(fā) LLM 更優(yōu)任務(wù)表現(xiàn)的提示子序列,而不是簡(jiǎn)單地減少提示的長(zhǎng)度。

PROMPTQUINE 框架:自我進(jìn)化的核心引擎

框架的核心思想

PROMPTQUINE 框架的核心在于通過(guò)進(jìn)化搜索策略,自動(dòng)發(fā)現(xiàn)和優(yōu)化提示的修剪策略。該框架模仿自然界的進(jìn)化過(guò)程,將提示視為具有自我復(fù)制和變異能力的實(shí)體。在每一代中,提示會(huì)通過(guò)“復(fù)制 - 變異”(即修剪隨機(jī) token)生成新的后代。這些后代根據(jù)其在特定任務(wù)上的表現(xiàn)(即適應(yīng)度)進(jìn)行競(jìng)爭(zhēng),只有表現(xiàn)最佳的提示才能存活并傳遞到下一代。經(jīng)過(guò)多輪迭代,提示逐漸進(jìn)化為更適應(yīng)任務(wù)的形式,最終篩選出性能最優(yōu)的提示。

PROMPTQUINE 框架概覽

PROMPTQUINE 采用遺傳算法(GA),其中二進(jìn)制 token 掩碼作為基因型,修剪后的 ICL 提示作為表現(xiàn)型。變異通過(guò)將 token 從 1 翻轉(zhuǎn)為 0(即修剪操作)實(shí)現(xiàn)?;诰⒅髁x的選擇機(jī)制引導(dǎo)后代的生存,從而實(shí)現(xiàn)修剪策略的自主進(jìn)化。例如,在初始化階段,整個(gè)種群由 ICL 提示的副本組成;在變異率方面,從 {1, 2, 3, 4} 中隨機(jī)選擇要翻轉(zhuǎn)的位數(shù),以平衡探索與利用;在選擇方法上,采用錦標(biāo)賽選擇并略微降低選擇壓力,通過(guò)抽樣 k 個(gè)個(gè)體并選擇最佳個(gè)體進(jìn)行繁殖,以避免陷入局部最優(yōu);在正則化進(jìn)化方面,只有新后代才會(huì)競(jìng)爭(zhēng)種群的納入,這種方法在解決 ICL 問(wèn)題時(shí)表現(xiàn)出色,有效避免了標(biāo)準(zhǔn) GA 中常見(jiàn)的過(guò)早收斂問(wèn)題。

與自然界的類比

PROMPTQUINE 的進(jìn)化機(jī)制與生物進(jìn)化中的自然選擇有著深刻的相似性。在自然界中,生物通過(guò)遺傳變異和自然選擇不斷進(jìn)化,以適應(yīng)環(huán)境的變化。同樣,PROMPTQUINE 中的提示通過(guò)不斷變異(修剪)和選擇(基于任務(wù)表現(xiàn)的篩選),逐漸適應(yīng)復(fù)雜的 LLM 環(huán)境。這種進(jìn)化過(guò)程提高了提示的性能,并且揭示了提示設(shè)計(jì)中隱藏的模式和規(guī)律,為提示工程提供了新的視角。

以達(dá)爾文的自然選擇理論為例,生物的變異是隨機(jī)的,但自然選擇是定向的。同樣,PROMPTQUINE 中的提示變異(修剪)雖然是隨機(jī)的,但選擇機(jī)制是基于任務(wù)表現(xiàn)的定向篩選。那些在特定任務(wù)上表現(xiàn)較好的提示(即適應(yīng)度高的提示)更有可能被保留下來(lái)并繁殖后代,而表現(xiàn)較差的提示則逐漸被淘汰。經(jīng)過(guò)多代的進(jìn)化,提示逐漸適應(yīng)了 LLM 的環(huán)境,形成了更高效的任務(wù)解決方案。

方法細(xì)節(jié)與實(shí)驗(yàn)設(shè)計(jì)

PROMPTQUINE 框架的構(gòu)造

PROMPTQUINE 框架由搜索空間、算法和目標(biāo)函數(shù)三大部分構(gòu)成:

搜索結(jié)果裁剪表空間

算法

算法負(fù)責(zé)在搜索空間中探索,尋找最優(yōu)的提示子序列。PROMPTQUINE 采用進(jìn)化搜索算法,通過(guò)模擬自然選擇的過(guò)程,逐步優(yōu)化提示。算法的關(guān)鍵步驟包括初始化、變異、選擇和更新。在初始化階段,種群由多個(gè)個(gè)體組成,每個(gè)個(gè)體代表一個(gè)可能的提示子序列。變異操作通過(guò)隨機(jī)修剪 token 來(lái)生成新的提示子序列。選擇操作根據(jù)提示子序列的適應(yīng)度(任務(wù)表現(xiàn))來(lái)篩選出表現(xiàn)最佳的個(gè)體,保留到下一代種群中。更新操作則根據(jù)選擇結(jié)果對(duì)種群進(jìn)行更新,逐步提高種群的整體適應(yīng)度。

目標(biāo)函數(shù)

目標(biāo)函數(shù)作為性能衡量標(biāo)準(zhǔn),用于評(píng)估候選提示在特定任務(wù)上的有效性。對(duì)于分類任務(wù),目標(biāo)函數(shù)可以是分類準(zhǔn)確率;對(duì)于生成任務(wù),可以結(jié)合風(fēng)格、內(nèi)容和流暢度等多維度指標(biāo)。例如,在分類任務(wù)中,目標(biāo)函數(shù)可以定義為:

嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)設(shè)置

實(shí)驗(yàn)涵蓋了多種 LLM 模型,包括 Meta-Llama-3-8B-Instruct 等。任務(wù)類型豐富多樣,涉及分類、多項(xiàng)選擇問(wèn)答、生成和數(shù)學(xué)推理等領(lǐng)域。

模型

實(shí)驗(yàn)使用了多種 LLM 模型,包括 Meta-Llama-3-8B-Instruct、GPT-2、Llama3-8B 和 Llama3-70B 等。這些模型在規(guī)模、架構(gòu)和對(duì)齊程度上各不相同,確保了研究結(jié)果的普適性。例如,Meta-Llama-3-8B-Instruct 是一個(gè)經(jīng)過(guò)指令調(diào)優(yōu)的模型,具有較強(qiáng)的上下文學(xué)習(xí)能力;而 GPT-2 則是一個(gè)較為基礎(chǔ)的模型,適合用于驗(yàn)證方法的通用性。

任務(wù)

實(shí)驗(yàn)任務(wù)包括分類、多選問(wèn)答(如 PIQA)、生成(如評(píng)論風(fēng)格遷移)和數(shù)學(xué)推理(如 GSM8K 和 MAWPS)等。這些任務(wù)涵蓋了自然語(yǔ)言處理的多個(gè)重要領(lǐng)域。例如,SST-2 是一個(gè)情感分析任務(wù),用于判斷電影評(píng)論的情感傾向;PIQA 是一個(gè)常識(shí)推理任務(wù),用于評(píng)估模型對(duì)物理常識(shí)的理解;Yelp 評(píng)論風(fēng)格遷移任務(wù)則要求模型將評(píng)論從一種風(fēng)格轉(zhuǎn)換為另一種風(fēng)格,如從負(fù)面風(fēng)格轉(zhuǎn)換為正面風(fēng)格。

評(píng)估指標(biāo)

根據(jù)任務(wù)特點(diǎn)選擇評(píng)估指標(biāo)。例如,分類任務(wù)采用準(zhǔn)確率,生成任務(wù)結(jié)合風(fēng)格、內(nèi)容和流暢度等多維度指標(biāo),數(shù)學(xué)推理任務(wù)則關(guān)注問(wèn)題解決的準(zhǔn)確性。對(duì)于生成任務(wù),具體評(píng)估指標(biāo)包括:

  • 風(fēng)格(Style) :通過(guò)風(fēng)格分類器判斷生成文本是否符合目標(biāo)風(fēng)格。
  • 內(nèi)容(Content) :評(píng)估生成文本是否保留了原始文本的主要內(nèi)容。
  • 流暢度(Fluency) :通過(guò)語(yǔ)法正確性分類器判斷生成文本的流暢度。

PROMPTQUINE 實(shí)例:hill-climbing 算法的魔法

hill-climbing 算法的實(shí)踐成果

以 hill-climbing 算法為例,研究者展示了提示修剪的強(qiáng)大潛力。在 MultiArith 數(shù)據(jù)集上,研究者將提示從“Let’s work this out step by step to be sure we have the right answer”修剪為“Let’s work out step by step sure we right answer”,這一簡(jiǎn)單操作使模型性能從 81.5% 提升至 86.7%。這一顯著提升直觀地證明了提示修剪的有效性。

hill-climbing 算法通過(guò)迭代修剪 token 來(lái)優(yōu)化提示性能。具體來(lái)說(shuō),算法從初始提示開(kāi)始,逐步移除那些對(duì)性能提升有幫助的 token。如果新生成的提示性能優(yōu)于當(dāng)前最佳性能,則接受該提示并繼續(xù)迭代。這一過(guò)程持續(xù)進(jìn)行,直到無(wú)法通過(guò)修剪進(jìn)一步提升性能為止。在實(shí)際操作中,算法采用閾值接受(Threshold Accepting, TA)策略,即允許在一定閾值范圍內(nèi)接受性能稍遜的候選提示,以避免陷入局部最優(yōu)。

結(jié)果的意義

這些成果不僅證明了提示修剪方法的有效性,還引發(fā)了對(duì) LLM 內(nèi)部工作機(jī)制的深入思考。為何這些看似奇怪的提示能夠取得優(yōu)異效果?這可能暗示著 LLM 對(duì)提示的理解方式與人類存在根本差異。傳統(tǒng)觀念認(rèn)為,精心設(shè)計(jì)的自然語(yǔ)言指令是 LLM 表現(xiàn)的最佳選擇。然而,PROMPTQUINE 的研究表明,通過(guò)修剪自然語(yǔ)言提示,可以挖掘出更契合 LLM 運(yùn)行機(jī)制的提示形式。

從信息論的角度來(lái)看,自然語(yǔ)言提示中可能包含大量冗余信息,而 LLM 在處理這些提示時(shí)可能更關(guān)注某些關(guān)鍵特征。通過(guò)修剪提示,我們可以去除冗余信息,突出關(guān)鍵特征,從而提高 LLM 的任務(wù)表現(xiàn)。此外,修剪后的提示可能更符合 LLM 的內(nèi)部表示方式,使得模型能夠更高效地進(jìn)行任務(wù)推理。

關(guān)鍵實(shí)驗(yàn)結(jié)果與分析

分類任務(wù)的卓越表現(xiàn)

PROMPTQUINE 在多個(gè)分類數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于其他方法。例如,在 SST-2 數(shù)據(jù)集上,其準(zhǔn)確率達(dá)到 96.2%,相較于其他方法展現(xiàn)出顯著優(yōu)勢(shì)。下表詳細(xì)列出了其在各數(shù)據(jù)集上的性能對(duì)比情況:

分類任務(wù)性能對(duì)比

從表中可以看出,PROMPTQUINE 在各個(gè)數(shù)據(jù)集上均取得了最高的平均準(zhǔn)確率,同時(shí)在壓縮比方面也表現(xiàn)出色。這表明該方法不僅提升了模型的性能,還減少了提示的長(zhǎng)度,提高了運(yùn)行效率。

文本生成任務(wù)的創(chuàng)新突破

在文本風(fēng)格遷移領(lǐng)域,PROMPTQUINE 同樣表現(xiàn)出色。在 Yelp 評(píng)論風(fēng)格遷移任務(wù)中,其平均聯(lián)合評(píng)分達(dá)到了 72.1%,大幅超越了其他方法。對(duì)于越獄攻擊任務(wù),PROMPTQUINE 在 Vicuna-7b-v1.5 模型上的攻擊成功率(ASR-EM)更是高達(dá) 99.3%。

 Yelp 評(píng)論風(fēng)格遷移自動(dòng)評(píng)估

在 Yelp 評(píng)論風(fēng)格遷移任務(wù)中,聯(lián)合評(píng)分(Joint Score)是通過(guò)綜合內(nèi)容、風(fēng)格和流暢度三個(gè)指標(biāo)計(jì)算得出的。PROMPTQUINE 在這一任務(wù)上的表現(xiàn)優(yōu)于其他方法,說(shuō)明其修剪后的提示能夠更有效地引導(dǎo)模型生成符合目標(biāo)風(fēng)格的文本,同時(shí)保持內(nèi)容的準(zhǔn)確性和流暢度。在越獄攻擊任務(wù)中,PROMPTQUINE 的高攻擊成功率揭示了其在優(yōu)化提示以激發(fā)模型特定行為方面的強(qiáng)大能力,但也提醒我們?cè)趯?shí)際應(yīng)用中需要加強(qiáng)安全防護(hù)措施。

多選問(wèn)答與鏈?zhǔn)剿伎纪评淼娘@著成效

在多選問(wèn)答的 PIQA 數(shù)據(jù)集和鏈?zhǔn)剿伎纪评淼?GSM8K & MAWPS 數(shù)據(jù)集上,PROMPTQUINE 均取得了令人滿意的成果。例如,在 PIQA 數(shù)據(jù)集上,PROMPTQUINE 的準(zhǔn)確率達(dá)到 79.5%,相較于其他方法有顯著提升。在 GSM8K 數(shù)據(jù)集上,其問(wèn)題解決準(zhǔn)確率達(dá)到 84.0%,同樣優(yōu)于其他方法。這些結(jié)果進(jìn)一步驗(yàn)證了 PROMPTQUINE 在不同類型任務(wù)中的廣泛適用性和有效性。

增加 ICL 提示中的示例數(shù)量時(shí)的任務(wù)性能

在 PIQA 數(shù)據(jù)集上,PROMPTQUINE 通過(guò)修剪提示,使得模型能夠更好地理解和回答常識(shí)性問(wèn)題。這表明修剪后的提示能夠更有效地引導(dǎo)模型提取和利用上下文中的關(guān)鍵信息。在 GSM8K 數(shù)據(jù)集上,PROMPTQUINE 的表現(xiàn)則體現(xiàn)了其在數(shù)學(xué)推理任務(wù)中的優(yōu)勢(shì),說(shuō)明修剪后的提示有助于模型更準(zhǔn)確地進(jìn)行鏈?zhǔn)剿伎己蛦?wèn)題求解。

探討與啟示

修剪對(duì) ICL 的雙面影響

修剪策略對(duì) ICL 性能的影響具有兩面性。一方面,它能夠顯著提升 ICL 性能;另一方面,在面對(duì)不同 ICL 模板時(shí),其效果又呈現(xiàn)出不穩(wěn)定性。例如,在 SNLI 任務(wù)中,不同模板的使用可能導(dǎo)致高達(dá) 14.3% 的性能波動(dòng)。這凸顯了當(dāng)前修剪方法的局限性,也提醒我們,要實(shí)現(xiàn)更穩(wěn)健的 ICL 性能提升,還需引入更豐富的提示變化,探索更先進(jìn)的提示優(yōu)化技術(shù)。

PROMPTQUINE 修剪提示在不同 ICL 模板下的性能波動(dòng)

具體來(lái)說(shuō),不同 ICL 模板在信號(hào)詞、分隔符、自然語(yǔ)言指令的細(xì)微變化等方面存在差異,這些差異可能導(dǎo)致模型對(duì)提示的理解和響應(yīng)方式不同。例如,某些模板可能更強(qiáng)調(diào)前提與假設(shè)之間的邏輯關(guān)系,而另一些模板可能更注重語(yǔ)言的簡(jiǎn)潔性。修剪策略在不同模板上的表現(xiàn)差異,反映了提示優(yōu)化方法對(duì)提示結(jié)構(gòu)的敏感性。為了克服這一局限性,未來(lái)的研究可以探索更具適應(yīng)性的修剪策略,能夠根據(jù)不同的提示模板自動(dòng)調(diào)整修剪方式。

標(biāo)簽詞的重要性剖析

通過(guò)深入研究提示中的標(biāo)簽詞在分類任務(wù)中的作用,研究者發(fā)現(xiàn),許多經(jīng)過(guò)修剪的 ICL 提示依然保留了特定的標(biāo)簽詞。這表明標(biāo)簽詞在提示設(shè)計(jì)中扮演著關(guān)鍵角色,即便在修剪過(guò)程中,它們對(duì)于維持任務(wù)性能也具有不可忽視的影響。實(shí)驗(yàn)還揭示了修剪對(duì)標(biāo)簽詞保留情況的作用機(jī)制,為優(yōu)化提示設(shè)計(jì)提供了新的思路。

PROMPTQUINE 修剪提示中標(biāo)簽詞的出現(xiàn)頻率

例如,在某些修剪后的提示中,標(biāo)簽詞可能被保留下來(lái),而周圍的上下文信息被部分去除。這使得模型能夠更直接地關(guān)注標(biāo)簽詞所代表的類別信息,從而提高分類任務(wù)的準(zhǔn)確性。此外,標(biāo)簽詞的保留還可能有助于模型更好地理解任務(wù)的要求,明確輸出的目標(biāo)。

隨機(jī)標(biāo)簽詞的潛力

研究還探討了在隨機(jī)標(biāo)簽詞情況下修剪的潛力。實(shí)驗(yàn)表明,即使從頭開(kāi)始使用隨機(jī)標(biāo)簽詞,修剪也能帶來(lái)性能提升。這一發(fā)現(xiàn)進(jìn)一步證實(shí)了修剪方法的有效性,表明提示優(yōu)化可以超越傳統(tǒng)自然語(yǔ)言指令的限制,探索更廣泛的提示空間。

 移除標(biāo)簽或完整輸出時(shí)提示性能的變化

例如,當(dāng)隨機(jī)標(biāo)簽詞被引入到提示中時(shí),修剪策略能夠通過(guò)去除不相關(guān)的 token,突出那些對(duì)任務(wù)有幫助的標(biāo)簽詞。這表明 LLM 具有一定的魯棒性,能夠在不完全依賴預(yù)定義標(biāo)簽詞的情況下進(jìn)行任務(wù)推理。同時(shí),這也為提示設(shè)計(jì)提供了新的思路,即通過(guò)隨機(jī)化和修剪相結(jié)合的方式,發(fā)現(xiàn)潛在的提示結(jié)構(gòu)。

越獄攻擊任務(wù)的安全啟示

在越獄攻擊任務(wù)中,PROMPTQUINE 展現(xiàn)了其強(qiáng)大的提示優(yōu)化能力,但也暴露了 LLM 對(duì)齊技術(shù)的潛在弱點(diǎn)。盡管經(jīng)過(guò)廣泛的對(duì)齊訓(xùn)練,LLM 仍然可能被不自然的提示誘導(dǎo)出不良行為。這提醒我們?cè)趹?yīng)用 PROMPTQUINE 等提示優(yōu)化技術(shù)時(shí),必須加強(qiáng)安全機(jī)制,確保模型的輸出符合倫理和規(guī)范。

 越獄攻擊的成功率比較

具體來(lái)說(shuō),越獄攻擊的成功表明 LLM 在面對(duì)不自然提示時(shí),可能無(wú)法有效識(shí)別和拒絕潛在的有害請(qǐng)求。這提示我們?cè)趯?shí)際應(yīng)用中,需要結(jié)合更嚴(yán)格的內(nèi)容過(guò)濾機(jī)制和監(jiān)控策略,防止模型被惡意利用。同時(shí),這也為 LLM 的對(duì)齊研究提供了新的方向,即如何提高模型對(duì)不自然提示的魯棒性,增強(qiáng)其內(nèi)在的對(duì)齊能力。

總結(jié)

本文介紹了一種名為“PROMPTQUINE”的新型提示設(shè)計(jì)范式,用于優(yōu)化大型語(yǔ)言模型(LLM)的提示。這種范式挑戰(zhàn)了傳統(tǒng)智慧,即精心設(shè)計(jì)的任務(wù)指令和演示示例對(duì)于上下文學(xué)習(xí)(ICL)至關(guān)重要。論文的主要觀點(diǎn)和貢獻(xiàn)如下:

核心內(nèi)容

1. 挑戰(zhàn)傳統(tǒng)提示設(shè)計(jì):傳統(tǒng)上,人們認(rèn)為精心設(shè)計(jì)的指令和示例對(duì)于LLM的上下文學(xué)習(xí)至關(guān)重要。然而,論文指出,通過(guò)隨機(jī)剪枝(pruning)自然語(yǔ)言示例,生成看似不連貫的“胡言亂語(yǔ)”,可以在多種任務(wù)上顯著提高性能,甚至超越現(xiàn)有的自動(dòng)提示優(yōu)化技術(shù)。

2. PROMPTQUINE框架:提出了一個(gè)基于進(jìn)化搜索的框架PROMPTQUINE,它能夠在低數(shù)據(jù)環(huán)境下自動(dòng)搜索有效的剪枝策略。該框架受到自然選擇的啟發(fā),通過(guò)復(fù)制和突變提示(例如隨機(jī)剪枝 tokens),并在多代中進(jìn)化出有效的剪枝策略。

3. 實(shí)驗(yàn)驗(yàn)證:通過(guò)在多個(gè)任務(wù)(分類、多項(xiàng)選擇問(wèn)答、生成和數(shù)學(xué)推理)和多個(gè)LLM上的實(shí)驗(yàn),證明了該方法的有效性和運(yùn)行效率。實(shí)驗(yàn)結(jié)果表明,剪枝后的提示在多種任務(wù)上都能達(dá)到或超越現(xiàn)有方法的性能。

4. 理論解釋:論文提出,LLM可能對(duì)提示設(shè)計(jì)中的某些輸入特征敏感,而這些特征可能與人類語(yǔ)言的顯式結(jié)構(gòu)不一致。此外,論文還討論了為什么剪枝后的不自然語(yǔ)言提示仍然有效,指出LLM可能更傾向于基于輸入特征的假設(shè),而非人類語(yǔ)言的顯式結(jié)構(gòu)。

應(yīng)用方法

1. 提示剪枝:使用PROMPTQUINE框架對(duì)現(xiàn)有的ICL提示進(jìn)行剪枝。剪枝可以通過(guò)隨機(jī)移除提示中的tokens來(lái)實(shí)現(xiàn),目的是找到一個(gè)子序列,該子序列在特定任務(wù)上表現(xiàn)更好。

2. 進(jìn)化搜索:PROMPTQUINE采用進(jìn)化算法,包括遺傳算法(GA),來(lái)探索提示的搜索空間。算法通過(guò)變異(剪枝tokens)和選擇(基于適應(yīng)度的生存競(jìng)爭(zhēng))來(lái)進(jìn)化出更有效的提示。

3. 適應(yīng)度函數(shù):定義一個(gè)適應(yīng)度函數(shù)來(lái)評(píng)估提示的質(zhì)量,通常基于任務(wù)的性能指標(biāo)(如分類準(zhǔn)確率)。這個(gè)函數(shù)指導(dǎo)算法選擇哪些提示應(yīng)該被保留和進(jìn)一步優(yōu)化。

4. 任務(wù)適應(yīng):將PROMPTQUINE應(yīng)用于不同的任務(wù),如文本分類、風(fēng)格轉(zhuǎn)換、數(shù)學(xué)推理等。在每個(gè)任務(wù)中,根據(jù)任務(wù)特點(diǎn)調(diào)整適應(yīng)度函數(shù)和搜索策略。

關(guān)鍵結(jié)論

  • 剪枝的有效性:論文證明了通過(guò)剪枝自然語(yǔ)言提示,可以生成在多種任務(wù)上表現(xiàn)更好的不自然語(yǔ)言提示。
  • 進(jìn)化框架的優(yōu)勢(shì):PROMPTQUINE框架能夠自動(dòng)發(fā)現(xiàn)有效的剪枝策略,超越了傳統(tǒng)的人工設(shè)計(jì)和現(xiàn)有的提示壓縮方法。
  • 廣泛適用性:這種方法適用于多種LLM和任務(wù),顯示出良好的運(yùn)行效率和性能提升。

這篇論文提出了一種創(chuàng)新的提示優(yōu)化方法,通過(guò)進(jìn)化搜索自動(dòng)優(yōu)化提示,提高了LLM在多種任務(wù)上的性能,為未來(lái)的LLM提示設(shè)計(jì)和上下文學(xué)習(xí)研究提供了新的方向。非常好奇這種“胡言亂語(yǔ)”的效果,所以我打開(kāi)了這個(gè)研究的開(kāi)源倉(cāng)庫(kù),遺憾的是,作者暫時(shí)還沒(méi)有上傳代碼(開(kāi)源倉(cāng)庫(kù)見(jiàn)參考資料),希望能早點(diǎn)看到這個(gè)代碼吧。

責(zé)任編輯:龐桂玉 來(lái)源: 覺(jué)察流
相關(guān)推薦

2024-02-22 11:56:36

ChatGPT調(diào)試OpenAI

2024-09-26 16:22:34

2023-12-26 14:39:08

大數(shù)據(jù)數(shù)據(jù)治理

2025-04-21 08:42:00

模型開(kāi)源AI

2020-04-24 10:53:08

自然語(yǔ)言處理NLP是人工智能

2021-05-13 07:17:13

Snownlp自然語(yǔ)言處理庫(kù)

2024-02-23 11:34:00

模型AI

2011-01-04 17:08:10

匯編語(yǔ)言

2017-10-19 17:05:58

深度學(xué)習(xí)自然語(yǔ)言

2024-04-24 11:38:46

語(yǔ)言模型NLP人工智能

2021-09-22 10:18:58

自然語(yǔ)言神經(jīng)網(wǎng)絡(luò)人工智能

2009-11-25 14:25:14

PHP自然語(yǔ)言排序

2025-05-27 03:23:00

DSPyPydanticNLU

2024-02-05 14:18:07

自然語(yǔ)言處理

2021-05-17 09:00:00

自然語(yǔ)言人工智能技術(shù)

2021-03-26 11:02:20

Python自然語(yǔ)言API

2017-04-17 15:03:16

Python自然語(yǔ)言處理

2025-01-16 15:00:00

2020-02-25 12:00:53

自然語(yǔ)言開(kāi)源工具

2020-02-25 23:28:50

工具代碼開(kāi)發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)