偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI自動(dòng)生成prompt媲美人類(lèi),網(wǎng)友:工程師剛被聘用,又要淘汰了

人工智能 新聞
來(lái)自多倫多大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究者受 prompt engineering 的啟發(fā),提出一種使用大型語(yǔ)言模型自動(dòng)生成和選擇指令的新算法,在 24 項(xiàng)任務(wù)中有 19 項(xiàng)達(dá)到了人類(lèi)水平的表現(xiàn)。

?現(xiàn)階段,得益于模型規(guī)模的擴(kuò)大和基于注意力架構(gòu)的出現(xiàn),語(yǔ)言模型表現(xiàn)出了前所未有的通用性。這些大型語(yǔ)言模型(LLM,large language models)在各種不同任務(wù)中表現(xiàn)出非凡的能力,其中包括零樣本和小樣本設(shè)置。

然而,在模型通用性的基礎(chǔ)上,繼而引出一個(gè)控制問(wèn)題:我們?nèi)绾尾拍茏?LLM 按照我們的要求去做?

為了回答這個(gè)問(wèn)題并引導(dǎo) LLM 朝著我們期望的行為方向發(fā)展,研究者們采取了一系列措施來(lái)達(dá)到這個(gè)目的,例如對(duì)模型進(jìn)行微調(diào)、通過(guò)上下文進(jìn)行學(xué)習(xí)、不同形式的 prompt 生成等。而基于 prompt 的方法又包括可微調(diào)的 soft prompt 以及自然語(yǔ)言 prompt engineering(提示工程)。眾多研究者對(duì)后者表現(xiàn)出了極大的興趣,因?yàn)樗鼮槿祟?lèi)與機(jī)器交互提供了一個(gè)自然交互的界面。?

然而簡(jiǎn)單的 prompt 并不總能產(chǎn)生所需的結(jié)果,例如,在生成熊貓圖像時(shí),添加諸如「cute」之類(lèi)的形容詞或諸如「eat bamboo」之類(lèi)的短語(yǔ)對(duì)輸出有何影響,我們不了解。

因此,人類(lèi)用戶必須嘗試各種 prompt 來(lái)引導(dǎo)模型完成我們期望的行為。LLM 這一執(zhí)行過(guò)程可視為黑盒過(guò)程:雖然它們可以執(zhí)行大范圍的自然語(yǔ)言程序,但這些程序的處理方式對(duì)人類(lèi)來(lái)說(shuō)可能并不直觀,非常難以理解,而且只有在執(zhí)行下游任務(wù)時(shí)才能衡量指令的質(zhì)量。

我們不禁會(huì)問(wèn):大型語(yǔ)言模型可以為自己編寫(xiě) prompt 嗎?答案是,不但可以,還能達(dá)到人類(lèi)水平。

為了減少創(chuàng)建和驗(yàn)證有效指令的人工工作量,來(lái)自多倫多大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究者提出了一種使用 LLM 自動(dòng)生成和選擇指令的新算法:APE(Automatic Prompt Engineer)。他們將此問(wèn)題描述為自然語(yǔ)言程序合成,并建議將其作為黑盒優(yōu)化問(wèn)題來(lái)處理,LLM 可以用來(lái)生成以及搜索可行的候選解決方案。


  • 論文地址:https://arxiv.org/pdf/2211.01910.pdf
  • 論文主頁(yè):https://sites.google.com/view/automatic-prompt-engineer?

研究者從 LLM 的三個(gè)特性入手。首先,使用 LLM 作為推理模型,根據(jù)輸入 - 輸出對(duì)形式的一小組演示生成指令候選。接下來(lái),通過(guò) LLM 下的每條指令計(jì)算一個(gè)分?jǐn)?shù)來(lái)指導(dǎo)搜索過(guò)程。最后,他們提出一種迭代蒙特卡洛搜索方法,LLM 通過(guò)提出語(yǔ)義相似指令變體來(lái)改進(jìn)最佳候選指令。

直觀地說(shuō),本文提出的算法要求 LLM 根據(jù)演示生成一組指令候選,然后要求算法評(píng)估哪些指令更有希望,并將該算法命名為 APE。 

本文貢獻(xiàn)如下:?

  • 研究者將指令生成作為自然語(yǔ)言程序合成,將其表述為一個(gè)由 LLM 引導(dǎo)的黑盒優(yōu)化問(wèn)題,并提出迭代蒙特卡羅搜索方法來(lái)近似求解;
  • APE 方法在 19/24 任務(wù)中實(shí)現(xiàn)了比人工注釋器生成的指令更好或相當(dāng)?shù)男阅堋?/span>

看到這項(xiàng)研究,網(wǎng)友不禁感嘆:那些剛被聘用的 prompt 工程師,幾個(gè)月后可能要被 AI 淘汰。言外之意就是,這項(xiàng)研究要搶了人類(lèi) prompt 工程師的活。

圖片

「該研究盡最大的努力使 prompt engineering 自動(dòng)化,這樣從事 ML 的研究人員就可以回到真正的算法問(wèn)題上了(附加兩個(gè)大哭的表情)。」

圖片


還有人感嘆:LLM 不愧是原始 AGI 的中流砥柱。

圖片

使用 LLM 進(jìn)行自然語(yǔ)言程序合成

APE 在建議(proposal)和評(píng)分這兩個(gè)關(guān)鍵組件中都使用 LLM。

如下圖 2 和算法 1 所示,APE 首先提出幾個(gè)候選 prompt,然后根據(jù)選定的評(píng)分函數(shù)對(duì)候選集合進(jìn)行篩選 / 精煉,最終選擇得分最高的指令。

圖片

下圖為 APE 的執(zhí)行過(guò)程。它可以通過(guò)直接推理或基于語(yǔ)義相似度的遞歸過(guò)程生成幾個(gè)候選 prompt,評(píng)估其性能,并迭代地提出新的 prompt。

圖片

初始提議分布?

由于搜索空間無(wú)限大,找到正確指令是極其困難的,這使得自然語(yǔ)言程序合成歷來(lái)難以處理?;诖?,研究者考慮利用一個(gè)預(yù)先訓(xùn)練過(guò)的 LLM 來(lái)提出一個(gè)候選解決方案,以指導(dǎo)搜索過(guò)程。?

他們考慮兩種方法生成高質(zhì)量候選。首先采用一種基于前向模式生成的方法。此外,他們還考慮了反向模式生成,使用具有填充功能的 LLM(如 T5、GLM、InsertGPT)來(lái)推斷缺失的指令。

圖片

得分函數(shù)

為了將問(wèn)題轉(zhuǎn)換為黑盒優(yōu)化問(wèn)題,研究者選擇了一個(gè)得分函數(shù)來(lái)準(zhǔn)確測(cè)量數(shù)據(jù)集和模型生成的數(shù)據(jù)之間的對(duì)齊情況。

在歸納實(shí)驗(yàn)中,研究者考慮了兩個(gè)潛在的得分函數(shù)。在 TruthfulQA 實(shí)驗(yàn)中,研究者主要關(guān)注 Lin 等人提出的自動(dòng)化指標(biāo),類(lèi)似于執(zhí)行精度。

在每一種情況下,研究者使用如下公式 (1) 來(lái)評(píng)估生成指令的質(zhì)量,并對(duì)持有測(cè)試數(shù)據(jù)集 Dtest 進(jìn)行期望。

實(shí)驗(yàn)?

研究者對(duì) APE 如何引導(dǎo) LLM 實(shí)現(xiàn)預(yù)期的行為進(jìn)行了研究。他們從三個(gè)角度進(jìn)行:零樣本性能、少樣本上下文學(xué)習(xí)性能和真實(shí)性(truthfulness)。

研究者評(píng)估了 Honovich 等人提出的 24 個(gè)指令歸納任務(wù)的零樣本和少樣本上下文學(xué)習(xí)。這些任務(wù)涵蓋語(yǔ)言理解的許多方面,從簡(jiǎn)單的短語(yǔ)結(jié)構(gòu)到相似性和因果關(guān)系識(shí)別。為了了解 APE 生成的指令如何引導(dǎo) LLM 生成不同風(fēng)格的答案,本文將 APE 應(yīng)用于 TruthfulQA(一個(gè)數(shù)據(jù)集)。?

對(duì)于零樣本測(cè)試準(zhǔn)確率,APE 在 24 項(xiàng)任務(wù)中有 19 項(xiàng)達(dá)到了人類(lèi)水平的表現(xiàn)。

圖片

對(duì)于少樣本上下文測(cè)試準(zhǔn)確率,在 24 個(gè)任務(wù)中,APE 提高了 21 個(gè)任務(wù)的少樣本上下文學(xué)習(xí)性能。

圖片

研究者還將 APE prompt 與 Lin 等人提出的人工 prompt 進(jìn)行了對(duì)比。圖 (a) 顯示 APE 指令在所有三個(gè)指標(biāo)上的表現(xiàn)都優(yōu)于人工 prompt。圖(b)顯示了 truthfulness 和 informativeness 之間的權(quán)衡。

圖片

更多細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-24 09:55:47

2024-10-30 14:50:00

系統(tǒng)語(yǔ)音模型

2020-02-12 14:13:27

工程師彈幕新玩法

2023-07-27 07:37:48

2025-05-15 09:13:00

2023-05-22 15:22:40

微軟AI

2025-06-18 08:26:01

2024-10-30 14:30:00

AI代碼程序員

2024-04-15 11:48:09

2018-10-20 15:20:10

2022-12-28 13:57:56

AI模型語(yǔ)言

2020-12-15 13:19:42

數(shù)據(jù)科學(xué)數(shù)據(jù)大數(shù)據(jù)

2020-12-02 13:46:24

百度大腦

2018-09-26 10:56:38

2024-07-02 10:24:35

2024-07-10 12:33:06

2025-01-02 13:41:53

2025-01-13 09:30:00

2021-07-05 10:29:59

AI 工程師人工智能

2023-01-01 13:35:06

工程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)