偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="21z9w"><rp id="21z9w"><option id="21z9w"></option></rp></ruby>

<kbd id="21z9w"></kbd>

<table id="21z9w"><optgroup id="21z9w"></optgroup></table>

<sub id="21z9w"></sub>

<li id="21z9w"></li>

<kbd id="21z9w"><rp id="21z9w"></rp></kbd>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI自動(dòng)生成prompt媲美人類(lèi)，網(wǎng)友：工程師剛被聘用，又要淘汰了

作者：機(jī)器之心 2022-11-14 10:04:36

人工智能新聞

來(lái)自多倫多大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究者受 prompt engineering 的啟發(fā)，提出一種使用大型語(yǔ)言模型自動(dòng)生成和選擇指令的新算法，在 24 項(xiàng)任務(wù)中有 19 項(xiàng)達(dá)到了人類(lèi)水平的表現(xiàn)。

?現(xiàn)階段，得益于模型規(guī)模的擴(kuò)大和基于注意力架構(gòu)的出現(xiàn)，語(yǔ)言模型表現(xiàn)出了前所未有的通用性。這些大型語(yǔ)言模型（LLM，large language models）在各種不同任務(wù)中表現(xiàn)出非凡的能力，其中包括零樣本和小樣本設(shè)置。

然而，在模型通用性的基礎(chǔ)上，繼而引出一個(gè)控制問(wèn)題：我們?nèi)绾尾拍茏?LLM 按照我們的要求去做？

為了回答這個(gè)問(wèn)題并引導(dǎo) LLM 朝著我們期望的行為方向發(fā)展，研究者們采取了一系列措施來(lái)達(dá)到這個(gè)目的，例如對(duì)模型進(jìn)行微調(diào)、通過(guò)上下文進(jìn)行學(xué)習(xí)、不同形式的 prompt 生成等。而基于 prompt 的方法又包括可微調(diào)的 soft prompt 以及自然語(yǔ)言 prompt engineering（提示工程）。眾多研究者對(duì)后者表現(xiàn)出了極大的興趣，因?yàn)樗鼮槿祟?lèi)與機(jī)器交互提供了一個(gè)自然交互的界面。?

然而簡(jiǎn)單的 prompt 并不總能產(chǎn)生所需的結(jié)果，例如，在生成熊貓圖像時(shí)，添加諸如「cute」之類(lèi)的形容詞或諸如「eat bamboo」之類(lèi)的短語(yǔ)對(duì)輸出有何影響，我們不了解。

因此，人類(lèi)用戶必須嘗試各種 prompt 來(lái)引導(dǎo)模型完成我們期望的行為。LLM 這一執(zhí)行過(guò)程可視為黑盒過(guò)程：雖然它們可以執(zhí)行大范圍的自然語(yǔ)言程序，但這些程序的處理方式對(duì)人類(lèi)來(lái)說(shuō)可能并不直觀，非常難以理解，而且只有在執(zhí)行下游任務(wù)時(shí)才能衡量指令的質(zhì)量。

我們不禁會(huì)問(wèn)：大型語(yǔ)言模型可以為自己編寫(xiě) prompt 嗎？答案是，不但可以，還能達(dá)到人類(lèi)水平。

為了減少創(chuàng)建和驗(yàn)證有效指令的人工工作量，來(lái)自多倫多大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究者提出了一種使用 LLM 自動(dòng)生成和選擇指令的新算法：APE（Automatic Prompt Engineer）。他們將此問(wèn)題描述為自然語(yǔ)言程序合成，并建議將其作為黑盒優(yōu)化問(wèn)題來(lái)處理，LLM 可以用來(lái)生成以及搜索可行的候選解決方案。

論文地址：https://arxiv.org/pdf/2211.01910.pdf
論文主頁(yè)：https://sites.google.com/view/automatic-prompt-engineer?

研究者從 LLM 的三個(gè)特性入手。首先，使用 LLM 作為推理模型，根據(jù)輸入 - 輸出對(duì)形式的一小組演示生成指令候選。接下來(lái)，通過(guò) LLM 下的每條指令計(jì)算一個(gè)分?jǐn)?shù)來(lái)指導(dǎo)搜索過(guò)程。最后，他們提出一種迭代蒙特卡洛搜索方法，LLM 通過(guò)提出語(yǔ)義相似指令變體來(lái)改進(jìn)最佳候選指令。

直觀地說(shuō)，本文提出的算法要求 LLM 根據(jù)演示生成一組指令候選，然后要求算法評(píng)估哪些指令更有希望，并將該算法命名為 APE。

本文貢獻(xiàn)如下：?

研究者將指令生成作為自然語(yǔ)言程序合成，將其表述為一個(gè)由 LLM 引導(dǎo)的黑盒優(yōu)化問(wèn)題，并提出迭代蒙特卡羅搜索方法來(lái)近似求解；
APE 方法在 19/24 任務(wù)中實(shí)現(xiàn)了比人工注釋器生成的指令更好或相當(dāng)?shù)男阅堋?/span>

看到這項(xiàng)研究，網(wǎng)友不禁感嘆：那些剛被聘用的 prompt 工程師，幾個(gè)月后可能要被 AI 淘汰。言外之意就是，這項(xiàng)研究要搶了人類(lèi) prompt 工程師的活。

「該研究盡最大的努力使 prompt engineering 自動(dòng)化，這樣從事 ML 的研究人員就可以回到真正的算法問(wèn)題上了（附加兩個(gè)大哭的表情）。」

還有人感嘆：LLM 不愧是原始 AGI 的中流砥柱。

使用 LLM 進(jìn)行自然語(yǔ)言程序合成

APE 在建議（proposal）和評(píng)分這兩個(gè)關(guān)鍵組件中都使用 LLM。

如下圖 2 和算法 1 所示，APE 首先提出幾個(gè)候選 prompt，然后根據(jù)選定的評(píng)分函數(shù)對(duì)候選集合進(jìn)行篩選 / 精煉，最終選擇得分最高的指令。

下圖為 APE 的執(zhí)行過(guò)程。它可以通過(guò)直接推理或基于語(yǔ)義相似度的遞歸過(guò)程生成幾個(gè)候選 prompt，評(píng)估其性能，并迭代地提出新的 prompt。

初始提議分布?

由于搜索空間無(wú)限大，找到正確指令是極其困難的，這使得自然語(yǔ)言程序合成歷來(lái)難以處理?；诖?，研究者考慮利用一個(gè)預(yù)先訓(xùn)練過(guò)的 LLM 來(lái)提出一個(gè)候選解決方案，以指導(dǎo)搜索過(guò)程。?

他們考慮兩種方法生成高質(zhì)量候選。首先采用一種基于前向模式生成的方法。此外，他們還考慮了反向模式生成，使用具有填充功能的 LLM（如 T5、GLM、InsertGPT）來(lái)推斷缺失的指令。

得分函數(shù)

為了將問(wèn)題轉(zhuǎn)換為黑盒優(yōu)化問(wèn)題，研究者選擇了一個(gè)得分函數(shù)來(lái)準(zhǔn)確測(cè)量數(shù)據(jù)集和模型生成的數(shù)據(jù)之間的對(duì)齊情況。

在歸納實(shí)驗(yàn)中，研究者考慮了兩個(gè)潛在的得分函數(shù)。在 TruthfulQA 實(shí)驗(yàn)中，研究者主要關(guān)注 Lin 等人提出的自動(dòng)化指標(biāo)，類(lèi)似于執(zhí)行精度。

在每一種情況下，研究者使用如下公式 (1) 來(lái)評(píng)估生成指令的質(zhì)量，并對(duì)持有測(cè)試數(shù)據(jù)集 Dtest 進(jìn)行期望。

實(shí)驗(yàn)?

研究者對(duì) APE 如何引導(dǎo) LLM 實(shí)現(xiàn)預(yù)期的行為進(jìn)行了研究。他們從三個(gè)角度進(jìn)行：零樣本性能、少樣本上下文學(xué)習(xí)性能和真實(shí)性（truthfulness）。

研究者評(píng)估了 Honovich 等人提出的 24 個(gè)指令歸納任務(wù)的零樣本和少樣本上下文學(xué)習(xí)。這些任務(wù)涵蓋語(yǔ)言理解的許多方面，從簡(jiǎn)單的短語(yǔ)結(jié)構(gòu)到相似性和因果關(guān)系識(shí)別。為了了解 APE 生成的指令如何引導(dǎo) LLM 生成不同風(fēng)格的答案，本文將 APE 應(yīng)用于 TruthfulQA（一個(gè)數(shù)據(jù)集）。?

對(duì)于零樣本測(cè)試準(zhǔn)確率，APE 在 24 項(xiàng)任務(wù)中有 19 項(xiàng)達(dá)到了人類(lèi)水平的表現(xiàn)。

對(duì)于少樣本上下文測(cè)試準(zhǔn)確率，在 24 個(gè)任務(wù)中，APE 提高了 21 個(gè)任務(wù)的少樣本上下文學(xué)習(xí)性能。

研究者還將 APE prompt 與 Lin 等人提出的人工 prompt 進(jìn)行了對(duì)比。圖 (a) 顯示 APE 指令在所有三個(gè)指標(biāo)上的表現(xiàn)都優(yōu)于人工 prompt。圖（b）顯示了 truthfulness 和 informativeness 之間的權(quán)衡。

更多細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)