偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無需人工標(biāo)注,自生成指令框架打破ChatGPT等LLM的成本瓶頸

人工智能
當(dāng)前,大型語言模型的性能已經(jīng)達(dá)到了很高的水平,除了進(jìn)一步挖掘其潛力,我們還應(yīng)該關(guān)注到模型背后的人工標(biāo)注成本。

?ChatGPT 是今年年底 AI 圈的新晉頂流,人們驚嘆于它強(qiáng)大的問答語言能力和掌握的編程知識。但越是強(qiáng)大的模型,其背后的技術(shù)要求也就越高。

ChatGPT 是在 GPT 3.5 系列模型的基礎(chǔ)上,引入「人工標(biāo)注數(shù)據(jù) + 強(qiáng)化學(xué)習(xí)」(RLHF)來不斷微調(diào)預(yù)訓(xùn)練語言模型,旨在讓大型語言模型(LLM)學(xué)會理解人類的命令,并學(xué)會根據(jù)給定的 prompt 給出最優(yōu)的答案。

這種技術(shù)思路是當(dāng)前語言模型的發(fā)展趨勢。這類模型雖然很有發(fā)展前景的,但模型訓(xùn)練和微調(diào)所需的成本非常高。

根據(jù) OpenAI 目前公開的信息,ChatGPT 的訓(xùn)練過程共分為三個階段:

圖片

首先,第一個階段是類似于 GPT 3.5 的有監(jiān)督策略模型,這個基礎(chǔ)模型很難理解人類不同類型指令中蘊(yùn)含的意圖,也很難判斷生成內(nèi)容的質(zhì)量高低。研究人員從 prompt 數(shù)據(jù)集中隨機(jī)抽取了一些樣例,然后讓專業(yè)的標(biāo)注人員根據(jù)指定 prompt 給出高質(zhì)量的答案。這個人工過程獲得的 prompt 及其相應(yīng)高質(zhì)量答案被用于微調(diào)初始的有監(jiān)督策略模型,使其具備基本的 prompt 理解能力,并初步提高生成答案的質(zhì)量。

第二階段研究團(tuán)隊抽取模型根據(jù)給定 prompt 生成的多個輸出,然后讓人類研究員對這些輸出進(jìn)行排序,再用排序數(shù)據(jù)訓(xùn)練獎勵模型(reward model,RM)。ChatGPT 采取 pair-wise loss 來訓(xùn)練 RM。

第三階段研究團(tuán)隊采用強(qiáng)化學(xué)習(xí)來增強(qiáng)預(yù)訓(xùn)練模型的能力,利用上一階段學(xué)好的 RM 模型來更新預(yù)訓(xùn)練模型參數(shù)。

我們可以發(fā)現(xiàn),在 ChatGPT 訓(xùn)練的三個階段中,只有第三階段不需要使用人工標(biāo)注數(shù)據(jù),而第一第二階段都需要大量的人工標(biāo)注。因此 ChatGPT 這類模型雖然性能很好,但是為了提高其遵循指令的能力,人工成本非常高。隨著模型規(guī)模越來越大,能力范圍越來越廣,這個問題就會越發(fā)嚴(yán)重,最終成為阻礙模型發(fā)展的瓶頸。

一些研究嘗試提出解決這一瓶頸的方法,比如華盛頓大學(xué)等機(jī)構(gòu)近期聯(lián)合發(fā)表了一篇論文《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》,提出的新框架 SELF-INSTRUCT 通過引導(dǎo)模型自己的生成過程,提高了預(yù)訓(xùn)練語言模型的指令遵循能力。

圖片

論文地址:https://arxiv.org/pdf/2212.10560v1.pdf

SELF-INSTRUCT 是一種半自動化過程,使用來自模型本身的指令信號對預(yù)訓(xùn)練的 LM 進(jìn)行指令調(diào)整。如下圖所示,整個過程是一個迭代引導(dǎo)算法。

SELF-INSTRUCT 從有限的種子集開始,指導(dǎo)整個生成過程的手動編寫指令。在第一階段,模型被 prompt 成為新任務(wù)生成指令,該步驟是利用現(xiàn)有的指令集來創(chuàng)建更廣泛的指令,以此來定義新任務(wù)。SELF-INSTRUCT 還為新生成的指令集創(chuàng)建輸入輸出實例,以用于監(jiān)督指令調(diào)整。最后,SELF-INSTRUCT 還對低質(zhì)量和重復(fù)指令進(jìn)行修剪。整個過程是反復(fù)迭代執(zhí)行的,最終模型能為大量任務(wù)生成指令。

為了驗證新方法的有效性,該研究在 GPT-3 上應(yīng)用 SELF-INSTRUCT 框架,最終產(chǎn)生大約 52k 條指令,82k 實例輸入和目標(biāo)輸出。研究者觀察到 GPT-3 在 SUPER-NATURALINSTRUCTIONS 數(shù)據(jù)集中的新任務(wù)上比原始模型獲得了 33.1% 的絕對改進(jìn),與使用私人用戶數(shù)據(jù)和人工標(biāo)注訓(xùn)練的 InstructGPT_001 性能相當(dāng)。

圖片

為了進(jìn)一步評估,該研究為新任務(wù)整理了一組專家編寫的指令,并通過人工評估表明,使用 SELF-INSTRUCT 的 GPT-3 性能會大大優(yōu)于現(xiàn)有使用公共指令數(shù)據(jù)集的模型,并且僅比 InstructGPT_001 落后 5%。 

圖片

SELF-INSTRUCT 提供了一種幾乎不需要人工標(biāo)注的方法,實現(xiàn)了預(yù)訓(xùn)練語言模型與指令對齊。已有多個工作在類似的方向上做出嘗試,都收獲了不錯的結(jié)果,可以看出這類方法對于解決大型語言模型人工標(biāo)注成本高的問題非常有效。這將讓 ChatGPT 等 LLM 變得更強(qiáng),走得更遠(yuǎn)。?

責(zé)任編輯:趙寧寧 來源: 機(jī)器之心
相關(guān)推薦

2025-06-03 09:05:00

2022-02-25 10:28:30

人工智能圖像模型

2025-04-27 09:16:00

模型AI數(shù)據(jù)

2023-06-16 14:11:00

研究監(jiān)督

2024-05-06 08:44:25

FrugalGPT大型語言模型LLM

2010-03-09 13:56:53

TD終端瓶頸

2024-03-14 06:54:45

ChatGPT人工智能

2024-01-29 12:55:00

模型訓(xùn)練

2021-04-30 15:45:42

存儲人工智能數(shù)據(jù)

2025-04-21 08:11:09

2010-07-05 16:46:16

FTTx

2024-01-06 17:39:47

數(shù)據(jù)視頻

2023-09-18 13:14:00

AI工具

2025-05-30 10:50:27

2024-03-01 12:19:00

接口性能優(yōu)化

2024-09-27 12:20:18

2024-05-15 09:17:30

模型AI

2025-01-08 15:15:16

2023-02-21 09:37:38

人工智能云資源DALL-E

2025-02-14 08:18:33

點贊
收藏

51CTO技術(shù)棧公眾號