偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

【GPT-4理論篇】GPT-4核心技術(shù)探秘

作者：京東云開發(fā)者 2023-06-19 08:19:50

GPT-4究竟會(huì)不會(huì)帶來第四次工業(yè)革命，這是一個(gè)需要時(shí)間驗(yàn)證的話題，我也沒有資格在這給出結(jié)論，但GPT-4對(duì)與我個(gè)人的影響是巨大的。

前言

GPT-4已經(jīng)發(fā)布有一段時(shí)間了，但是出于安全性等各種原因，OpenAI并沒有公布GPT-4的技術(shù)細(xì)節(jié)和代碼，而是僅僅給出了一個(gè)長達(dá)100頁的技術(shù)報(bào)告[1]。

這個(gè)技術(shù)報(bào)告著重介紹了GPT-4的強(qiáng)大之處，僅僅給出了幾個(gè)技術(shù)方向的概括，對(duì)于想了解技術(shù)細(xì)節(jié)的我們遠(yuǎn)遠(yuǎn)不夠。

在本文中，我將結(jié)合GPT-4的技術(shù)報(bào)告、GPT-4相對(duì)于GPT 3.5/ChatGPT的提升、GPT-4和ChatGPT的對(duì)比、OpenAI的近期工作，大語言模型（Large Language Model，LLM）模型的科研進(jìn)展，多模態(tài)模型的科研進(jìn)展等多方面的信息，深入分析GPT-4的技術(shù)細(xì)節(jié)。

因?yàn)椴]有明確的證據(jù)證明GPT-4就是這么做的，所以我們?cè)谶@里主要討論要實(shí)現(xiàn)GPT-4的這些能力，OpenAI可能使用了哪些技術(shù)。所以如果我的推測(cè)有所錯(cuò)誤，也歡迎各位讀者在評(píng)論區(qū)探討。接下來讓我們一起化身福爾摩斯，開始分析GPT-4背后的原理吧。

1. GPT-4的提升

GPT-4是在ChatGPT基礎(chǔ)上迭代出來的，關(guān)于ChatGPT的原理我再這里就不再贅述，需要了解的移步我在《ChatGPT/InstructGPT詳解》一文中給的介紹。這篇文章中，我們先討論GPT-4相對(duì)于ChatGPT做了哪些改進(jìn)，即GPT-4相對(duì)于ChatGPT有哪些功能上的提升。接下來我們討論OpenAI為了做到這些提升，在GPT-4中可能應(yīng)用了哪些技術(shù)。最后我們討論其它大語言模型以及使用GPT-4的一些感想。

1.1 zero-shot及few-shot的學(xué)習(xí)能力

當(dāng)我們?cè)谑褂肎PT-4進(jìn)行文本生成時(shí)，我們會(huì)驚喜的發(fā)現(xiàn)GPT-4幾乎可以非常完美的回答你各種刁鉆的問題，這說明了GPT-4具有非常強(qiáng)大的無監(jiān)督學(xué)習(xí)的能力。

此外，GPT-4的技術(shù)報(bào)告中也給出了大量的無監(jiān)督學(xué)習(xí)的例子，甚至在有些場(chǎng)景逼近甚至超過了有監(jiān)督的SOTA方法。例如在HumanEval[3]的代碼生成數(shù)據(jù)集上，甚至超過了著名的代碼生成工具CodeX[3]。此外，在評(píng)估正確性的問答數(shù)據(jù)集TruthfulQA [26]上，GPT-4逼近了SOTA的 Anthropic-LM[4]。

1.2 邏輯推理能力

GPT-4的技術(shù)報(bào)告中著重強(qiáng)調(diào)的是它相對(duì)于ChatGPT在諸多學(xué)術(shù)考試上的提升，如圖1。學(xué)術(shù)測(cè)試評(píng)估反映的是GPT-4比ChatGPT有更強(qiáng)的邏輯推理能力。@岳玉濤 Max通過19個(gè)問題橫向?qū)Ρ攘薌PT-4和ChatGPT的邏輯推理問題[2]，其中ChatGPT的正確率是37%，GPT-4的正確率是100%，從對(duì)比的例子中我們明顯可以看出GPT-4在邏輯推理上有著質(zhì)的飛躍。

圖1：GPT-4與ChatGPT在諸多學(xué)術(shù)考試中的成績(jī)對(duì)比

我這里也找了一個(gè)簡(jiǎn)單的邏輯推理問題，可以看出在這個(gè)過橋的例子中ChatGPT雖然給出了過橋順序，但是時(shí)間計(jì)算錯(cuò)誤，而GPT-4則簡(jiǎn)單又清晰的解決了這個(gè)問題。

**問題：**四個(gè)人 ABCD 過橋，一次最多能過兩個(gè)人，他們的手電能維持十七分鐘，每個(gè)人所需的時(shí)間分別為 1、2、5、10；求最快可以多長時(shí)間全部過橋？

**ChatGPT：**為了讓四個(gè)人盡快過橋，我們需要讓速度最慢的人盡快過橋。因此，我們可以先讓速度最慢的兩個(gè)人 A 和 B 過橋，然后讓 A 返回，再讓速度次慢的人 C 和 D 過橋，最后讓 B 返回，這樣就完成了全部過橋的過程。

具體來說，我們可以按照以下步驟進(jìn)行：

A 和 B 過橋，花費(fèi)時(shí)間為 10 分鐘。

A 返回，花費(fèi)時(shí)間為 1 分鐘。

C 和 D 過橋，花費(fèi)時(shí)間為 5 分鐘。

B 返回，花費(fèi)時(shí)間為 2 分鐘。

A 和 B 過橋，花費(fèi)時(shí)間為 10 分鐘。

因此，總共花費(fèi)的時(shí)間為 10 + 1 + 5 + 2 + 10 = 28 分鐘。這就是最快可以多長時(shí)間全部過橋的時(shí)間。

GPT-4：為了使四個(gè)人 ABCD 最快地全部過橋，我們可以采取以下策略：

A 和 B 一起過橋，用時(shí) 2 分鐘。

A 返回，用時(shí) 1 分鐘。

C 和 D 一起過橋，用時(shí) 10 分鐘。

B 返回，用時(shí) 2 分鐘。

A 和 B 一起過橋，用時(shí) 2 分鐘。

總共用時(shí)：2 + 1 + 10 + 2 + 2 = 17 分鐘。

所以最快可以在 17 分鐘內(nèi)使所有人過橋。

1.3 理解圖表能力

GPT-4的一個(gè)重大提升是開始涉及多模態(tài)，鑒于GPT-4的圖像接口還未開放，我們這里借用GPT-4的技術(shù)報(bào)告中給的例子。在圖2中，GPT-4能夠精確的理解VGA口Lightning口的不協(xié)調(diào)之處。這個(gè)例子說明GPT-4不僅僅是簡(jiǎn)單的理解圖像中的內(nèi)容，它最厲害的點(diǎn)在于能夠識(shí)別圖像中的特殊點(diǎn)。

圖2：GPT-4具有強(qiáng)大的圖、表理解能力

1.4 更安全的文本生成能力

GPT-4的技術(shù)報(bào)告中重點(diǎn)討論了GPT-4和之前的模型一樣有安全問題，但GPT-4的安全性已經(jīng)大幅提升。技術(shù)報(bào)告中指出，ChatGPT生成有害內(nèi)容的概率大概是GPT-4的10倍。圖3舉了大量的早期GPT-4和成熟GPT-4在有風(fēng)險(xiǎn)提示下生成的內(nèi)容，可以看出成熟GPT-4的危險(xiǎn)性大大降低，但這并不意味著GPT-4就是一個(gè)完全無害的模型。

圖3：早期GPT-4和成熟GPT-4在生成內(nèi)容安全性上的示例

GPT-4做了大量的工作來保證模型的安全性，首先它們聘請(qǐng)了50余位不同方向的領(lǐng)域?qū)＜疫M(jìn)行對(duì)抗測(cè)試和紅隊(duì)測(cè)試，二是訓(xùn)練了一個(gè)基于規(guī)則的獎(jiǎng)勵(lì)模型（Rule-Based Reward Models, RBRMs）來輔助模型的訓(xùn)練，關(guān)于這一部分的實(shí)現(xiàn)細(xì)節(jié)，我們將會(huì)在后面詳細(xì)展開。

1.5 更強(qiáng)的編程能力

GPT-4的技術(shù)報(bào)告中另外一個(gè)重要的對(duì)比項(xiàng)是它和ChatGPT在LeetCode上易中難三個(gè)不同難度上的代碼生成能力。在無監(jiān)督的情況下，GPT-4在HumanEval數(shù)據(jù)集上的評(píng)估準(zhǔn)確率由ChatGPT的48.1%提升至67.0%。GPT-4的技術(shù)報(bào)告中指出，ChatGPT在LeetCode的166道編程題中僅對(duì)了20道，而GPT-4則回答對(duì)了55道。表1是GPT-4和ChatGPT在LeetCode的這166道編程題的具體分布。

	GPT-4	GPT-4 (no vision)	ChatGPT
LeetCode（easy）	31 / 41	31 / 41	12 / 41
LeetCode（medium）	21 / 80	21 / 80	8 / 80
LeetCode（hard）	3 / 45	3 / 45	0 / 45

表1：GPT-4和ChatGPT在LeetCode編程題上的表現(xiàn)效果

1.6 處理其它語言的能力

GPT-4在英語以及非英語上都有了大幅提升，在大多數(shù)語種上都超過了ChatGPT在英語上的表現(xiàn)，這里我們分別讓ChatGPT和GPT-4分別應(yīng)《讓子彈飛》中湯師爺?shù)囊髮懸皇自姡笫恰耙酗L(fēng)，要有肉；要有火鍋，要有霧；要有美女，要有驢！”。對(duì)比兩首詩，ChatGPT寫的像是沒有什么文采的現(xiàn)代詩，而GPT-4生成的內(nèi)容除了前面兩居字?jǐn)?shù)過多之外，基本像一首中國古詩了，甚至還在一定程度上保證了押韻。

ChatGPT:

風(fēng)吹過山崗，肉香四溢
火鍋熱氣騰騰，霧氣繚繞
美女婀娜多姿，驢兒歡快奔騰
這是一幅獨(dú)特的畫卷，讓人心曠神怡
風(fēng)肆意地吹拂，肉香撲鼻而來
火鍋里的食材，讓人垂涎欲滴
霧氣彌漫，讓人感到神秘
美女的容顏，讓人陶醉其中
驢兒的歡快，讓人感受到生命的活力
這是一幅充滿生命力的畫卷，讓人心馳神往

GPT-4:

翻滾的風(fēng)肆意掠過山澗，
火鍋涮肉錦上添花。
炊煙裊裊繞霧纏，
美女佳驢共同游。

美女翩翩拂驢背，
吹散煩憂與世界。
嬉戲胭脂笑顏?zhàn)恚?br>驢兒踏歌奔山外。

火紅蘑菇熱情翻，
辣椒牛肉峰水澹。
鴛鴦火鍋歡歌笑，
時(shí)光荏苒留夢(mèng)間。

霧濛濛滌凈塵緣，
蓑衣柴扉任風(fēng)險(xiǎn)。
驢蹄踏碎人間俗，
飛鴻蹄印留輝煌。

1.7 處理更長序列的能力

ChatGPT能處理的最大序列是4K個(gè)token，而OpenAI開放了8k和32k的兩個(gè)模型，其中每個(gè)漢字大概占用2到2.5個(gè)token。GPT-4的token根據(jù)指示和回應(yīng)分別計(jì)價(jià)（表2），其中32k的價(jià)格是8k的兩倍，對(duì)比ChatGPT的每1000token的0.02美元，GPT-4要貴了15倍左右。

模型	Prompt	Completion
8K context	$0.03 / 1K tokens	$0.06 / 1K tokens
32K context	$0.06 / 1K tokens	$0.12 / 1K tokens

表2：GPT-4的收費(fèi)細(xì)節(jié)

關(guān)于GPT-4的更多能力的探測(cè)，微軟雷蒙德研究院機(jī)器學(xué)習(xí)理論組負(fù)責(zé)人Sébastien Bubeck在他們最新發(fā)布的長達(dá)155頁的文章[25]中進(jìn)行了廣泛的討論。

他們指出GPT-4表現(xiàn)出了遠(yuǎn)超文本生成模型理論上能表現(xiàn)的效果，成為了點(diǎn)燃通用人工智能（AGI）烈焰的星星之火，GPT-4已經(jīng)具備了非常強(qiáng)的推理、計(jì)劃、解決問題、抽象思考、理解復(fù)雜想法、快速學(xué)習(xí)以及從經(jīng)驗(yàn)中學(xué)習(xí)的能力。

2. GPT-4技術(shù)方案猜測(cè)

有了我們發(fā)現(xiàn)的GPT的這些提升，我們便可以結(jié)合當(dāng)前LLM的進(jìn)展以及OpenAI的工作猜測(cè)GPT-4可能的技術(shù)方案。因?yàn)槲覀冎荒芤揽抗嫉乃惴ㄟM(jìn)行推測(cè)，不排除OpenAI內(nèi)部使用未開放的算法作為解決方案，所以如果我的猜測(cè)有誤，您就姑且當(dāng)做學(xué)習(xí)到了幾個(gè)獨(dú)立的算法。

zero-shot及few-shot的學(xué)習(xí)能力：這個(gè)提升的理論依據(jù)很大可能是因?yàn)榇竽Ｐ偷挠楷F(xiàn)能力（emergent ability）[5]；
邏輯推理能力：用到了大模型的思維鏈（Chain of Thought，CoT）[6]以及自提升能力（Self-Improve Ability）[7]；
理解圖像能力：推測(cè)借鑒了OpenAI著名的多模態(tài)模型CLIP[8]或者是微軟的多模態(tài)模型KOSMOS-1[12]；
更安全的文本生成能力：這一部分技術(shù)報(bào)告中介紹的比較多，主要是專家測(cè)試，幻覺檢測(cè)以及RBRM；
更強(qiáng)的編程能力：推測(cè)這一部分借鑒了OpenAI的著名的代碼生成模型：CodeX；
處理其它語言的能力：推測(cè)可能借鑒了XLM [9]等跨語言預(yù)訓(xùn)練模型的思想，或是因?yàn)橛楷F(xiàn)能力強(qiáng)化了GPT-4在其它語種上的表現(xiàn)效果；
處理更長序列的能力：推測(cè)這一部分用到了處理長輸入的模型Transformer-XL [10]或者OpenAI提出的可以降低長數(shù)據(jù)復(fù)雜度的Sparse Transformer [11]；

下面我們介紹我們的推測(cè)依據(jù)以及對(duì)這些推測(cè)的技術(shù)進(jìn)行簡(jiǎn)單的介紹。

2.1 涌現(xiàn)能力

涌現(xiàn)能力（emergent ability）是LLM取得突破性進(jìn)展最重要的核心技術(shù)，涌現(xiàn)能力指的是一種模型在訓(xùn)練過程中，自動(dòng)地學(xué)習(xí)到一些高級(jí)的、復(fù)雜的功能或行為，而這些功能或行為并沒有被直接編碼或指定。

這種能力可以使得模型在處理新的、未知的任務(wù)時(shí)表現(xiàn)更加出色，因?yàn)樗梢宰赃m應(yīng)地學(xué)習(xí)到新的功能或行為，而不需要重新訓(xùn)練或修改模型。圖4展示了包括GPT-3在內(nèi)的諸多LLM都展現(xiàn)了非常強(qiáng)的涌現(xiàn)能力，即模型的參數(shù)量等指標(biāo)突破某個(gè)指標(biāo)后，它的性能會(huì)快速提升。這里我們可以斷定GPT-4的zero-shot和few-shot的學(xué)習(xí)能力是源自大模型的涌現(xiàn)能力。

模型產(chǎn)生涌現(xiàn)能力主要是取決四點(diǎn)，它們分別是：

模型超大的參數(shù)量；
模型的架構(gòu)；
高質(zhì)量的訓(xùn)練數(shù)據(jù)；
更先進(jìn)的訓(xùn)練策略。

其中模型的參數(shù)量是最為重要的因素。

圖4：GPT-3等諸多大模型在多個(gè)任務(wù)上都展示出了涌現(xiàn)的能力

2.1.1 模型參數(shù)量

GPT-4的參數(shù)量是一個(gè)大家都在討論的話題，考慮到GPT-4比ChatGPT更強(qiáng)的涌現(xiàn)能力以及額外添加的圖像編碼模塊，GPT-4的參數(shù)量應(yīng)該不會(huì)比ChatGPT小。圖5是方舟投資（ARK Invest）統(tǒng)計(jì)的ChatGPT Turbo和GPT-4的預(yù)測(cè)每個(gè)token的時(shí)間，其中GPT-4的時(shí)間大概是ChatGPT的4倍左右。而且GPT-4很有可能使用了一些策略加速模型的推理速度，所以GPT-4的文本模型參數(shù)部分大概是千億級(jí)別但是非常接近萬億。

如果GPT-4使用了CLIP做圖像編碼，據(jù)OpenAI論文公布，目前最大的圖像編碼器是擴(kuò)大了64倍的殘差網(wǎng)絡(luò)，那么GPT-4的圖像編碼大概有16億。當(dāng)然，我們無法排除GPT-4采用了其它圖像編碼結(jié)構(gòu)，例如同樣是利用Transformer的KOSMOS-1[12]就是一個(gè)不錯(cuò)的選擇，那么圖像部分的參數(shù)量如何就只能等更多相關(guān)內(nèi)容公開了。

圖5：ARK Invest統(tǒng)計(jì)的ChatGPT和GPT-4在預(yù)測(cè)每個(gè)token上的時(shí)間占比

2.1.2 模型的架構(gòu)

我們可以確定的是，GPT-4的技術(shù)報(bào)告中指出GPT-4采用了以Transformer為基礎(chǔ)的架構(gòu)，即核心架構(gòu)還是采用了GPT系列的Decoder-only的結(jié)構(gòu)。對(duì)于GPT-4模型的內(nèi)部細(xì)節(jié)，我們可以確認(rèn)的點(diǎn)不多，考慮到GPT-4的速度以及處理長文本的能力，它的內(nèi)部結(jié)構(gòu)但有這兩種可能性：

因?yàn)镚PT-4大幅提升了對(duì)長文本的能力，GPT-4有一定概率使用了Transformer-XL或者Sparse Transformer；
因?yàn)镚PT-4更有可能是在ChatGPT基礎(chǔ)上迭代出來的，它可能還是使用了原生的Transformer，并增加了更多的層數(shù)，head數(shù)以及隱層節(jié)點(diǎn)數(shù)。

因?yàn)镚PT-4還支持圖像輸入，那么其中一定有關(guān)于圖像編碼的部分，我們將這部分內(nèi)容放在2.3節(jié)詳細(xì)展開。

2.1.3 訓(xùn)練策略和訓(xùn)練數(shù)據(jù)

GPT-4的基本保持了和ChatGPT相同的訓(xùn)練策略，即基本遵循了預(yù)訓(xùn)練+提示+預(yù)測(cè)的范式，如圖6。我們這里主要介紹GPT-4的改進(jìn)，主要有三點(diǎn)。

引入了基于規(guī)則的獎(jiǎng)勵(lì)模型（Rule Based Reward Model，RBRM）；
引入了多模態(tài)的提示學(xué)習(xí)；
引入了思維鏈。

圖6：ChatGPT的模型訓(xùn)練步驟

1）RBRM

GPT-4的第一個(gè)改進(jìn)則是引入了RBRM，RBRM是根據(jù)規(guī)則編寫的一個(gè)四分類模型，它的四個(gè)類別是：

期望樣式的拒絕；
不期望樣式的拒絕；
包含了不允許的內(nèi)容；
安全，不拒絕的響應(yīng)。

GPT-4被用在了圖6中Step 3的PPO階段。為了提升模型的安全性，ChatGPT在Step 3使用了人工反饋的強(qiáng)化學(xué)習(xí)（Reinforcement Learning with Human Feedback，RLHF）來訓(xùn)練模型。ChatGPT的這部分?jǐn)?shù)據(jù)來源于GPT-3的API用戶，GPT-4則在這里添加了RBRM，目的是通過正確的獎(jiǎng)勵(lì)引導(dǎo)模型的訓(xùn)練，來拒絕生成有害的請(qǐng)求以及不拒絕無害的請(qǐng)求。

使用規(guī)則構(gòu)建NLP模型由來已久，其實(shí)NLP的最早期的模型就是基于規(guī)則的模型，然后才是基于概率的模型以及基于神經(jīng)網(wǎng)絡(luò)的模型。

例如香農(nóng)把離散馬爾可夫過程的概率模型用于描述語言的自動(dòng)機(jī)，以及我們經(jīng)常使用的正則表達(dá)式都是典型的基于規(guī)則的文本模型?；谝?guī)則的模型的優(yōu)點(diǎn)是我們不需要訓(xùn)練數(shù)據(jù)，缺點(diǎn)是它往往是需要領(lǐng)域?qū)＜襾碓O(shè)計(jì)規(guī)則，并且往往只能解決一定領(lǐng)域內(nèi)的問題。我在這里猜測(cè)RBRM是由領(lǐng)域?qū)＜以O(shè)計(jì)的，由一系列例如正則表達(dá)式，有限狀態(tài)機(jī)等文本規(guī)則編寫的一個(gè)零樣本分類器。

基于規(guī)則的強(qiáng)化學(xué)習(xí)在近年來也被廣泛提及，強(qiáng)化學(xué)習(xí)的一個(gè)重要優(yōu)化目標(biāo)是減少搜索空間的范圍，而這項(xiàng)工作恰好可以交給規(guī)則的約束來完成。在經(jīng)過規(guī)則的約束后，再通過強(qiáng)化學(xué)習(xí)在剩余的空間中進(jìn)行搜索，這樣就減少強(qiáng)化學(xué)習(xí)的搜索空間，可以有效提升收斂速度。GPT-4的RBRM的工作原理大致如圖7。

圖7：RBRM的工作原理

2）多模態(tài)提示學(xué)習(xí)

GPT-4并沒有對(duì)它的多模態(tài)能力的技術(shù)細(xì)節(jié)進(jìn)行詳細(xì)介紹，而且它的圖像接口沒有開放公測(cè)。但是我們可以看下多模態(tài)領(lǐng)域有沒有類似GPT-4的報(bào)告中類似的工作。巧合的是微軟在今年年初公布的KOSMOS-1[12]擁有非常強(qiáng)的多模態(tài)QA的能力，它的思想也和GPT-4非常類似，我們這里可以推測(cè)GPT-4使用了和KOSMOS-1類似的多模態(tài)提示方法。

KOSMOS-1支持三種類型的數(shù)據(jù)集，分別是文本生成，圖像描述（Image Caption）生成以及多模態(tài)QA，圖8是KOSMOS-1在圖像描述生成以及QA生成上的例子。在圖8.(a)的圖像描述生成中，模型的輸入是圖像的Embedding，輸出是預(yù)測(cè)的圖像描述。在圖8.(b)的多模態(tài)QA中，KOSMOS-1將圖像嵌入與文本嵌入共同作為輸入，然后用于預(yù)測(cè)問題的答案。

圖8：KOSMOS-1的多模態(tài)輸入示例

3）思維鏈

GPT-4的擁有比ChatGPT明顯強(qiáng)的邏輯推理能力，在訓(xùn)練模型時(shí)應(yīng)該是使用思維鏈的方式構(gòu)建提示樣本。思維鏈不僅支持純文本輸入，還支持圖文多模態(tài)輸入，我們接下來用一節(jié)的篇幅來介紹這個(gè)重要的內(nèi)容。

4）能力預(yù)測(cè)

在我們?cè)谀硞€(gè)特定任務(wù)上訓(xùn)練一個(gè)模型時(shí)，我們希望能夠預(yù)測(cè)模型在這個(gè)任務(wù)上的最終表現(xiàn)，這就是模型的能力預(yù)測(cè)（Capability Prediction）。在自然語言處理和大型語言模型領(lǐng)域，能力預(yù)測(cè)通常是指預(yù)測(cè)和評(píng)估一個(gè)模型在特定任務(wù)、領(lǐng)域或場(chǎng)景下的表現(xiàn)能力。

能力預(yù)測(cè)的目的是為了更好地了解模型的性能，以便優(yōu)化、調(diào)整或改進(jìn)模型。通過對(duì)模型的能力預(yù)測(cè)，我們可以更好地理解模型的優(yōu)勢(shì)和局限，從而為模型的進(jìn)一步發(fā)展和改進(jìn)提供有價(jià)值的反饋。GPT-4在訓(xùn)練時(shí)也使用了能力預(yù)測(cè)，這讓他們能夠更準(zhǔn)確的評(píng)估模型的效果，節(jié)約了訓(xùn)練成本。

2.2 邏輯推理能力

OpenAI為了提升GPT-4的推理能力，很有可能使用了近年來LLM非常重要的思維鏈以及自提升能力。它們可以看做是提示學(xué)習(xí)在邏輯推理能力上的針對(duì)性優(yōu)化，下面我們分別介紹它們。從GPT-4的技術(shù)報(bào)告中，我們可以發(fā)現(xiàn)很多GPT-4的訓(xùn)練使用了思維鏈或者自提升的證據(jù)。

2.2.1 思維鏈

思維鏈（Chain of Thought）是指人們?cè)谶M(jìn)行思考時(shí)，由于某個(gè)觀點(diǎn)、想法或感知刺激而引發(fā)的一系列相關(guān)思維聯(lián)想和關(guān)聯(lián)。這些關(guān)聯(lián)可以通過人們的記憶、經(jīng)驗(yàn)、知識(shí)、情感和意識(shí)等方面來建立和加強(qiáng)，最終形成了一個(gè)有機(jī)的思維鏈，幫助人們理解和解決問題，做出決策和行動(dòng)。思維鏈?zhǔn)侨祟愃季S活動(dòng)的重要組成部分，它反映了人們的思考方式、思考習(xí)慣和思考效率。通過構(gòu)建和加強(qiáng)思維鏈，可以幫助人們更好地理解和把握事物的本質(zhì)和規(guī)律，更加有效地解決問題和做出決策。

在人工智能領(lǐng)域，研究人員也在探索如何利用機(jī)器學(xué)習(xí)和自然語言處理等技術(shù)，來模擬人類的思維鏈，建立機(jī)器的思維鏈，幫助機(jī)器更好地理解和處理人類的語言和行為，實(shí)現(xiàn)更加智能化的應(yīng)用和系統(tǒng)。OpenAI的論文[6]是思維鏈方向具有重要意義的一篇文章，也是GPT-4很有可能使用的技術(shù)方案，在這篇文章中，他們提出了通過構(gòu)建思維鏈提示的方式來提升模型的推理能力。思維鏈也是一種涌現(xiàn)能力，它可以通過僅提供少量的樣本便大幅提升模型的邏輯推理能力。

思維鏈的與傳統(tǒng)提示學(xué)習(xí)的不同點(diǎn)是在提示中增加一個(gè)推理過程，構(gòu)建一個(gè)由輸入，思維鏈，輸出構(gòu)成的三元組。圖9是傳統(tǒng)提示和思維鏈提示的實(shí)例。

圖9：傳統(tǒng)提示學(xué)習(xí)和思維鏈提示學(xué)習(xí)，思維鏈會(huì)在輸入中給出推理過程來幫助模型學(xué)習(xí)推理的能力

思維鏈也支持多模態(tài)的輸入，GPT-4的技術(shù)報(bào)告中也指出了GPT-4使用了多模態(tài)的思維鏈。圖13的GPT-4的例子便是一個(gè)經(jīng)典的因?yàn)槭褂盟季S鏈訓(xùn)練了模型而產(chǎn)生的包含推理過程的預(yù)測(cè)結(jié)果。圖10是上海交大和亞馬遜最新發(fā)表的一個(gè)多模態(tài)思維鏈的框架：Multimodel-COT [14]。

它包含兩個(gè)階段，兩個(gè)階段共享參數(shù)。在第一個(gè)階段，他們將圖像和文本輸入到模型中來生成理由，也就是思維鏈。在第二個(gè)階段，他們將原始輸入和生成的理由合在一起，輸入到模型中來生成答案。

圖10：Multimodel-COT的推理過程

2.2.2 自提升

谷歌在2022年發(fā)布的一篇文章[7]中指出，LLM和思維鏈的結(jié)合可以讓模型使用無監(jiān)督的數(shù)據(jù)進(jìn)行自我提升（Self-Improve），它的核心方法如圖11所示。GPT-4也指出他們使用了[7]的方案來提升模型的遵循用戶意圖的能力。

圖11：LLM可以通過大模型進(jìn)行自我提升

它的計(jì)算過程如下：

首先我們基于思維鏈構(gòu)建提示；
根據(jù)不同的溫度系數(shù)，模型生成多個(gè)不同的包含推理過程的Path；
我們使用投票的方式選擇最有可能的正確答案；
將包含這個(gè)正確答案的所有Path用來優(yōu)化LLM。

你可能已經(jīng)發(fā)現(xiàn)這個(gè)方法得到的答案并不一定是正確的答案。作者通過實(shí)驗(yàn)得出了兩個(gè)重要結(jié)論：

答案的正確率和它的置信度是高度相關(guān)的，也就是說通過投票得到的答案很有可能是生成的答案中最正確的那個(gè)；
即使答案是錯(cuò)誤的，將它們加入到訓(xùn)練數(shù)據(jù)中也有助于模型的訓(xùn)練。

在得到了推理Path之后，作者根據(jù)這個(gè)Path構(gòu)建了四種不同的輸入數(shù)據(jù)，它們分別是：

標(biāo)準(zhǔn)的思維鏈提示，即構(gòu)建（問題，思維鏈，答案）三元對(duì)；
傳統(tǒng)的提示學(xué)習(xí)，即只有問題和答案；
輸入是問題，添加“Let's think step by step”提示，讓模型預(yù)測(cè)推理步驟；
傳統(tǒng)的QA，即輸入問題，預(yù)測(cè)答案。

最后，為了豐富數(shù)據(jù)集，作者提出了兩個(gè)方案來擴(kuò)充數(shù)據(jù)：一是隨機(jī)組合兩個(gè)問題，然后讓模型生成新的問題；二是讓模型生成推理步驟，并將它加入到訓(xùn)練集中。

2.3 理解圖表能力

因?yàn)镚PT-4是支持圖像格式的圖表輸入的，OpenAI著名的多模態(tài)算法CLIP[8]講的是我們可以通過對(duì)比學(xué)習(xí)將圖像和文本映射到同一特征空間，如圖12。那么結(jié)合CLIP的圖像編碼器便可以實(shí)現(xiàn)GPT-4的圖像輸入，這時(shí)我們需要訓(xùn)練一個(gè)可以和GPT的文字特征對(duì)齊的圖像編碼器，然后將CLIP的圖像編碼器的輸出作為圖像token，最后再加一個(gè)embedding層將這個(gè)token編碼為GPT-4的特征向量。

圖12：CLIP的結(jié)構(gòu)，它通過對(duì)比學(xué)習(xí)將圖像和文本投影到相同的特征空間

GPT-4除了可以理解圖2中這種照片的例子，最神奇的是GPT-4還可以理解圖13這種包含了很多細(xì)節(jié)的學(xué)術(shù)圖片。因?yàn)樵谝粋€(gè)學(xué)術(shù)圖片中，圖中代指的符號(hào)，目標(biāo)之間的位置關(guān)系都是十分重要的，如果GPT-4僅僅通過一個(gè)圖像編碼就能捕獲這些細(xì)節(jié)信息，那么這個(gè)圖像編碼器一定也展現(xiàn)出了非常強(qiáng)的涌現(xiàn)能力，這個(gè)圖像編碼器也大概率是千億規(guī)模的參數(shù)量。

圖13：GPT-4具有理解學(xué)術(shù)圖像中具體細(xì)節(jié)的能力

GPT-4的多模態(tài)能力還有一種可能是類似多模態(tài)大語言模型（Multimodel Large Language Model，MLLM）。其中微軟的KOSMOS-1展示了和GPT-4類似的多模態(tài)語言模型的能力，KOSMOS-1在多模態(tài)問答上也展示出了非常強(qiáng)的涌現(xiàn)能力，如圖14。

KOSMOS-1是一個(gè)基于Transformer解碼器的多模態(tài)模型，它將不同模態(tài)的數(shù)據(jù)拼接到一起，例如<s>和</s>表示文本輸入，<image>和<\image>表示圖像輸入，其中圖像嵌入使用的是微軟的METALM[13]計(jì)算得到的特征向量。我們推測(cè)GPT-4有可能借鑒了KOSMO-1S的思想，然后結(jié)合了OpenAI自身的一些多模態(tài)的工作。

圖14：微軟的KOSMOS-1涌現(xiàn)出了非常強(qiáng)的圖像理解能力

關(guān)于GPT-4的多模態(tài)的更多技術(shù)細(xì)節(jié)，我們可以等GPT-4的圖像接口開放之后多多測(cè)試才能發(fā)現(xiàn)。

2.4 更安全的輸出

現(xiàn)有的深度學(xué)習(xí)模型的思想均是使用大模型擬合訓(xùn)練集，對(duì)于一個(gè)生成模型來說，它的輸出內(nèi)容并不是完全可控的，GPT-4也不例外。GPT-4的技術(shù)報(bào)告中指出文本模型會(huì)存在下面幾類的風(fēng)險(xiǎn)輸出，例如幻覺、有害內(nèi)容、歧視、虛假信息、暴力、隱私、網(wǎng)絡(luò)安全等。GPT-4做了大量工作來緩解這個(gè)問題。

GPT-4的第一個(gè)緩解風(fēng)險(xiǎn)輸出的問題是聘請(qǐng)了50余名來自不同領(lǐng)域?qū)＜野缪菁t隊(duì)進(jìn)行對(duì)抗測(cè)試。紅隊(duì)的工作是提出有危險(xiǎn)性的問題，以測(cè)試GPT-4給出的輸出，并嘗試攻克它。通過領(lǐng)域?qū)＜业膶?duì)抗，OpenAI也采集了大量不同方向的領(lǐng)域?qū)＜覕?shù)據(jù)來提升GPT-4的安全性。

2.4.1 幻覺

幻覺（hallicination）是生成模型都非常難以解決的問題，它指的是模型產(chǎn)生的荒謬的或者不真實(shí)的內(nèi)容，也就是一本正經(jīng)的胡說八道。隨著模型生成的內(nèi)容語句越來越通順，內(nèi)容越來越具有說服力，那么這種幻覺行為將是特別有害的。模型產(chǎn)生幻覺可以歸納為下面幾個(gè)原因：

數(shù)據(jù)偏差：訓(xùn)練集可能存在某些偏差，例如數(shù)據(jù)的確實(shí)，錯(cuò)誤可能會(huì)影響模型對(duì)于自然語言的理解；
數(shù)據(jù)稀疏：訓(xùn)練集可能在某一方面數(shù)據(jù)比較少，導(dǎo)致模型在這一方面生成的能力不可控；
模型結(jié)構(gòu)：模型的結(jié)構(gòu)以及參數(shù)量可能會(huì)影響模型的泛化能力和表示能力，導(dǎo)致模型在某些方面產(chǎn)生幻覺的現(xiàn)象。

GPT-4采用了兩個(gè)策略來解決這個(gè)問題：

第一種方法是利用ChatGPT的數(shù)據(jù)進(jìn)行訓(xùn)練。這個(gè)方法的優(yōu)點(diǎn)是ChatGPT在當(dāng)時(shí)已經(jīng)具有了一定程度拒絕生成有害內(nèi)容的能力，比在網(wǎng)上爬取的數(shù)據(jù)具有更高的可靠性。但它的問題是可能會(huì)將ChatGPT的問題繼承到GPT-4中。而且依靠一個(gè)模型的生成內(nèi)容作為另一個(gè)模型的訓(xùn)練數(shù)據(jù)，可能會(huì)導(dǎo)致模型的過擬合。

第二種方法是采用NLP技術(shù)來檢測(cè)模型產(chǎn)生的幻覺樣本，包括自動(dòng)評(píng)估和人工評(píng)估。這個(gè)方法的優(yōu)點(diǎn)是可以有效的檢測(cè)和糾正模型產(chǎn)生的幻覺問題。它的缺點(diǎn)是依靠自動(dòng)評(píng)估的方法可能會(huì)因?yàn)樵u(píng)估模型的缺陷漏掉一些幻覺樣本，而人工評(píng)估的最大問題是人工成本是非常高昂的。

在幻覺檢測(cè)方面，Meta有著非常重要的貢獻(xiàn)。一方面他們提出了幻覺檢測(cè)任務(wù)并制作了針對(duì)這個(gè)任務(wù)的幻覺檢測(cè)數(shù)據(jù)集HADES[15]，另一方面他們提出了一個(gè)幻覺檢測(cè)方法 [16]，這個(gè)方法通過合成幻覺數(shù)據(jù)來對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。該模型可以檢測(cè)一個(gè)句子中出現(xiàn)的幻覺詞，來對(duì)生成內(nèi)容的真實(shí)性進(jìn)行評(píng)估，從而減輕幻覺出現(xiàn)的概率。圖15是該方法在機(jī)器翻譯中的一個(gè)例子，標(biāo)簽為1的部分對(duì)應(yīng)了生成的幻覺內(nèi)容。這里猜測(cè)OpenAI可能采用了和Meta類似的方法或數(shù)據(jù)。

圖15：FAIR提出的幻覺檢測(cè)方法在機(jī)器翻譯中的示例

具體的講，OpenAI設(shè)計(jì)了一個(gè)多步驟的過程，使用GPT-4本身來生成是否有幻覺的比較數(shù)據(jù)，并將它們并入到圖6步驟2的獎(jiǎng)勵(lì)模型的訓(xùn)練集中：

將提示p輸入到GPT-4中并得到一個(gè)響應(yīng)r1；
將p和r1輸入到GPT-4中，并指示它列出所有的幻覺token。如果沒有幻覺，則繼續(xù)生成，直到有它列出幻覺h1；
將p，r1和h1輸入到GPT-4中，并指示它生成一個(gè)沒有幻覺的響應(yīng)r2；
將p和r2輸入到GPT-4中，讓它列出所有的幻覺token，如果沒有檢測(cè)到幻覺，則可以將r1和r2作為一個(gè)對(duì)比樣本對(duì)放入獎(jiǎng)勵(lì)模型的訓(xùn)練集中了。

2.4.2 其它問題

對(duì)于可能出現(xiàn)的其它風(fēng)險(xiǎn)輸出，OpenAI并沒有詳細(xì)的介紹它的技術(shù)方案，不過從他們的技術(shù)方案中，我們可以看出他們大概使用了下面幾類方法：

使用RBRM來檢測(cè)可能出現(xiàn)的風(fēng)險(xiǎn)；
通過提示學(xué)習(xí)讓模型學(xué)習(xí)拒絕回答此類問題；
利用紅隊(duì)發(fā)現(xiàn)這些可能存在的問題；
過濾訓(xùn)練數(shù)據(jù)，刪除可能出發(fā)風(fēng)險(xiǎn)問題的樣本；
訓(xùn)練獎(jiǎng)勵(lì)模型，讓模型懲罰有危害的輸出內(nèi)容；

2.5 編程能力

GPT-4在編程能力上比ChatGPT有了巨大的提升，一方面他可能因?yàn)樗季S鏈掌握了更強(qiáng)的邏輯分析能力，另一方面它很有可能借鑒了OpenAI著名的代碼生成算法CodeX[3]。CodeX是GPT-3在代碼生成領(lǐng)域的衍生版本，也是Copilot插件背后的基礎(chǔ)算法。CodeX采用了GPT系列的Decoder-only的架構(gòu)體系，模型的參數(shù)量有從12M到12B等多個(gè)不同的版本。CodeX的訓(xùn)練分成預(yù)訓(xùn)練和微調(diào)兩個(gè)階段。

在預(yù)訓(xùn)練階段，OpenAI首先從Github上爬取了大量的Python文件，經(jīng)過清洗后得到了一個(gè)大小為159GB的訓(xùn)練集。因?yàn)镃odeX是一個(gè)代碼生成模型，所以它并沒有使用GPT-3訓(xùn)練好的權(quán)重，也沒有完全照搬GPT-3的模型超參，而是重新訓(xùn)練了一個(gè)代碼生成模型。

在微調(diào)階段，OpenAI從競(jìng)賽網(wǎng)站，面試網(wǎng)站，Github的單元測(cè)試腳本中收集了大約40000條數(shù)據(jù)。在評(píng)估代碼正確性上，CodeX并沒有使用傳統(tǒng)的BLEU分?jǐn)?shù)，而是使用了代碼能夠通過多少比例的單元測(cè)試作為評(píng)估標(biāo)準(zhǔn)，并建立了評(píng)估測(cè)試集HumanEval和評(píng)估標(biāo)準(zhǔn)pass@k。

為了避免數(shù)據(jù)泄露，HumanEval的數(shù)據(jù)全部是由人類親自構(gòu)造的，總共包含164個(gè)題目和大量的測(cè)試用例。HumanEval將每個(gè)函數(shù)劃分為四類，即函數(shù)簽名（function signature），函數(shù)注釋，函數(shù)主體以及單元測(cè)試樣本組成。在進(jìn)行提示學(xué)習(xí)時(shí)，函數(shù)簽名和函數(shù)注釋作為輸入的提示，函數(shù)主體作為要求的輸出，單元測(cè)試用于評(píng)估生成代碼的效果。

CodeX的評(píng)估標(biāo)注和Leetcode類似，即有多少比例的測(cè)試用例通過測(cè)試了，CodeX的評(píng)估標(biāo)準(zhǔn)pass@k表示從模型的所有生成答案中隨機(jī)抽取k個(gè)，從這k個(gè)答案里得到正確答案的概率。它的計(jì)算方式如式(1)。其中n是每個(gè)問題生成的答案，k是從n個(gè)答案中隨機(jī)抽取的k個(gè)，c是n個(gè)答案里通過單元測(cè)試的答案數(shù)。

CodeX和GPT-4都是GPT-3的下一代模型，讓GPT-4使用CodeX現(xiàn)成的思想和數(shù)據(jù)，并提高模型的編程能力，是再合理不過的工作了。

2.6 多語言能力

關(guān)于GPT-4的在其它語種上的能力的大幅提升，OpenAI并沒有給出介紹，我也沒有查到相關(guān)解釋。這里我根據(jù)目前的技術(shù)積累，猜測(cè)一下OpenAI可能使用的技術(shù)方案：

提升了其它語種的訓(xùn)練數(shù)據(jù)；
更大規(guī)模的模型讓GPT-4在小語種上涌現(xiàn)了更多的能力；
加入了針對(duì)小語種的任務(wù)，例如利用現(xiàn)有平行語料構(gòu)建基于提示學(xué)習(xí)的機(jī)器翻譯任務(wù)，使用機(jī)器翻譯引擎將部分?jǐn)?shù)據(jù)翻譯成小語種等。

這一部分的相關(guān)資料確實(shí)不多，也歡迎大家在評(píng)論區(qū)給出自己的猜測(cè)。

2.7 長序列能力

這里的長序列包含兩個(gè)方面，一方面是GPT-4是支持多輪對(duì)話的，另一方面是GPT-4支持更長的輸入數(shù)據(jù)，下面我們來討論它們可能使用的技術(shù)。

2.7.1 多輪對(duì)話

ChatGPT和GPT-4都支持連續(xù)對(duì)話，但OpenAI一直也沒有給出連續(xù)對(duì)話能力的背后技術(shù)方案。如果在每一輪對(duì)話時(shí)都粗暴的把之前的對(duì)話重新作為輸入提供給模型。雖然理論上講是行得通的，但這種方式的最大問題是隨著對(duì)話輪數(shù)的增多，輸入的數(shù)據(jù)也會(huì)快速增加，進(jìn)而導(dǎo)致ChatGPT或者GPT-4的預(yù)測(cè)速度越來越慢，但是我在使用ChatGPT和GPT-4的多輪對(duì)話時(shí)并沒有發(fā)現(xiàn)這種速度逐漸變慢的現(xiàn)象。

如果要從模型角度解決這個(gè)問題，我們恰好有一個(gè)算法可以解決這個(gè)問題，它就是Transformer-XL[10]。Transformer-XL的重要改進(jìn)是提出了片段遞歸的機(jī)制，如圖16。片段遞歸機(jī)制類似于Transformer和RNN的結(jié)合體，它的核心思想是對(duì)于一個(gè)長度不限的變長數(shù)據(jù)，在計(jì)算的時(shí)候也是固定每個(gè)片段的長度并計(jì)算這個(gè)片段的特征，然在計(jì)算下個(gè)片段時(shí)將前面片段的特征加到當(dāng)前片段上，從而讓模型可以處理任意長度的特征。

圖16：Transformer-XL的片段遞歸機(jī)制

反應(yīng)到ChatGPT和GPT-4的多輪對(duì)話中，我推測(cè)OpenAI借鑒了Transformer-XL的片段遞歸的思想。即GPT-4然后在進(jìn)行第$t$輪的計(jì)算時(shí)，會(huì)將緩存的第t-1輪的特征和第t輪的特征相加，共同用于當(dāng)前輪次的計(jì)算。因?yàn)榈趖-1輪也考慮了第t-2輪的特征，理論上這個(gè)方式可以在不影響預(yù)測(cè)時(shí)間的前提下獲得之前很多輪之前的對(duì)話內(nèi)容。

2.7.2 長序列輸入

傳統(tǒng)的Transformer并不擅長處理長序列問題，因?yàn)檩斎腴L度為n的Transformer的復(fù)雜度為O(n^2)。Transformer的默認(rèn)輸入長度是512，對(duì)于長度大于512的輸入數(shù)據(jù)Transformer的解決方案是將它拆分成多個(gè)長度為512的文本塊，但是這種會(huì)造成上下文碎片的問題，上一節(jié)介紹的Transformer-XL便是用來解決這個(gè)問題的。

這里我們介紹OpenAI自家的用來解決長序列輸入的算法：Sparse Transformer[11]，因?yàn)镚PT-3就是使用的普通Transformer和Sparse Transformer的混合模式，所以Sparse Transformer也是非常有可能被GPT-4用來處理長輸入文本的一個(gè)模型，但它和普通Transformer是如何混合的就不得而知了。Sparse Transformer的特點(diǎn)是只關(guān)注Top-k個(gè)貢獻(xiàn)最大的特征的狀態(tài)，它使用稀疏注意力機(jī)制替代了Transformer的密集注意力，將計(jì)算注意力的復(fù)雜度降到了O(n\sqrt n)。傳統(tǒng)Transformer的密集注意力核被分解為了跨步注意力（Stried Attention）和固定注意力（Fixed Attention），每個(gè)注意力核又分為行注意力核和列注意力核。分解后的注意力核都是稀疏的，因此大幅降低了模型的復(fù)雜度，如圖17。

圖17：密集注意力和稀疏注意力

因?yàn)镚PT-4支持更長序列的數(shù)據(jù)，我在這里也列出了用于高效處理長數(shù)據(jù)的Transformer的兩個(gè)變體。因?yàn)镚PT-4的技術(shù)報(bào)告太過點(diǎn)到為止，到底GPT-4的網(wǎng)絡(luò)結(jié)構(gòu)如何，我們只能等待OpenAI的官方公布了。

2.8 技術(shù)方案總結(jié)

這一節(jié)我們討論了很多技術(shù)方案，有的具有比較高的可信度，有的則猜測(cè)程度較高。下面這個(gè)表給出了各個(gè)方案的可信度（從1到5逐漸增高）。

涌現(xiàn)能力	思維鏈	自提升	CLIP	KOSMOS-1	CodeX	XLM	Trans-XL	Sparse Transf
5	5	3	3	3	4	1	1	4

根據(jù)我們的上述推測(cè)，我們可以猜測(cè)GPT-4的技術(shù)方案大致如下：

第一階段: 搭建多模態(tài)預(yù)訓(xùn)練模型，并進(jìn)行微調(diào)，這一階段主要目的是根據(jù)爬取的海量數(shù)據(jù)訓(xùn)練具有一定能力的初版GPT-4，訓(xùn)練方式類似GPT-3。它的工作重點(diǎn)有兩個(gè)：一是仿照KOSMOS-1或是其它多模態(tài)模型搭建多模態(tài)預(yù)訓(xùn)練模型，使用Transformer-XL等解決長文本的高復(fù)雜度問題；二是收集數(shù)據(jù)，包含海量爬取數(shù)據(jù)，單模態(tài)，多模態(tài)，傳統(tǒng)提示學(xué)習(xí)數(shù)據(jù)，思維鏈提示學(xué)習(xí)數(shù)據(jù)，代碼數(shù)據(jù)等對(duì)模型進(jìn)行訓(xùn)練。
第二階段：GPT-4行為對(duì)齊，這一階段的主要目的是根據(jù)人工打標(biāo)實(shí)現(xiàn)模型行為與人類行為的對(duì)齊，減弱模型的風(fēng)險(xiǎn)性。這一階段需要產(chǎn)出的模型有兩個(gè)，一個(gè)是根據(jù)專家知識(shí)設(shè)計(jì)基于規(guī)則的獎(jiǎng)勵(lì)模型RBRM，另一個(gè)是根據(jù)人工打標(biāo)的數(shù)據(jù)，幻覺檢測(cè)模型的產(chǎn)出數(shù)據(jù)訓(xùn)練基于深度學(xué)習(xí)的獎(jiǎng)勵(lì)模型RM。
第三階段：使用RBRM和RM作為獎(jiǎng)勵(lì)函數(shù)，使用RLHF訓(xùn)練模型。第二階段和第三階段的訓(xùn)練方式類似ChatGPT。
第四階段：模型自提升，GPT-4的訓(xùn)練可能是一個(gè)循環(huán)迭代，不斷提示的訓(xùn)練過程。在這一階段，GPT-4會(huì)自動(dòng)生成更多數(shù)據(jù)，例如使用模型自提升產(chǎn)出的訓(xùn)練數(shù)據(jù)，專家紅隊(duì)反饋的測(cè)試案例等，使用這些數(shù)據(jù)返回第一階段再對(duì)模型進(jìn)行訓(xùn)練。

3. GPT-4的發(fā)展方向

最近我也將GPT-4和ChatGPT應(yīng)用到了日常工作中，深刻的被GPT-4強(qiáng)大的能力所震撼。它不僅能輔助我完成日常的編程，文章撰寫工作，也能夠幫我解決一些日?，嵤?，大幅提升了我的工作效率。關(guān)于GPT-4的各種贊賞與批評(píng)的文章網(wǎng)上已數(shù)不勝數(shù)，我在這里結(jié)合我們分析的技術(shù)方案，探討一下GPT-4為了的發(fā)展方向，或者說是預(yù)測(cè)下GPT-5可能的樣子。

3.1 GPT-4的優(yōu)化方向

盡管GPT-4在文本生成，代碼生成，圖像理解，邏輯推理能力展現(xiàn)了強(qiáng)大的能力，但它依舊有很大的進(jìn)步空間的，未來的工作可能有下面幾個(gè)重點(diǎn)方向：

GPT-4現(xiàn)在的使用成本還是非常高的，與GPT-4進(jìn)行一輪對(duì)話的成本大約在1元左右。ChatGPT的維護(hù)成本每天就有將近100萬美元，我們預(yù)測(cè)GPT-4的參數(shù)量可能將近萬億規(guī)模，由此推測(cè)它的維護(hù)成本可能在500萬美元左右。如何輕量化模型，讓GPT-4能夠被更多人使用，甚至讓更多人能夠訓(xùn)練自己的GPT-4將是未來一段時(shí)間都會(huì)研究的方向。
GPT-4并不是絕對(duì)安全的，GPT-4依舊具有幻覺問題。GPT-4的幻覺檢測(cè)，紅隊(duì)對(duì)抗，RBRM等不是解決安全問題的最終方案。雖然說沒有絕對(duì)安全的系統(tǒng)，但OpenAI已經(jīng)還會(huì)在安全性上加大投入，以減輕他們可能面臨的法律風(fēng)險(xiǎn)。
GPT-4還是個(gè)離線模型，GPT-4不能代替搜索引擎的一個(gè)重要原因是它的知識(shí)并不是實(shí)時(shí)更新的。它的知識(shí)水平取決于它爬取數(shù)據(jù)的截止日期，這將使得它無法解決截止日期之后出現(xiàn)的新聞，概念，事件等。
GPT-4還是多模態(tài)的初探，多模態(tài)和LLM可能是未來幾年AGI最重要的兩個(gè)方向，OpenAI本身也有很多在多模態(tài)方向非常精彩的工作。如何進(jìn)一步挖掘GPT-4在多模態(tài)方向的能力，涉及更多模態(tài)，更多應(yīng)用將是OpenAI接下來的重點(diǎn)工作。

3.2 GPT-4的應(yīng)用

GPT-4憑借其強(qiáng)大的生成能力和邏輯推理能力，能夠極大的影響我們的工作方式。相信這篇文章的讀者很多是從事算法相關(guān)的科研和工作的人，我鼓勵(lì)每個(gè)人都用上GPT-4哪怕是ChatGPT，那么GPT-4的哪些功能對(duì)我們非常有幫助呢。這里我根據(jù)我的使用經(jīng)驗(yàn)，列出幾個(gè)我認(rèn)為比較有幫助的方向：

撰寫功能代碼，讓GPT-4編寫一個(gè)滿足特定功能復(fù)雜框架可能需要你向其提供復(fù)雜的提示，并且你也需要核對(duì)它生成的代碼。但是如果讓GPT-4實(shí)現(xiàn)一些難度較低的功能函數(shù)，例如搭建一個(gè)網(wǎng)絡(luò)，或是實(shí)現(xiàn)一個(gè)功能性函數(shù)，GPT-4生成的代碼的可用性還是非常高的。
做文本潤色，作為一個(gè)技術(shù)研發(fā)人員，我們的文筆可能并不好，這時(shí)候我們可以使用GPT-4幫我們對(duì)我們寫的文章做潤色。尤其是當(dāng)我們用英語寫論文或者郵件時(shí)，GPT-4能幫我們解決Chinglish的問題。
閱讀論文，GPT-4不僅是一個(gè)非常棒的機(jī)器翻譯工具，經(jīng)試用，它翻譯的效果在專業(yè)性，連貫性等遠(yuǎn)超傳統(tǒng)的機(jī)器翻譯模型。此外GPT-4還可以做一些總結(jié)，概括，提取類的工作，能讓我們快速了解一篇論文的核心技術(shù)?；贑hatGPT制作的ChatPDF是我們閱讀論文有個(gè)非常得力的助手，圖18是我使用ChatGPT幫助我閱讀GPT-4的生成內(nèi)容。
圖18：ChatPDF根據(jù)GPT-4的技術(shù)報(bào)告生成的GPT-4在提高安全性上做的工作
日常工作，GPT-4非常擅長寫一些官方通告，發(fā)言稿，感謝信之類的內(nèi)容，也非常擅長做一些總結(jié)概括類的工作，它可以在這些方面提高我們的人效。對(duì)于沒有思路的事情，我也會(huì)嘗試問一下GPT-4，它經(jīng)常能夠幫我打開思路。

注意GPT-4并沒有徹底解決幻覺等安全性問題，面對(duì)GPT-4生成的內(nèi)容，我們最好在使用之前進(jìn)行嚴(yán)格的審核，否則可能會(huì)發(fā)生一些不可解釋的問題。也是因?yàn)檫@個(gè)原因，GPT-4并不能取代從事這方面的專業(yè)工作人員，因?yàn)樵贕PT-4的安全性問題解決之前，始終需要專業(yè)人士為其把關(guān)，而GPT-4的安全性問題可能將會(huì)伴隨生成模型的整個(gè)生命周期。

4. 其它LLM

隨著ChatGPT和GPT-4的提出，國內(nèi)外的公司快速跟進(jìn)，掀起了一股LLM模型的研發(fā)熱潮，也有很多公司提出了自己的LLM.

其中國內(nèi)具有代表性的工作有下面這些工作。

百度的文心一言：百度的文心一言（ERNIE-Bot）是國內(nèi)最早跟進(jìn)的預(yù)訓(xùn)練大模型，但是百度對(duì)他們的工作技術(shù)卻一直諱莫如深。不過從他的演示demo以及很多測(cè)試人員的測(cè)試效果來看，文心一言像是百度很多AI工作的工程化組合；
阿里的通義千問：通義千問是一個(gè)用Transformer-XL搭建的，擁有20億參數(shù)的文本生成模型。根據(jù)拿到邀請(qǐng)碼的網(wǎng)友反饋來看，通義千問的文本生成效果略差于文心一言。
商湯的日日新：從發(fā)布會(huì)的展示效果來看，商湯的日日新是目前國內(nèi)最好的LLM，甚至達(dá)到了和ChatGPT類似的效果。日日新包含“商量”，“秒畫”“如影”“瓊宇”“格物”五個(gè)主要功能，其中和GPT-4對(duì)齊的是“商量”。
清華大學(xué)的GLM：GLM[17]是清華和智譜AI聯(lián)合推出的一個(gè)使用英語和漢語訓(xùn)練的開源雙語語言模型，最大參數(shù)規(guī)模達(dá)到了1300億，GLM-130B的效果介于GPT-3和ChatGPT之間。GLM后續(xù)還推出了ChatGLM以及可以在單機(jī)運(yùn)行和微調(diào)的GLM-6B，是目前效果最好的開源中文預(yù)訓(xùn)練大模型。
復(fù)旦大學(xué)的MOSS：MOSS是復(fù)旦大學(xué)NLP實(shí)驗(yàn)室的邱錫鵬老師團(tuán)隊(duì)，并與近期開源了相關(guān)代碼。從目前效果來看，MOSS并不非常成熟，但可喜的是邱老師的團(tuán)隊(duì)還一直在對(duì)MOSS進(jìn)行優(yōu)化。

不僅國內(nèi)快速跟進(jìn)，國外的頭部公司也推出了自己的LLM，其中具有代表性的有：

MetaAI的LLaMA：LLaMA[19]的參數(shù)量有70億，130億，330億和650億四種規(guī)模。不同于OpenAI的是，MetaAI開源了它們的代碼和模型，并支持單機(jī)的部署。雖然LLaMA的效果不如GPT-4，但他開源以及單機(jī)可運(yùn)行的特性也吸引了很多機(jī)構(gòu)和個(gè)人的二次開發(fā)。
谷歌的PaLM和LaMDA：PaLM[20]是谷歌提出的結(jié)構(gòu)類似GPT系列，總參數(shù)量達(dá)到5400億的語言模型，谷歌在最近又推出了結(jié)合圖像能力的多模態(tài)模型PaLM-E [21]。LaMDA[22]是谷歌推出的用于生成更自然，更具人性的語言模型，具有更接近人類的表達(dá)方式，LaMDA在GPT-3的基礎(chǔ)上進(jìn)行了改進(jìn)，增加了更多的對(duì)話場(chǎng)景和情感理解能力，能更好的模擬人類的對(duì)話和思考。甚至谷歌的研究員 Blake Lemoine 在測(cè)試了LaMDA一段時(shí)間后感嘆：LaMDA可能已經(jīng)具有人格了。
Anthropic的Claude：Anthropic是由OpenAI的離職員工成立，得到谷歌研發(fā)支持的一個(gè)人工智能公司。它們最近也推出了它們的LLM：Claude。目前Cluade的效果略強(qiáng)于ChatGPT，但明顯弱于GPT-4。

除了上面介紹的，國外的LLM還有BigScience的BLOOM，斯坦福的Alpaca，上面介紹過的微軟的METALM，KOSMOS-1等，國內(nèi)的華為的盤古，騰訊的WeLM等等。除了這些通用模型，LLM也被用在細(xì)分領(lǐng)域，例如醫(yī)學(xué)領(lǐng)域的HuaTuo[23]，金融領(lǐng)域的BloombergGPT[24]等。

5. 總結(jié)

GPT-4究竟會(huì)不會(huì)帶來第四次工業(yè)革命，這是一個(gè)需要時(shí)間驗(yàn)證的話題，我也沒有資格在這給出結(jié)論，但GPT-4對(duì)與我個(gè)人的影響是巨大的。

首先，它一定程度上撼動(dòng)了我對(duì)傳統(tǒng)人工智能的理解，就像宏觀物理的很多定理在微觀物理上是不成立的，我在傳統(tǒng)人工智能上積累的很多經(jīng)驗(yàn)放在GPT-4里也是不成立的。它展現(xiàn)出的強(qiáng)大的零樣本學(xué)習(xí)能力，以及更高階的能力是遠(yuǎn)遠(yuǎn)超出我對(duì)深度學(xué)習(xí)的傳統(tǒng)認(rèn)知的。

其次，GPT-4以及ChatGPT正成為日常工作中最得力的助手，在撰寫這篇文章時(shí)GPT-4也提供了非常大的幫助，它不僅可以幫助我寫代碼，改文章，甚至還能幫我解決一些非工作的問題。最后，如雨后春筍般涌現(xiàn)的諸多不同的大模型又讓我對(duì)日益看衰的深度學(xué)習(xí)注入了新的信心和活力。

對(duì)于GPT-4這門技術(shù)，我建議每個(gè)人都要去了解并學(xué)會(huì)使用它。不管你的工作是否和計(jì)算機(jī)相關(guān)，它都會(huì)給你帶來一些幫助，哪怕你是個(gè)廚子，它都可能給你生成一份美味的菜譜。在使用GPT-4時(shí)，我們也要理性的看待它生成的內(nèi)容，只有GPT-4有一絲的風(fēng)險(xiǎn)問題，我們就不能放松對(duì)它的審核，以防幻覺問題給我們?cè)斐蓳p失。

在未來的一段時(shí)間，GPT-4一定會(huì)給我們帶來諸多的影響。首先，互聯(lián)網(wǎng)上會(huì)快速涌現(xiàn)大量使用GPT-4生成的我們無法區(qū)分的內(nèi)容，大眾會(huì)不會(huì)被統(tǒng)一的GPT-4的行為模式所影響是值得深思的。其次，GPT-4將極大程度解放某些工作的生產(chǎn)力，甚至可以替代這些工作，我們能不能抓住這個(gè)機(jī)遇，在這個(gè)互卷的環(huán)境里看到新的機(jī)會(huì)非常重要。最后，GPT-4將以怎樣的形式影響到每一個(gè)人都是不同的，GPT-4如果真的帶來了AGI，我希望我的好友們你們都不要錯(cuò)過。

Reference

[1] https://cdn.openai.com/papers/gpt-4.pdf
[2] https://zhuanlan.zhihu.com/p/614340292
[3] Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021.
[4] Bai, Yuntao, et al. "Training a helpful and harmless assistant with reinforcement learning from human feedback." arXiv preprint arXiv:2204.05862 (2022).
[5] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.
[6] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022.
[7] Huang J, Gu S S, Hou L, et al. Large language models can self-improve[J]. arXiv preprint arXiv:2210.11610, 2022.
[8] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International Conference on Machine Learning. PMLR, 2021.
[9] Guillaume Lample and Alexis Conneau. Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291, 2019.
[10] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V.Le, and Ruslan Salakhutdinov. Transformer-XL: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860, 2019.
[11] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509, 2019.
[12] Huang, Shaohan, et al. "Language is not all you need: Aligning perception with language models." arXiv preprint arXiv:2302.14045 (2023).
[13] Hao, Yaru, et al. "Language models are general-purpose interfaces." arXiv preprint arXiv:2206.06336 (2022).
[14] Zhang, Zhuosheng, et al. "Multimodal chain-of-thought reasoning in language models." arXiv preprint arXiv:2302.00923 (2023).
[15] Liu, Tianyu, et al. "A token-level reference-free hallucination detection benchmark for free-form text generation." arXiv preprint arXiv:2104.08704 (2021).
[16] Zhou, Chunting, et al. "Detecting hallucinated content in conditional neural sequence generation." arXiv preprint arXiv:2011.02593 (2020).
[17] Du, Zhengxiao, et al. "GLM: General language model pretraining with autoregressive blank infilling." Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022.
[18] Zhao, Wayne Xin, et al. "A Survey of Large Language Models." arXiv preprint arXiv:2303.18223 (2023).
[19] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).
[20] Chowdhery, Aakanksha, et al. "Palm: Scaling language modeling with pathways." arXiv preprint arXiv:2204.02311 (2022).
[21] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).
[22] Thoppilan, Romal, et al. "Lamda: Language models for dialog applications." arXiv preprint arXiv:2201.08239 (2022).
[23] Wang, Haochun, et al. "HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge." arXiv preprint arXiv:2304.06975 (2023).
[24] Wu, Shijie, et al. "BloombergGPT: A Large Language Model for Finance." arXiv preprint arXiv:2303.17564 (2023).
[25] Bubeck, Sébastien, et al. "Sparks of artificial general intelligence: Early experiments with gpt-4." arXiv preprint arXiv:2303.12712 (2023).
[26] Lin, Stephanie, Jacob Hilton, and Owain Evans. "Truthfulqa: Measuring how models mimic human falsehoods." arXiv preprint arXiv:2109.07958 (2021).

作者：京東零售劉巖
內(nèi)容來源：京東云開發(fā)者社區(qū)

責(zé)任編輯：武曉燕來源：今日頭條

GPT-4 核心技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<code id="89jd9"></code>

<button id="89jd9"></button>