GPT-4強(qiáng)到離譜，OpenAI拒絕Open！首席科學(xué)家：開(kāi)源并不明智，我們之前錯(cuò)了

作者：新智元 2023-03-21 15:17:34

OpenAI的聯(lián)合創(chuàng)始人Greg Brockman和首席科學(xué)家Ilya Sutskever評(píng)價(jià)GPT-4的性能，并對(duì)安全問(wèn)題和開(kāi)源的爭(zhēng)議進(jìn)行解釋。

毫無(wú)疑問(wèn)，GPT-4一經(jīng)發(fā)布，就引爆了整個(gè)業(yè)界和學(xué)界。

憑借著自己強(qiáng)大的推理和多模態(tài)能力，引發(fā)了一眾熱議。

然鵝，GPT-4不是一個(gè)open的模型。

雖然OpenAI分享了大量GPT-4的基準(zhǔn)和測(cè)試結(jié)果，但是基本上沒(méi)有提供用于訓(xùn)練的數(shù)據(jù)、成本、或者用于創(chuàng)建模型的方法。

當(dāng)然了，這樣的「獨(dú)家秘笈」OpenAI肯定不會(huì)公布了。

馬庫(kù)斯直接拿出當(dāng)初OpenAI的初衷，發(fā)文嘲諷了一波。

網(wǎng)友改進(jìn)了一個(gè)版本。

人無(wú)完人，GPT-4也是

當(dāng)OpenAI的總裁、聯(lián)合創(chuàng)始人之一Greg Brockman將GPT-4和GPT-3進(jìn)行比較時(shí)，他說(shuō)了一個(gè)詞——不同。

「它只是不同而已，模型仍然有很多問(wèn)題和錯(cuò)誤......但你真的可以看到它在微積分或法律等方面的技能提升。在某些領(lǐng)域，它從表現(xiàn)非常糟糕進(jìn)化到現(xiàn)在足以匹敵人類(lèi)。」

GPT-4的測(cè)試結(jié)果很不錯(cuò)：在AP微積分BC考試中，GPT-4得了4分，而GPT-3得了1分。在模擬的律師考試中，GPT-4以大約前10%考生的分?jǐn)?shù)通過(guò)；GPT-3.5的分?jǐn)?shù)徘徊在后10%。

在上下文能力，也就是說(shuō)在生成文本之前可以記憶的文本方面，GPT-4大約能夠記住50頁(yè)左右的內(nèi)容，是GPT-3的8倍。

在提示方面，GPT-3和GPT-3.5只能接受文字提示：「寫(xiě)一篇關(guān)于長(zhǎng)頸鹿的文章」，而多模態(tài)的GPT-4可以接受圖片和文字的提示：給出一張長(zhǎng)頸鹿的圖片，提示問(wèn)「這里有多少只長(zhǎng)頸鹿？」這些GPT-4都能答對(duì)，而且它的讀梗能力也很強(qiáng)！

我們之前錯(cuò)了，開(kāi)源并不明智

而強(qiáng)到離譜的GPT-4一發(fā)布，便引起了大量研究人員和專(zhuān)家的興趣。但令人失望的是，OpenAI發(fā)布的GPT-4，不是「Open的AI模型。」

盡管OpenAI分享了大量GPT-4的基準(zhǔn)、測(cè)試結(jié)果和有趣的演示，但基本上沒(méi)有提供用于訓(xùn)練該系統(tǒng)的數(shù)據(jù)、能源成本或用于創(chuàng)建它的具體硬件或方法的相關(guān)信息。

之前Meta的LLaMa模型泄露的時(shí)候，就引發(fā)過(guò)一波關(guān)于開(kāi)源的討論。不過(guò)，這次大家對(duì)于GPT-4封閉模型的最初反應(yīng)是大部分都是負(fù)面的。

人工智能社區(qū)普遍認(rèn)為，這不僅破壞了OpenAI作為研究機(jī)構(gòu)的創(chuàng)始精神，而且讓其他人難以制定保障措施來(lái)應(yīng)對(duì)威脅。

Nomic AI的信息設(shè)計(jì)副總裁Ben Schmidt表示，由于無(wú)法看到GPT-4是在什么數(shù)據(jù)上訓(xùn)練的，大家很難知道該系統(tǒng)在什么地方是安全使用的，并提出修復(fù)方案。

「為了讓人們知道這個(gè)模型什么地方不起作用，OpenAI需要更好地了解GPT-4所做的事情以及其中的假設(shè)。我可不會(huì)在下雪的時(shí)候，相信一個(gè)沒(méi)有在雪地氣候情況下訓(xùn)練出來(lái)的自動(dòng)駕駛汽車(chē)。因?yàn)楹芸赡?，漏洞和?wèn)題只在真實(shí)使用的時(shí)候才會(huì)浮現(xiàn)?！?/span>

對(duì)此，OpenAI的首席科學(xué)家兼聯(lián)合創(chuàng)始人Ilya Sutskever解釋稱(chēng)：OpenAI不分享更多關(guān)于GPT-4的信息是因?yàn)楹ε赂?jìng)爭(zhēng)，也是因?yàn)閷?duì)安全的擔(dān)憂(yōu)，這一點(diǎn)是毋庸置疑的。

「外面的競(jìng)爭(zhēng)很激烈，GPT-4的開(kāi)發(fā)并不容易。幾乎所有的OpenAI的員工在一起工作了很長(zhǎng)時(shí)間才生產(chǎn)出這個(gè)東西。從競(jìng)爭(zhēng)的角度來(lái)看，有很多很多公司都想做同樣的事情，而GPT-4像是一個(gè)成熟的果實(shí)?！?/span>

眾所周知，OpenAI在2015年成立之初是一個(gè)非營(yíng)利組織。其創(chuàng)始人包括Sutskever、現(xiàn)任首席執(zhí)行官Sam Altman、總裁Greg Brockman以及現(xiàn)已離開(kāi)OpenAI的馬斯克。

Sutskever等人曾表示，該組織的目標(biāo)是為每個(gè)人創(chuàng)造價(jià)值，而不是單單為股東創(chuàng)造價(jià)值，并表示將與該領(lǐng)域的各方進(jìn)行「自由合作」。

然而，為了獲得數(shù)十億美元的投資（主要來(lái)自微軟），OpenAI還是被加蓋了一層商業(yè)屬性。

不過(guò)，當(dāng)被問(wèn)及為什么OpenAI改變了分享其研究的方法時(shí)，Sutskever簡(jiǎn)單地回答道：

「我們錯(cuò)了。在某個(gè)時(shí)候，AI/AGI將變得極其強(qiáng)大，那時(shí)，開(kāi)源就是沒(méi)有意義的?？梢灶A(yù)料的是，在幾年內(nèi)，每個(gè)人都會(huì)完全明白，開(kāi)源人工智能是不明智的。因?yàn)檫@個(gè)模型是非常有力的。如果有人想，用它就能夠造成巨大的傷害，這將是相當(dāng)容易的。所以隨著模型的能力越來(lái)越高，不想披露它們是有道理的?！?/span>

Lightning AI的首席執(zhí)行官和開(kāi)源工具PyTorch Lightning的創(chuàng)建者William Falcon從商業(yè)角度解讀稱(chēng)：「作為一家公司，你完全有權(quán)利這樣做?！?/span>

安全風(fēng)險(xiǎn)

與此同時(shí)，Brockman也認(rèn)為GPT-4的應(yīng)用推廣應(yīng)當(dāng)是緩慢推進(jìn)的，因?yàn)镺penAI正在評(píng)估風(fēng)險(xiǎn)和利益。

「我們需要解決一些政策問(wèn)題，如面部識(shí)別和如何對(duì)待人的圖像，我們需要弄清楚，危險(xiǎn)區(qū)在哪里，紅線在哪里，然后慢慢澄清這些點(diǎn)。」

還有就是老生常談的，GPT-4被用來(lái)干壞事的風(fēng)險(xiǎn)。

以色列網(wǎng)絡(luò)安全初創(chuàng)公司Adversa AI發(fā)表了一篇博文，展示了繞過(guò)OpenAI的內(nèi)容過(guò)濾器，讓GPT-4生成釣魚(yú)郵件、生成對(duì)同性戀者的性描述等讓人高度反感的文本的方法。

因此，很多人都希望GPT-4在審核方面帶來(lái)重大改進(jìn)。

針對(duì)這一點(diǎn)，Brockman強(qiáng)調(diào)，他們花了很多時(shí)間試圖了解GPT-4的能力，而該模型已經(jīng)經(jīng)歷了六個(gè)月的安全培訓(xùn)。在內(nèi)部測(cè)試中，對(duì)于OpenAI的使用政策所不允許的內(nèi)容，GPT-4作出反應(yīng)的可能性比GPT-3.5低82%，產(chǎn)生「事實(shí)性」反應(yīng)的可能性高40%。

不過(guò)，Brockman并不否認(rèn)GPT-4在這方面的不足。但他強(qiáng)調(diào)了該模型的新的緩和導(dǎo)向工具，稱(chēng)為「系統(tǒng)信息」的API級(jí)能力。

系統(tǒng)信息本質(zhì)上是為GPT-4的互動(dòng)設(shè)定基調(diào)，并建立界限的指令。這樣，以系統(tǒng)信息作為護(hù)欄，就可以防止GPT-4偏離方向。

例如，一條系統(tǒng)信息的人設(shè)可能是這樣的：「你是一個(gè)總是以蘇格拉底方式回答問(wèn)題的導(dǎo)師。你從不給學(xué)生答案，而是總是試圖提出正確的問(wèn)題，幫助他們學(xué)會(huì)自己思考?！?/span>

新的道路

其實(shí)，從一定程度上，Sutskever也認(rèn)同批評(píng)者的觀點(diǎn)：「如果更多的人愿意研究這些模型，我們會(huì)對(duì)它們有更多的了解，這將是好事。」

所以O(shè)penAI出于這些原因，向某些學(xué)術(shù)和研究機(jī)構(gòu)提供了訪問(wèn)其系統(tǒng)的機(jī)會(huì)。

而且Brockman還提到了Evals，這是OpenAI新近開(kāi)源的軟件框架，用于評(píng)估其人工智能模型的性能。

Evals采用的是模型測(cè)試眾包的方式，讓用戶(hù)開(kāi)發(fā)和運(yùn)行評(píng)估GPT-4等模型的基準(zhǔn)，同時(shí)檢查其性能，這也是OpenAI致力于「健全」模型的標(biāo)志之一。

「通過(guò)Evals，我們可以看到用戶(hù)關(guān)心的用例，能夠以一種系統(tǒng)的形式進(jìn)行測(cè)試。我們開(kāi)源的部分原因是，我們正在從每三個(gè)月發(fā)布一個(gè)新模型轉(zhuǎn)向不斷改進(jìn)新模型。當(dāng)我們制作新的模型版本時(shí)，我們至少可以通過(guò)開(kāi)源知道這些變化是什么?！?/span>

其實(shí)，關(guān)于共享研究的討論一直頗為火熱。一方面，谷歌和微軟這樣的科技巨頭正急于將人工智能功能添加到他們的產(chǎn)品中，往往會(huì)將以前的道德問(wèn)題擱置一邊，微軟最近就解雇了一個(gè)團(tuán)隊(duì)，該團(tuán)隊(duì)是專(zhuān)門(mén)確保人工智能產(chǎn)品遵循道德準(zhǔn)則的）；另一方面；技術(shù)的迅速改善引發(fā)了人們對(duì)人工智能的擔(dān)憂(yōu)。