做完GPT-4完整測評，微軟爆火論文稱初版AGI就快來了

作者：機(jī)器之心 2023-03-24 16:02:59

GPT-4 的能力什么檔次？

1956 年，在達(dá)特茅斯學(xué)院召開的一個(gè)研討會(huì)上，人工智能這一概念正式被提出。

之后這個(gè)詞一直挑戰(zhàn)著心理學(xué)家、哲學(xué)家和計(jì)算機(jī)科學(xué)家，因?yàn)樗y被定義了。1994 年，52 名心理學(xué)家聯(lián)合發(fā)文試圖捕捉它的本質(zhì)。

隨著時(shí)間的推移，研究者開始將注意力轉(zhuǎn)移到特定領(lǐng)域的 AI 系統(tǒng)，如 2016 年 AlphaGo 挑戰(zhàn)韓國冠軍棋手大獲全勝。之后，時(shí)間來到 20 世紀(jì) 90 年代末和 21 世紀(jì)初，研究者不滿足于專用 AI，因此開發(fā)更通用的人工智能系統(tǒng)呼聲越來越高。隨之而來的是，通用人工智能 (AGI) 一詞開始在 2000 年代初期流行起來。

最近一段時(shí)間，如大家所見，大型語言模型 (LLM) 走到聚光燈下，這些神經(jīng)網(wǎng)絡(luò)基于 Transformer 架構(gòu)，并在大量文本數(shù)據(jù)集上訓(xùn)練而成。尤其是 OpenAI 最新發(fā)布的 GPT-4，更是展示了大型語言模型的通用性，在數(shù)學(xué)、文字、法律、醫(yī)學(xué)等領(lǐng)域樣樣精通。

我們不禁會(huì)問，GPT-4 是邁向 AGI 的重要一步嗎？

微軟給出的答案是肯定的，在其最近發(fā)布的一篇論文中，他們闡述了這個(gè)觀點(diǎn)。文中對 GPT-4 進(jìn)行了全面評測。微軟認(rèn)為「鑒于 GPT-4 能力的廣度和深度，我們相信它應(yīng)該被合理視作一個(gè)通用人工智能（AGI）系統(tǒng)的早期（但仍不完整）版本。」

微軟還表示，「本文的主要目標(biāo)是對 GPT-4 的能力和局限性進(jìn)行探索，我們相信 GPT-4 的智能標(biāo)志著計(jì)算機(jī)科學(xué)及其他領(lǐng)域的真正范式轉(zhuǎn)變?！?/span>

論文地址：https://arxiv.org/pdf/2303.12712.pdf

有趣的是，這篇火爆的論文還被人發(fā)現(xiàn)有大量刪減，因此有人找出了未刪節(jié)版論文。

從未刪減版本中，這個(gè)博主也扒出了大量隱藏的細(xì)節(jié)，如 GPT-4 的內(nèi)部名稱為 DV-3，實(shí)際上也是該論文的隱藏第三作者，后被刪除；這些微軟的研究人員對 GPT-4 的技術(shù)細(xì)節(jié)似乎了解也并不多。此外博主也透露這篇論文發(fā)布時(shí)刪除了有關(guān)毒性內(nèi)容的部分（防止給 OpenAI 造成負(fù)面？）。

我們下面粘貼了該博主的 Twitter 線程，感興趣的可以查看。

Twitter thread：https://twitter.com/DV2559106965076/status/1638769434763608064

回到文章本身。

根據(jù)文章所認(rèn)定的 AGI，是具體的擁有推理、計(jì)劃、解決問題、抽象思維、理解復(fù)雜思想、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。從這些能力出發(fā)，論文進(jìn)行了有趣的實(shí)驗(yàn)和評測。

論文分為 10 個(gè)章節(jié)：第一章為總括部分；第二章介紹了多模態(tài)，主要和視覺生成內(nèi)容相關(guān)；第三章代碼，根據(jù)指令生成代碼、理解現(xiàn)有代碼；第四章數(shù)學(xué)能力；第五章與世界的交互；第六章與人類的交互；第七章判別力；第八章 GPT-4 局限性；第九章社會(huì)影響；第十章未來方向及結(jié)論。

下面我們通過具體的示例，看看 GPT-4 是不是真的邁進(jìn)了 AGI 時(shí)代。

多模態(tài)和跨學(xué)科組成

為了測試模型將藝術(shù)與編程相結(jié)合的能力，該研究要求 GPT-4 用 javascript 寫一段代碼，以生成康定斯基風(fēng)格的隨機(jī)圖像，下圖第一張為 Wassily Kandinsky 創(chuàng)作的，第二張和第三張分別由 GPT-4 和 ChatGPT 生成的：

下面為 GPT-4 代碼實(shí)現(xiàn)過程：

進(jìn)行視覺概念理解：在這個(gè)作圖任務(wù)中，輸入提示讓模型結(jié)合字母 Y、O、H 的形狀來畫一個(gè)人。其實(shí)在 GPT-4 的訓(xùn)練過程從沒有關(guān)于字母形狀的認(rèn)識，只能從相關(guān)訓(xùn)練數(shù)據(jù)中、模糊地學(xué)習(xí)到字母與一些特定形狀有關(guān)，結(jié)果顯示 GPT-4 生成的結(jié)果還不錯(cuò)：

用于草圖生成：GPT-4 還能與 Stable Diffusion 進(jìn)行結(jié)合。下圖為 3D 城市建模截圖，輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有 4 個(gè)按鈕，顏色分別為綠色、藍(lán)色、棕色和紅色。下面是生成結(jié)果：

你還能要求 GPT-4 用 ABC 記譜法生成和修改曲調(diào)：

編程能力

GPT-4 有非常強(qiáng)大的編程能力，包括根據(jù)指令編寫代碼和理解現(xiàn)有代碼。該研究具體測試了 GPT-4 在編程方面的能力。

代碼編寫?

下圖 3.1 是一個(gè)讓 GPT-4 寫 python 函數(shù)的例子，該研究使用 LeetCode 在線判斷代碼是否正確。

然后，該研究讓 GPT-4 將上表 2 中 LeetCode 上的準(zhǔn)確率數(shù)據(jù)可視化為圖表，結(jié)果如下圖 3.2 所示。

前端 / 游戲開發(fā)?

如下圖 3.3 所示，該研究讓 GPT-4 用 JavaScript 在 HTML 中編寫 3D 游戲，GPT-4 在零樣本的情況下生成了一個(gè)滿足所有要求的游戲。

深度學(xué)習(xí)編程?

為深度學(xué)習(xí)編寫代碼需要數(shù)學(xué)、統(tǒng)計(jì)學(xué)知識，并熟悉 PyTorch、TensorFlow、Keras 等框架和庫。如下圖 3.4 所示，研究者要求 GPT-4 和 ChatGPT 編寫自定義優(yōu)化器模塊，該任務(wù)對于人類深度學(xué)習(xí)專家來說也是具有挑戰(zhàn)性的。研究者為 GPT-4 和 ChatGPT 提供了自然語言描述，其中包括一系列重要的操作，例如應(yīng)用 SVD 等等。

此外，該研究還測試了 GPT-4 把代碼轉(zhuǎn)換成 LaTex 公式的能力，結(jié)果如下圖 3.5 所示。

在理解代碼方面，該研究嘗試讓 GPT-4 和 ChatGPT「讀懂」一段 C/C++ 程序，并預(yù)測程序的輸出結(jié)果，二者的表現(xiàn)如下：

然后，該研究讓 GPT-4 解釋了一段 Python 代碼：

還有解釋一段偽代碼：

數(shù)學(xué)能力

一直以來，大型語言模型的數(shù)學(xué)能力似乎一直不是很好。那么 GPT-4 在這方面表現(xiàn)如何呢？本文經(jīng)過一系列評測，結(jié)果表明 GPT-4 相比以前的模型在數(shù)學(xué)方面有了質(zhì)的飛越，但是離專家水平還差得很遠(yuǎn)，不具備數(shù)學(xué)研究的能力。

在與 ChatGPT 的對比中， GPT-4 成功的生成了解決方案，而 ChatGPT 生成了錯(cuò)誤答案：

在 AP 問題上，GPT-4 vs ChatGPT 對比結(jié)果。GPT-4 使用了正確的方法，不過由于計(jì)算錯(cuò)誤導(dǎo)致最終答案錯(cuò)誤，而 ChatGPT 產(chǎn)生了一個(gè)不連貫的論點(diǎn)。

此外，本文還測試了 GPT-4 使用數(shù)學(xué)思維和技術(shù)來解決現(xiàn)實(shí)問題的能力：下圖展示了 GPT-4 如何成功地為一個(gè)需要廣泛跨學(xué)科知識的復(fù)雜系統(tǒng)構(gòu)建合理的數(shù)學(xué)模型，而 ChatGPT 未能取得有意義的進(jìn)展。