做完GPT-4完整測評,微軟爆火論文稱初版AGI就快來了
1956 年,在達(dá)特茅斯學(xué)院召開的一個研討會上,人工智能這一概念正式被提出。
之后這個詞一直挑戰(zhàn)著心理學(xué)家、哲學(xué)家和計算機(jī)科學(xué)家,因為它太難被定義了。1994 年,52 名心理學(xué)家聯(lián)合發(fā)文試圖捕捉它的本質(zhì)。
隨著時間的推移,研究者開始將注意力轉(zhuǎn)移到特定領(lǐng)域的 AI 系統(tǒng),如 2016 年 AlphaGo 挑戰(zhàn)韓國冠軍棋手大獲全勝。之后,時間來到 20 世紀(jì) 90 年代末和 21 世紀(jì)初,研究者不滿足于專用 AI,因此開發(fā)更通用的人工智能系統(tǒng)呼聲越來越高。隨之而來的是,通用人工智能 (AGI) 一詞開始在 2000 年代初期流行起來。
最近一段時間,如大家所見,大型語言模型 (LLM) 走到聚光燈下,這些神經(jīng)網(wǎng)絡(luò)基于 Transformer 架構(gòu),并在大量文本數(shù)據(jù)集上訓(xùn)練而成。尤其是 OpenAI 最新發(fā)布的 GPT-4,更是展示了大型語言模型的通用性,在數(shù)學(xué)、文字、法律、醫(yī)學(xué)等領(lǐng)域樣樣精通。
我們不禁會問,GPT-4 是邁向 AGI 的重要一步嗎?
微軟給出的答案是肯定的,在其最近發(fā)布的一篇論文中,他們闡述了這個觀點。文中對 GPT-4 進(jìn)行了全面評測。微軟認(rèn)為「鑒于 GPT-4 能力的廣度和深度,我們相信它應(yīng)該被合理視作一個通用人工智能(AGI)系統(tǒng)的早期(但仍不完整)版本?!?/span>
微軟還表示,「本文的主要目標(biāo)是對 GPT-4 的能力和局限性進(jìn)行探索,我們相信 GPT-4 的智能標(biāo)志著計算機(jī)科學(xué)及其他領(lǐng)域的真正范式轉(zhuǎn)變。」
論文地址:https://arxiv.org/pdf/2303.12712.pdf
有趣的是,這篇火爆的論文還被人發(fā)現(xiàn)有大量刪減,因此有人找出了未刪節(jié)版論文。
從未刪減版本中,這個博主也扒出了大量隱藏的細(xì)節(jié),如 GPT-4 的內(nèi)部名稱為 DV-3,實際上也是該論文的隱藏第三作者,后被刪除;這些微軟的研究人員對 GPT-4 的技術(shù)細(xì)節(jié)似乎了解也并不多。此外博主也透露這篇論文發(fā)布時刪除了有關(guān)毒性內(nèi)容的部分(防止給 OpenAI 造成負(fù)面?)。
我們下面粘貼了該博主的 Twitter 線程,感興趣的可以查看。
Twitter thread:https://twitter.com/DV2559106965076/status/1638769434763608064
回到文章本身。
根據(jù)文章所認(rèn)定的 AGI,是具體的擁有推理、計劃、解決問題、抽象思維、理解復(fù)雜思想、快速學(xué)習(xí)和從經(jīng)驗中學(xué)習(xí)的能力。從這些能力出發(fā),論文進(jìn)行了有趣的實驗和評測。
論文分為 10 個章節(jié):第一章為總括部分;第二章介紹了多模態(tài),主要和視覺生成內(nèi)容相關(guān);第三章代碼,根據(jù)指令生成代碼、理解現(xiàn)有代碼;第四章數(shù)學(xué)能力;第五章與世界的交互;第六章與人類的交互;第七章判別力;第八章 GPT-4 局限性;第九章社會影響;第十章未來方向及結(jié)論。
下面我們通過具體的示例,看看 GPT-4 是不是真的邁進(jìn)了 AGI 時代。
多模態(tài)和跨學(xué)科組成
為了測試模型將藝術(shù)與編程相結(jié)合的能力,該研究要求 GPT-4 用 javascript 寫一段代碼,以生成康定斯基風(fēng)格的隨機(jī)圖像,下圖第一張為 Wassily Kandinsky 創(chuàng)作的,第二張和第三張分別由 GPT-4 和 ChatGPT 生成的:
下面為 GPT-4 代碼實現(xiàn)過程:
進(jìn)行視覺概念理解:在這個作圖任務(wù)中, 輸入提示讓模型結(jié)合字母 Y、O、H 的形狀來畫一個人。其實在 GPT-4 的訓(xùn)練過程從沒有關(guān)于字母形狀的認(rèn)識,只能從相關(guān)訓(xùn)練數(shù)據(jù)中、模糊地學(xué)習(xí)到字母與一些特定形狀有關(guān),結(jié)果顯示 GPT-4 生成的結(jié)果還不錯:
用于草圖生成:GPT-4 還能與 Stable Diffusion 進(jìn)行結(jié)合。下圖為 3D 城市建模截圖,輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有 4 個按鈕,顏色分別為綠色、藍(lán)色、棕色和紅色。下面是生成結(jié)果:
你還能要求 GPT-4 用 ABC 記譜法生成和修改曲調(diào):
編程能力
GPT-4 有非常強(qiáng)大的編程能力,包括根據(jù)指令編寫代碼和理解現(xiàn)有代碼。該研究具體測試了 GPT-4 在編程方面的能力。
代碼編寫?
下圖 3.1 是一個讓 GPT-4 寫 python 函數(shù)的例子,該研究使用 LeetCode 在線判斷代碼是否正確。
然后,該研究讓 GPT-4 將上表 2 中 LeetCode 上的準(zhǔn)確率數(shù)據(jù)可視化為圖表,結(jié)果如下圖 3.2 所示。
前端 / 游戲開發(fā)?
如下圖 3.3 所示,該研究讓 GPT-4 用 JavaScript 在 HTML 中編寫 3D 游戲,GPT-4 在零樣本的情況下生成了一個滿足所有要求的游戲。
深度學(xué)習(xí)編程?
為深度學(xué)習(xí)編寫代碼需要數(shù)學(xué)、統(tǒng)計學(xué)知識,并熟悉 PyTorch、TensorFlow、Keras 等框架和庫。如下圖 3.4 所示,研究者要求 GPT-4 和 ChatGPT 編寫自定義優(yōu)化器模塊,該任務(wù)對于人類深度學(xué)習(xí)專家來說也是具有挑戰(zhàn)性的。研究者為 GPT-4 和 ChatGPT 提供了自然語言描述,其中包括一系列重要的操作,例如應(yīng)用 SVD 等等。
此外,該研究還測試了 GPT-4 把代碼轉(zhuǎn)換成 LaTex 公式的能力,結(jié)果如下圖 3.5 所示。
在理解代碼方面,該研究嘗試讓 GPT-4 和 ChatGPT「讀懂」一段 C/C++ 程序,并預(yù)測程序的輸出結(jié)果,二者的表現(xiàn)如下:
然后,該研究讓 GPT-4 解釋了一段 Python 代碼:
還有解釋一段偽代碼:
數(shù)學(xué)能力
一直以來,大型語言模型的數(shù)學(xué)能力似乎一直不是很好。那么 GPT-4 在這方面表現(xiàn)如何呢?本文經(jīng)過一系列評測,結(jié)果表明 GPT-4 相比以前的模型在數(shù)學(xué)方面有了質(zhì)的飛越,但是離專家水平還差得很遠(yuǎn),不具備數(shù)學(xué)研究的能力。
在與 ChatGPT 的對比中, GPT-4 成功的生成了解決方案,而 ChatGPT 生成了錯誤答案:
在 AP 問題上,GPT-4 vs ChatGPT 對比結(jié)果。GPT-4 使用了正確的方法,不過由于計算錯誤導(dǎo)致最終答案錯誤,而 ChatGPT 產(chǎn)生了一個不連貫的論點。
此外,本文還測試了 GPT-4 使用數(shù)學(xué)思維和技術(shù)來解決現(xiàn)實問題的能力:下圖展示了 GPT-4 如何成功地為一個需要廣泛跨學(xué)科知識的復(fù)雜系統(tǒng)構(gòu)建合理的數(shù)學(xué)模型,而 ChatGPT 未能取得有意義的進(jìn)展。
由于論文內(nèi)容長達(dá) 154 頁,本文只對評測結(jié)果進(jìn)行了大量展示,想要了解更多內(nèi)容,讀者可以參考原論文。
最后附上論文目錄: