編輯 | 聽雨
“我們正走向一個計算極度稀缺的世界,而能源將是下一個巨大的瓶頸。”
“未來,所有的授權(quán)都會變成‘角色扮演’授權(quán)?!?/span>
“我們希望能建立可以自主思考一年、甚至十年的AI?!?/span>
以上觀點出自幾天前OpenAI聯(lián)合創(chuàng)始人兼總裁Greg Brockman在DevDay期間的一場閉門深度訪談,時間是Sora2發(fā)布后不久。
這場訪談中Greg表現(xiàn)得十分真實和坦誠,信息密度極高。
Greg沒有回避OpenAI面臨的困境,他用"pain and suffering"(痛苦與掙扎)來形容內(nèi)部的計算資源分配決策,以及他們?nèi)绾螐囊患壹冘浖巨D(zhuǎn)變?yōu)樾枰紤]建設(shè)數(shù)據(jù)中心、甚至自建能源設(shè)施的基礎(chǔ)設(shè)施公司。
他直言美國的能源供應(yīng)將成為AI發(fā)展的最大瓶頸。此外,他還分享了base模型與后訓(xùn)練模型的對比,以及對AGI定義的重新思考。
除了坦誠當(dāng)前最大的瓶頸是計算與能源,Greg還首次系統(tǒng)解釋了:
- 為何將Sora 2 從技術(shù)模型打造成一款社交產(chǎn)品。
- AI代理(Agent) 將如何改變互聯(lián)網(wǎng)的貨幣方式。
- 在內(nèi)部,他們?nèi)绾蜗裢妗岸砹_斯方塊”一樣,痛苦地分配極度稀缺的GPU資源。
- 他對AGI時間表的最新看法,以及人類在其中的價值。
小編在這里精編了整場對話內(nèi)容,信息密度極高,建議收藏細(xì)讀。
模型擴展與Transformer架構(gòu)的普適性
主持人:
Sora 2 上周發(fā)布了,擴展一個像 Sora 這樣的模型是怎樣的體驗,它與文本或圖像模型有什么不同?
Greg Brockman:
我想從基本層面來思考,所有的東西仍然是深度學(xué)習(xí),機制是一樣的,底層原理也沒有變化。你需要擴展大量的計算資源,進(jìn)行正向傳播和梯度計算。從更細(xì)節(jié)的層面看,它依然是 Transformer,這一點非常驚人。你用不同的方式進(jìn)行訓(xùn)練,采用不同的處理過程,涉及到擴散等概念。你在考慮如何將計算能力注入這些模型,但從根本上講,最令我驚訝的是,盡管我們討論的是文本和視頻,它們似乎是完全不同的模態(tài),但它們的底層計算過程有著巨大的重疊。這點真的很深刻。
主持人:
你認(rèn)為 Transformer 架構(gòu)會推動我們邁向下一個階段嗎?甚至是實現(xiàn)全世界級的模型,Sora 2 顯然是朝這個方向邁出了重要的一步。
Greg Brockman:
是的,我認(rèn)為有兩點需要說。首先,我認(rèn)為有很多問題值得討論,比如我們是否遺漏了重大的創(chuàng)意,是否需要像 Transformer 這樣的創(chuàng)新。我認(rèn)為創(chuàng)新的空間依然很大,我們已經(jīng)看到過這種進(jìn)展,算法的提升步伐也在保持同步。
我們做過多年的研究,追蹤模型進(jìn)化的曲線,我不認(rèn)為這些進(jìn)展會停滯。擴展曲線和數(shù)據(jù)曲線仍在繼續(xù),而正是這些推動了這場革命。每一個環(huán)節(jié)都有自己的限制因素,你只需要不斷調(diào)整,你會看到模型的性能顯著提高。所以,我認(rèn)為我們還有很多東西可以建設(shè)。如果 AGI 看起來跟現(xiàn)在的模型有些相似,我并不感到驚訝,但如果它完全一樣,我會非常震驚。
主持人:
當(dāng)你查看這些不同類型的模型時,雖然它們都是基于 Transformer 的,但它們的成本差異大嗎?你們是如何衡量不同類型模型的單元經(jīng)濟學(xué)的?
Greg Brockman:
是的,確實存在不同的性能特征,有時我們會使用不同的推理棧,優(yōu)化方法也不一樣。一些模型可能會更適合不同類型的硬件,在內(nèi)存和計算之間的平衡可能存在差異。
很多系統(tǒng)的工作在細(xì)節(jié)上看起來非常不同,當(dāng)你試圖從硬件中擠出極限性能時,它會推動你走向非常不同的方向。但歸根結(jié)底,我們始終認(rèn)為,推動這一切創(chuàng)新并將其帶到世界的核心驅(qū)動力仍然是計算。
AMD合作進(jìn)展與芯片生態(tài)的挑戰(zhàn)
主持人:
最近OpenAI和 AMD 的合作宣布了新的進(jìn)展。那么,構(gòu)建在 AMD 硬件上與其他硬件有根本性的區(qū)別嗎?是說我們現(xiàn)在可以調(diào)用越來越龐大的資源池,還是需要進(jìn)行深度技術(shù)改進(jìn)?
Greg Brockman:
我們實際上已經(jīng)在多個方面投資了 AMD 的軟件,因為我們在 Triton 基礎(chǔ)上構(gòu)建。Triton 是一個我們資助的項目,它幾乎支撐了我們大多數(shù) GPU。
我們目前面臨的最大挑戰(zhàn)是推理與訓(xùn)練。推理的固定成本已經(jīng)很高,而訓(xùn)練的固定成本更高。現(xiàn)在,我們已經(jīng)能夠通過很少的工作量使用 AMD 軟件并獲得不錯的表現(xiàn)。這一切得益于我們與 AMD 長期的合作關(guān)系,我們也提供了很多反饋。現(xiàn)在,從推理角度來看,我們感覺在擴展方面已經(jīng)有了不錯的進(jìn)展,并且每種硬件平臺都有適合它的定位和創(chuàng)新。
主持人:
你是否曾考慮過像 Cerebral 或其他類似的公司,它們在芯片架構(gòu)上采用了不同的路徑,你是否考慮過這些新興競爭者?
Greg Brockman:
是的,2017年我們看到 Cerebral 時非常興奮,因為它是一個完全不同的范式。你看到這些數(shù)字時,會覺得“哇,如果我們有一百萬個這樣的設(shè)備,我們就能實現(xiàn) AGI”。這顯然是一個非常不同的、非常特別的平臺。
然而,事實證明,構(gòu)建非 GPU 架構(gòu)的挑戰(zhàn)遠(yuǎn)比我們預(yù)期的要大。在 2017 年,我們非常積極地考慮了整個生態(tài)系統(tǒng),試圖與不同的芯片公司溝通,給他們一些建議,告訴他們工作負(fù)載應(yīng)該如何設(shè)計。老實說,大部分公司并沒有聽取我們的建議。這就像是 2017 年時。
主持人:
OpenAI 當(dāng)時確實與現(xiàn)在很不一樣。
Greg Brockman:
你會很驚訝地發(fā)現(xiàn),有些人現(xiàn)在仍然沒有聽取我們的建議。不過,我認(rèn)為很大程度上,這并不是因為他們認(rèn)為我們錯了,而是因為如果你從芯片行業(yè)的人角度看問題,他們的思維方式是固定的,無法理解工作負(fù)載的需求。當(dāng)你試圖說,“不,不,問題應(yīng)該從另一個角度來看”,那時你才會發(fā)現(xiàn),模型應(yīng)當(dāng)是大型的,而不是小型的。如果你不接受這種設(shè)計思路,很難改變你原本的世界觀。所以,成功的公司通常是那些從深度學(xué)習(xí)角度切入的,或者至少能夠理解工作負(fù)載發(fā)展方向的公司。
當(dāng)前最大的瓶頸:計算與能源稀缺堪稱“痛苦與掙扎”
主持人:
當(dāng)你看到從計算機建設(shè)到推理服務(wù)的整個流程時,你認(rèn)為今天最大的瓶頸在哪里?
Greg Brockman:
我認(rèn)為我們正走向一個計算機極度稀缺的世界,而能源,尤其是在美國,將會成為一個巨大的瓶頸。而且現(xiàn)在供應(yīng)鏈中有許多環(huán)節(jié)尚未適應(yīng)我們預(yù)見到的需求。因此,這就是我們多年來一直在反復(fù)強調(diào)的事情:我們需要建設(shè)更多的計算能力。
主持人:
關(guān)于 OpenAI 是否正在開發(fā)自己的芯片,也有很多流言。那么你們是否考慮過投資自己的能源系統(tǒng)?或者在這方面做一些新的嘗試?
Greg Brockman:
如果你問我十年前的自己,2015年的我,我們會告訴你我們要建設(shè) AGI。當(dāng)時我們將其視為一個軟件任務(wù)。
但實際上我們逐漸意識到,計算能力就是構(gòu)建 AGI 所需的基礎(chǔ)物質(zhì)。它是可以更容易擴展的,而不像其他資源那樣難以擴展。這就是為什么我們?nèi)绱藢W⒂谟嬎隳芰Α?/span>
你不得不將其推到極限,而后你開始意識到,實際上你需要建設(shè)巨大的物理基礎(chǔ)設(shè)施。所以我們現(xiàn)在正走入這個領(lǐng)域,開始像 Stargate 那樣建設(shè)自己的數(shù)據(jù)中心。
我認(rèn)為我們現(xiàn)在的瓶頸主要取決于市場是否能夠及時回應(yīng)我們所傳遞的需求。我們已經(jīng)很大聲地向市場發(fā)出了信號,這不僅僅是來自 OpenAI,而是整個行業(yè)的需求。如果市場能醒悟并響應(yīng)這些需求,那我們就能避免自己去開發(fā)能源基礎(chǔ)設(shè)施。
主持人:
但是我們還是要完成任務(wù)的。因此,在目前有限的 GPU 和計算資源下,你們有許多互相沖突的需求,包括消費者產(chǎn)品、企業(yè)產(chǎn)品、開發(fā)者 API 和訓(xùn)練。你們?nèi)绾螞Q定這些計算資源的分配,如何在內(nèi)部進(jìn)行協(xié)調(diào)?
Greg Brockman:
痛苦與掙扎,這是最真實的狀態(tài)。非常艱難,因為你看到各種令人驚嘆的項目,很多人來推銷自己的想法,你會覺得“這真是太棒了!”
主持人:
你們做得如此多,如何選擇該做什么呢?像我們這樣的公司規(guī)模小,做決策都很困難。你能不能描述一下 OpenAI 內(nèi)部如何處理這些問題?
Greg Brockman:
從機制上講,我們現(xiàn)在已經(jīng)有了一個流程。比如,Jakub Pachocki(OpenAI首席科學(xué)家)和Mark Chen(OpenAI首席研究官)負(fù)責(zé)決定計算資源的分配。不過更廣泛地講,研究和應(yīng)用部門之間有分歧,通常由 Sam 和我來協(xié)調(diào)最終的決策。
在研究方面,我剛才描述了計算資源是如何分配的。在具體操作層面,我的團隊中有一些人專門負(fù)責(zé)這個艱巨的任務(wù)——實際調(diào)度 GPU 資源。你知道,這是一個非常有趣的過程。例如,Kevin Park 就是我的團隊成員之一,當(dāng)你去找他時,告訴他,“我們需要更多的 GPU 來支持這個新項目”,他就會說:“好的,現(xiàn)在有五個項目正在接近完成,這個新項目要先完成?!比缓笪覀兙湍苷{(diào)整資源。
這就像是在做“俄羅斯方塊”游戲一樣,非常驚人地看到整個過程的實現(xiàn)。我覺得計算資源的分配不僅僅是一個簡單的決策,它實際上是一個非常復(fù)雜的協(xié)調(diào)工作,一些部分由人來解決,有些部分則由表格來管理。真的是非常有趣的過程,能夠親眼見證這一切,尤其是在團隊生產(chǎn)力的推動下,人們對是否能獲得計算資源的關(guān)注度是無法低估的。
主持人:
你們宣布了一個新舉措,正在將“網(wǎng)絡(luò)”引入 ChatGPT。你展示了 Zillow 的例子。隨著應(yīng)用程序逐漸轉(zhuǎn)向更加原生的體驗,你們?nèi)绾慰创@種互聯(lián)網(wǎng)體驗的解耦?隨著代理越來越多地在我們的名義下瀏覽,似乎人們親自上網(wǎng)瀏覽傳統(tǒng)網(wǎng)站的時間在減少。你認(rèn)為接下來的18個月會是什么樣的?
Greg Brockman:
實際上,我想在回答前一個問題時補充一下。我認(rèn)為我們正在朝著一個以計算能力驅(qū)動整個經(jīng)濟生產(chǎn)力的世界前進(jìn)。你在 OpenAI 中看到的這種小型生態(tài)系統(tǒng),我認(rèn)為在未來會在各個地方出現(xiàn)。所以我真正認(rèn)為的是,我們需要建設(shè)計算能力,以緩解計算資源稀缺的問題,并且在我們面臨計算分配問題時,能更好地處理這些問題。
主持人:
你認(rèn)為目前供應(yīng)和需求的比例是什么樣的?
Greg Brockman:
我們離目標(biāo)還遠(yuǎn)嗎?哦,我覺得我們還遠(yuǎn)得很。我不確定具體差距有多大,但我可以說,如果我們現(xiàn)在的計算能力增加十倍,我們的收入是否能增長十倍?我不確定,但可能會增長五倍。因為我們有很多產(chǎn)品在等待發(fā)布,卻無法推出。
你可以很直觀地看到一些項目,比如 Pulse,它現(xiàn)在只有專業(yè)版。Pulse 是一個很棒的項目。
主持人:
是的,我們之后會討論這個項目。這個項目真的對計算資源要求很高。
Greg Brockman:
我們確實需要更多的計算資源。
AI代理正在重塑互聯(lián)網(wǎng)?可能會出現(xiàn)新的貨幣方式
主持人:
讓我們討論一下互聯(lián)網(wǎng)的解耦問題。你會發(fā)現(xiàn),瀏覽互聯(lián)網(wǎng)的基本方式正在發(fā)生劇烈變化,尤其是隨著代理開始為我們?yōu)g覽互聯(lián)網(wǎng),并且現(xiàn)在將傳統(tǒng)網(wǎng)站引入 ChatGPT。你對這種變化怎么看?
Greg Brockman:
我覺得 ChatGPT 真的讓你意識到,去一個靜態(tài)的網(wǎng)站只是為了查看信息是多么不自然。就像瀏覽一些靜態(tài)信息一樣。
你在瀏覽頁面時尋找一個你需要的事實,但大部分頁面的內(nèi)容都與之無關(guān)。我們幾乎已經(jīng)跨越了這個階段,盡管偶爾還會遇到,但它已經(jīng)不再是主流,也不再是人們希望去做的事情。當(dāng)你意識到你花了那么多時間去做這些事情時,這其實并不增加任何價值,就像是在大海撈針。實際上,應(yīng)該是機器來為你做這些事情。
我認(rèn)為,隨著應(yīng)用程序和 ChatGPT 這樣的動態(tài)應(yīng)用程序的發(fā)展,未來我們將不再需要進(jìn)入網(wǎng)站點擊一堆按鈕去做一些動態(tài)操作。那感覺像是完全倒退的事情,我們本應(yīng)該早就突破這一點。所以我認(rèn)為,我們正朝著一個人們會更加重視自己時間的世界發(fā)展,因為現(xiàn)在已經(jīng)沒有借口浪費時間在那些不產(chǎn)生價值的事情上。如果人類沒有在思考、創(chuàng)造或提供反饋,那就是 AI 的工作了。
主持人:
那么這將如何改變網(wǎng)絡(luò)的貨幣化方式呢?你知道,傳統(tǒng)上,網(wǎng)絡(luò)是基于 CPM 廣告盈利的,用戶給網(wǎng)站提供瀏覽量,網(wǎng)站則提供一些免費的內(nèi)容和廣告。但當(dāng)代理在你的名義下進(jìn)行瀏覽,尤其是當(dāng)你將像 Zillow 這樣的網(wǎng)站帶入 ChatGPT 時,就會產(chǎn)生一些沖突。比如,他們是否仍在展示廣告?那這樣的模式會是什么樣子?你如何看待隨著這些變化的發(fā)生,網(wǎng)絡(luò)貨幣化層面的變化?
Greg Brockman:
實際上,真相是,現(xiàn)在沒有人知道確切答案。但我認(rèn)為我們可以看到這個趨勢,我們必須探索并找到合適的方式來調(diào)整新的貨幣化模式,找到正確的擴展方式。我認(rèn)為從根本上來說,這些技術(shù)對用戶提供價值提出了新的要求。
如果你看看 ChatGPT,現(xiàn)在它是一個訂閱制的產(chǎn)品,對吧?我們可能在三年前推出時沒有預(yù)測到這一點,但人們愿意為它付費,因為它確實增加了價值——無論是對個人生活還是職業(yè)生活都有幫助,這種價值是全面的。因此,我并不是說廣告就沒有位置,但我認(rèn)為現(xiàn)在的廣告形式,比如你無意識地滾動頁面,去找某個你關(guān)心的句子,結(jié)果你只是碰巧點擊了某個廣告頁面,這種廣告方式不再是價值的主要推動力。
不過,我確實認(rèn)為會出現(xiàn)新的收入模式,會有新的貨幣化方式。而且,老實說,我認(rèn)為這是目前最激動人心的時刻。
ChatGPT并非“另一個應(yīng)用商店”
主持人:
這確實是一個構(gòu)建的黃金時代。如果回想十多年前,看看移動互聯(lián)網(wǎng)過渡時期的出版商,很多公司在進(jìn)入蘋果的應(yīng)用商店后變得依賴于它。那么你會怎么向他們解釋,為什么這次不一樣,為什么 ChatGPT 可能成為你人工智能體驗的“主頁”?
Greg Brockman:
我認(rèn)為這個故事還沒有寫完。我有一個觀察,AI 似乎總是以一種令人驚訝的方式發(fā)展,完全不同于我們以前見過的任何東西。
它有些元素讓人聯(lián)想到過去,但我認(rèn)為沒有一個明確的類比。比如說,“這是互聯(lián)網(wǎng)的延續(xù)”、“這是移動互聯(lián)網(wǎng)的延續(xù)”或者“這就像應(yīng)用商店”。我認(rèn)為它是一些全新的東西。那么,你希望如何與 AI 互動呢?是通過一個網(wǎng)站來中介你與其他所有事物的互動嗎?我不確定。
因為 AI 的意義之一是將機器帶得更接近人類,而不是你要強迫自己去思考:“哦,那里有一個 URL,我得去訪問那個網(wǎng)站?!逼鋵崳瑱C器應(yīng)該直接按照你的需求來做,甚至主動地去思考你可能想要什么并為你去做。我認(rèn)為這種范式的轉(zhuǎn)變,可能會改變我們對入口點和機會的看法。所以我認(rèn)為這里有非常大的發(fā)展空間,我并不確定是否可能通過一個門戶來實現(xiàn)與所有事物的互動。
從被動工具到主動伙伴:AI自主性的未來
主持人:
我想繼續(xù)問你一個問題。你認(rèn)為我們離 AI 能夠預(yù)測我大多數(shù)需求的那一天還有多遠(yuǎn)?當(dāng) ChatGPT 首次發(fā)布時,它是一個非常被動的工具。我給它提示,它會返回相應(yīng)的內(nèi)容。現(xiàn)在,像 Pulse 這樣的功能開始變得更加主動。你如何看待在未來24個月里,AI 從反應(yīng)性到主動性之間的比率變化?
Greg Brockman:
我看到主動性將變得更加重要。比如,你給 AI 一個小任務(wù),它可能會花一天、一周、一個月的時間來思考。我們的目標(biāo)是建立能夠在一年、甚至十年內(nèi)主動思考的 AI。這就像人類一樣。
主持人:
這是否意味著在這段時間內(nèi)完全沒有人工干預(yù)?
Greg Brockman:
我覺得有點像人類解決莫斯定理的過程。比如說,安德魯·懷爾斯花了十年時間基本上自己解決了這個問題,雖然他并不是完全沒有和人類互動,但他大部分時間是獨立思考的。這也是我們想要達(dá)到的目標(biāo)。
我們希望 AI 能夠幫助我們解決宏大的問題。能夠有 AI 自主去做生產(chǎn)性工作,而不需要我們不斷地進(jìn)行微觀管理。這對人類來說很痛苦,對 AI 來說也是如此。我們希望建立這樣一個世界:你可以選擇是否進(jìn)行微觀管理,然而,如果你總是對生產(chǎn)性的人類進(jìn)行微觀管理,他們很可能會很快感到不快。所以,我認(rèn)為這種轉(zhuǎn)變將徹底改變工作方式,你將能夠真正選擇自己想花時間去做的事情。
主持人:
我看到很多關(guān)于 AI 能夠獨立思考多少小時的討論。通常,它可以自主思考很多小時。那么,你如何看待 AI 能夠自主思考的持續(xù)時間與它在這段時間內(nèi)能完成的任務(wù)之間的權(quán)衡?比如,如果它花了 30 小時才完成“1+1”的計算,這顯然與解決癌癥問題的復(fù)雜性不同。你是如何看待在給定時間窗口內(nèi)的智能壓縮與延長時間窗口之間的權(quán)衡?
Greg Brockman:
是的,我覺得這是一個很好的問題,而且很容易出現(xiàn)一些看似有意義的標(biāo)準(zhǔn),但實際上可能會誤導(dǎo)你。正如你所說的,某些問題需要更多的思考、更強的計算能力和更多的計算資源。你真正想要的是一個能夠高效地去思考一天的 AI,解決這些復(fù)雜的問題。但如果我們能輕松解決它,那就太好了。
主持人:
對,像十個土星那樣。
Greg Brockman:
如果能做到那樣,當(dāng)然很好。我覺得這些問題是兩個不同的維度,重要的是我們要在這兩個維度上持續(xù)推動。
主持人:
那好,考慮到這個問題,Codex 能夠完全自主思考多久呢?目前的記錄是多少?
Greg Brockman:
實際上,我并不知道具體的記錄是什么。我想我們曾經(jīng)發(fā)布過相關(guān)數(shù)據(jù)。我知道有一些人報告說,Codex 已經(jīng)能夠獨立思考七個小時左右,但我不確定這個是不是極限。你可以在網(wǎng)上找到相關(guān)的信息。我的意思是,現(xiàn)在我們已經(jīng)能夠在一些有趣的問題上投入大量的計算資源了。
Sora2為何成為一個社交產(chǎn)品?
主持人:
讓我們來聊聊 Sora 2。我想我團隊的一些成員可能有點上癮了,使用起來真的非常好。你們在開發(fā)這個新模型時,從 Sora 1 到 Sora 2,你們?yōu)槭裁礇Q定把它做成一個社交體驗,而不是像 Sora 1 那樣,以更傳統(tǒng)的方式發(fā)布和使用?
Greg Brockman:
我們通常在思考要構(gòu)建哪些功能時,主要是看模型的能力,這也是我們最終推出 ChatGPT 的原因。我記得當(dāng)時我們在進(jìn)行聊天功能的基礎(chǔ)設(shè)施開發(fā),而后推出了 GPT-4。
那時我們做了第一個訓(xùn)練,并且我們當(dāng)時只是做指令跟隨,即使用一組數(shù)據(jù)集,模型接收一個問題并提供回答。我記得當(dāng)時我嘗試過另一個方法:給模型提供另一個問題,這個問題的答案依賴于前一個問題的上下文。模型應(yīng)該能理解并利用這個信息,但實際上它沒有做到。
你會想:“哇,這個模型很聰明!它能夠進(jìn)行這種推理?!彼@然想成為一個聊天模型,技術(shù)已經(jīng)發(fā)展到應(yīng)該將它作為聊天系統(tǒng)發(fā)布的地步。
對于 Sora 2,確實有一些相似的感覺,尤其是在思考模型的優(yōu)缺點、它能做什么以及它的新穎性方面。因此,我們有很多方向可以走,仍然有許多未走的路。就我個人來說,任何一個接口,任何后期訓(xùn)練的模型,都會讓人覺得稍顯遺憾,因為你實際上縮小了原始模型的能力范圍。原始的基礎(chǔ)模型非常有趣,它們很難使用,但其中蘊藏著無窮的可能性。
主持人:
我能理解,你們在決策時背后一定有很多考慮。
Greg Brockman:
我認(rèn)為這點外界并不完全理解,這讓我感到有些惋惜,因為我們曾經(jīng)發(fā)布過基礎(chǔ)模型。比如 GPT-3 那時就是一個基礎(chǔ)模型,非常完美,但非常難用。
你用過 GPT-3 嗎?那時你需要提供六個任務(wù)示例,模型才會知道如何回答。
主持人:
我明白了,原來這是模型處于基礎(chǔ)階段,而不是它經(jīng)歷過多次迭代后變得更好。
Greg Brockman:
是的,你應(yīng)該這么理解。這些基礎(chǔ)模型,我們訓(xùn)練它們做的是“下一個步驟預(yù)測”,它們幾乎在觀察人類的思維、行為,以及所有公開的數(shù)據(jù)。
它就是在說,給定這個前綴,接下來是什么?接下來是什么?在推理時,它就像是從某個公開數(shù)據(jù)中提取出一個文檔,并詢問:“接下來是什么?”
然后,你需要考慮如何將查詢格式化成一種在自然發(fā)生的分布中能出現(xiàn)的方式。于是就發(fā)現(xiàn)了這樣一種模式,如果我有一個問題和答案,然后再提供另一個問題和答案,模型會知道接下來應(yīng)該是一個答案。但如果只有問題,那接下來可能是另一個問題。
這就像是在引導(dǎo) AI 進(jìn)行角色扮演,讓它覺得自己正處于某個合理的文檔中,且符合訓(xùn)練數(shù)據(jù)的分布。
然而,這么做非常難用,用戶體驗非常差,產(chǎn)品并不好用,且我們無法控制它表達(dá)出來的行為和價值觀。它有點像一個人,通過觀察這個世界積累知識,擁有對一切的理解。有人曾經(jīng)比喻說,基礎(chǔ)模型更像是在訓(xùn)練人類而不是一個機器人。它包羅萬象,擁有所有的價值觀、世界觀。
所以,當(dāng)你問它如何回應(yīng)某個特定情況時,基本上人類可能做出的任何回應(yīng),它都能做到。如果你想讓模型專注于一組一致的價值觀,那么就需要有其他步驟來引導(dǎo)它。這就是后期訓(xùn)練的意義。后期訓(xùn)練的目的是將這塊“原始智能”進(jìn)行精煉,最終形成一個更加一致的個性或行為模式。
主持人:
這是否意味著決定將其做成更社交化的產(chǎn)品是在后期訓(xùn)練之前做出的?還是說,你們發(fā)現(xiàn)它在模仿方面有特別的天賦?
Greg Brockman:
這個過程其實是一個迭代循環(huán):你首先拿到基礎(chǔ)模型,看看這個模型如何表現(xiàn)。然后你會嘗試給它不同的提示,看到某些反應(yīng)時會覺得:“哦,這個真有趣!如果它能在這個任務(wù)上可靠地工作該多好!”你不需要做很多額外的工作。
基礎(chǔ)模型就像是世界上最好的原型引擎,但它們并不可靠。因為要找到合適的提示讓模型完成你想要的任務(wù)是非常困難的。這實際上是一個溝通問題,之后的后期訓(xùn)練就是為了更好地進(jìn)行這種溝通。
角色扮演的必然:AI形象授權(quán)的未來趨勢
主持人:
你的“角色”是否公開?
Greg Brockman:
我的角色目前并沒有公開。
主持人:
我把我的角色公開了。我記得 Sam Altman 也提到過,實際上,允許別人操控自己的形象竟然讓人出奇地舒適。你覺得如何?
Greg Brockman:
確實挺有趣的。老實說,關(guān)于我的“角色”狀態(tài)并沒有想太多,因為我覺得六個月后,無論我們做什么,肯定會有其他公司發(fā)布一種允許你做“角色扮演”的視頻模型,而且沒有限制。所以我覺得我們正朝著一個這樣的世界前進(jìn),那時我們的所有授權(quán)都會變成“角色扮演”。
我覺得我們站在這個技術(shù)前沿的部分意義就在于,讓更多人理解這項技術(shù)的未來發(fā)展方向,并盡量以一種有益的方式發(fā)布它。你可以從我們的選擇中看到這一點,但我們也不認(rèn)為我們能完全控制這項技術(shù),因為我們并不是唯一在建設(shè)它的公司。
世界模型之爭:語言模型能否通向AGI?
主持人:
Sora 2,它是一個世界模型,能夠模擬世界。楊立昆(Yann LeCun)曾經(jīng)說過,語言模型不足以實現(xiàn) AGI,因為僅靠語言無法構(gòu)建世界模型。你同意這個觀點嗎?為什么同意或者不同意?世界模型在 AI 和 AGI 的發(fā)展中扮演著怎樣的角色?
Greg Brockman:
我喜歡從過去五年、十年的 AI 進(jìn)展中汲取經(jīng)驗,看看我們已經(jīng)通過實驗證據(jù)證明了什么。我認(rèn)為語言模型缺乏世界模型。
語言模型雖然能處理書面語言中的信息,但它們并沒有構(gòu)建一個完整的世界模型。順便說一下,這是一個長期存在的爭論。這不是近十年的事,而是有幾十年的歷史了。我的意思是,我們本來是無法預(yù)測 GPT-4 能做的很多事的。你可以問它一些問題,比如:“我把水瓶放在桌子上,然后擰開瓶蓋,再把瓶子放到桌子下面,瓶蓋在哪里?”你覺得它能回答這個問題嗎?
主持人:
我曾經(jīng)有個測試,“杯子里有一顆彈珠,把杯子從桌子上拿起來,彈珠會在哪里?”如果模型很聰明,它應(yīng)該知道彈珠仍然在桌子上。我記得GPT-3.5回答不出來,GPT-4能回答正確,GPT-4o及之后的模型都能做到。
Greg Brockman:
對,即使它不能完美地解決一些復(fù)雜的任務(wù),但它展示了令人印象深刻的進(jìn)步。比如,GPT-4 已經(jīng)能夠在一些高級任務(wù)上取得不錯的表現(xiàn),逐漸走向突破。它的表現(xiàn)讓人感到有一個上升的趨勢。
我覺得現(xiàn)在很容易陷入語義上的辯論:比如,什么是“理解”?這些模型真的是在“理解”還是只是在模擬理解?這些詞到底意味著什么呢?我并不確定。但我知道的是,當(dāng)你給我看一個評估,證明這些任務(wù)曾被認(rèn)為對模型來說幾乎不可能完成,但現(xiàn)在它們能成功地完成時,那才是最有說服力的。
主持人:
這就像 Sam Altman 之前說的,智能其實就是預(yù)測,預(yù)測即是智能。而這似乎也支持一個類似的觀點:大語言模型實際上能實現(xiàn) AGI。
人類的工作會被AI替代嗎?
主持人:
老實說我想問一下,我的工作會有危險嗎?你知道,Mr. Beast 說 AI 會威脅到內(nèi)容創(chuàng)作者的生計,現(xiàn)在這正是我的工作。我應(yīng)該擔(dān)心嗎?你怎么看?
Greg Brockman:
AI 將改變很多工作?,F(xiàn)在很多人從事的工作可能會在未來發(fā)生巨大的變化,要么完全變得無法識別,要么根本不存在。但也會出現(xiàn)我們現(xiàn)在想不到的新工作機會。
這些新工作會是什么樣子?它們的形態(tài)如何?我們該如何看待這些變化?我認(rèn)為,在 AI 革命的過程中,我們將改變社會契約的基本構(gòu)成。
我認(rèn)為我們會進(jìn)入一個“豐盈”的世界。一個即使你不從事經(jīng)濟性工作,也能享有極高生活質(zhì)量的世界,因為有太多東西可以獲得。如果你努力拼搏,參與競爭,追求地位,這個世界會提供更多機會,更多可以建設(shè)的東西,更多有價值的事物。坦白說,我的答案是:沒人能準(zhǔn)確知道 AI 事件視界的另一端會是什么樣子,但我知道,它肯定會比我們現(xiàn)在能想象的更加奇特和令人愉悅。
主持人:
我剛剛開始我的工作,所以我希望能夠保持現(xiàn)狀。
Greg Brockman:
我認(rèn)為,在 AI 的變化中,有一些東西是人類聯(lián)系的基本元素,不會輕易改變。比如人類的情感聯(lián)系,這對于 AI 來說是非常有趣的。我也認(rèn)為,像技工、管道工、電工這樣的人才是目前已經(jīng)很短缺的,AI 要去代替這些領(lǐng)域是非常困難的,因為這些領(lǐng)域需要更多的實際操作能力,而 AI 很難在這些領(lǐng)域真正創(chuàng)造價值。
OpenAI潛在的平臺風(fēng)險
主持人:
讓我們談?wù)?nbsp;Codex 和 OpenAI 發(fā)布的其他產(chǎn)品。你知道我們現(xiàn)在在一個開發(fā)者活動上,房間里坐滿了開發(fā)者。你宣布了 Agent Kit。那么,開發(fā)者在 OpenAI 平臺上構(gòu)建應(yīng)用時,應(yīng)該如何看待潛在的平臺風(fēng)險?我相信你們在內(nèi)部也有考慮過這個問題。
有個流行的說法是,每次 OpenAI 舉辦開發(fā)者日,都會有一千家初創(chuàng)公司死掉。雖然我不相信這種說法,但我想聽聽你對此的看法。
Greg Brockman:
是的,我們確實經(jīng)常被問到這個問題。我們也經(jīng)常在思考這個問題。我們最終希望幫助世界向AI優(yōu)先進(jìn)行經(jīng)濟轉(zhuǎn)型,而這種轉(zhuǎn)型應(yīng)該讓每個人都受益。
但是我們做不到這一點,絕對做不到。我們確實需要和開發(fā)者合作。我們需要有人在我們的平臺上進(jìn)行構(gòu)建,探索如何將這項技術(shù)與現(xiàn)實世界連接起來。
我們必須做出選擇,因為我們是一家公司,雖然我們現(xiàn)在有幾千人,聽起來很多,但如果你看整個經(jīng)濟的規(guī)模,我們其實很小。我們必須考慮到不同領(lǐng)域的專業(yè)知識和在每個領(lǐng)域做得好的難度。
所以我們必須非常挑剔。我們真正努力思考的是,哪些領(lǐng)域和我們現(xiàn)有的專長有協(xié)同效應(yīng),或者是我們能看到我們能夠發(fā)揮價值的地方。比如編程,這是我們非常擅長的領(lǐng)域。
此外,如果我們在編程上做得好,也能加速我們自己的工作。所以我認(rèn)為,我們在考慮如何最大化為盡可能多的人帶來價值的同時,也會在我們能夠深耕的特定領(lǐng)域中,盡力做得更好。
主持人:
你認(rèn)為代碼是 AGI 的語言嗎?
Greg Brockman:
這個問題很有趣。我一直認(rèn)為,自然語言將是 AGI 的語言。我認(rèn)為,如果 AI 之間互相交流,可能會有一種稍微優(yōu)化過的“噪音英語”之類的東西。如果你看看我們今年在國際數(shù)學(xué)奧林匹克(IMO)中獲得金牌的數(shù)學(xué)證明,你會看到這些證明其實非常易讀,雖然它們非常簡潔,但它們實際上是 AI 探索出來的一種有趣的語言。
人類未來的角色:從“提示工程師”到目標(biāo)設(shè)定者
主持人:
人類還會在這個過程中占有一席之地嗎?我看到這些模型在不斷改進(jìn),但目前人類仍然在任務(wù)開始時提供提示,并且在最終進(jìn)行驗證。我認(rèn)為人類在這個過程中的角色可能會逐漸縮小,但我們現(xiàn)在依然有一席之地。你覺得這種情況會持續(xù)多久?會永遠(yuǎn)這樣下去嗎?你如何看待這一切?
Greg Brockman:
我確實認(rèn)為,這項技術(shù)的根本目的是讓人類受益,實際上不僅僅是人類,所有能體驗到快樂和享受的生命體,AI 應(yīng)該能提升所有人的福祉。所以問題是,這意味著什么?
我不認(rèn)為我們希望生活在一個這樣的世界里:人類必須花費精力去設(shè)計提示語,編寫代碼來做上下文工程這些機械化的細(xì)節(jié)。對我來說,這些細(xì)節(jié)看起來像是遺留下來的東西,它們代表的是計算機過去的模樣,而不是它們應(yīng)該具備的未來樣態(tài)。
我想要的,以及我認(rèn)為世界應(yīng)該想要的,是那種讓機器更加貼近人類、理解人類目標(biāo)并幫助實現(xiàn)這些目標(biāo)的 AI 工具。我認(rèn)為這才是關(guān)鍵。我們要確保 AI 能夠提升人類的生活質(zhì)量,這是 OpenAI 的核心使命,并且我們正在努力推動技術(shù)朝這個方向發(fā)展。
軟件的未來:AI生成一切,人類專注創(chuàng)意與審美
主持人:
好。作為一個經(jīng)常思考編程的人,你顯然在構(gòu)建自然語言編程語言方面花了很多時間。幾個月前,我曾在面對面交流時問過你這個問題,你是否認(rèn)為軟件將來會完全由 AI 生成,甚至從操作系統(tǒng)級別到屏幕上看到的每一個像素,都會實時生成,假設(shè)我們能解決一致性的問題?
Greg Brockman:
我認(rèn)為是的,這會非??帷O胂笠幌?,完全生成的用戶界面是什么樣子,實際上是讓人有點腦洞大開的。這就像是一個實時動態(tài)的過程,你在做一些事情,像是有沒有按鈕,按鈕在哪兒,最自然的界面是什么樣子。你開始意識到,我們構(gòu)建的許多界面其實是圍繞現(xiàn)有操作系統(tǒng)的習(xí)慣和偏好而建的。
但如果你能從零開始重新構(gòu)想,去掉所有遺留的代碼,沒有文件夾、文件這樣的概念,那會是什么樣子呢?我其實并不完全知道答案,但我敢肯定,結(jié)果會讓人非常驚訝。
主持人:
讓我們稍微想象一下那個未來。在那個世界里,還會有開發(fā)者嗎?還會有應(yīng)用嗎?
Greg Brockman:
拿一個像 Sora 這樣的例子來說。順便提一下,Sora 對我來說非常有趣,因為我記得看過我們做的一個宣傳視頻,視頻里 Bill 開著雪地摩托,摘下了頭盔,我當(dāng)時想:“哇,Bill 真的是雪地摩托高手啊。” 然后我突然意識到他并沒有做這件事。你會發(fā)現(xiàn)人類的參與方式是非常不同的。它跟電影里那種 Bill 親自去滑雪的場景完全不同,但他依然參與其中,因為他在思考創(chuàng)意過程,而這就是他作為一個表演者的體現(xiàn)。
就像是他通過這種方式出現(xiàn)在視頻中,你制作的一個 Sora 視頻里有他作為表演者的身影,分享出去后,你感到很興奮。而你感到興奮的這一點也讓我感到興奮。實際上,我們從今年早些時候的經(jīng)驗中學(xué)到了這一點。當(dāng)我們的圖像生成技術(shù)(Image Gen)爆火時,大家開始生成自己和家人的肖像。
我們意識到,如果你只是生成一張沒有任何實際背景的圖像,比如一只狗變成酷炫的動漫風(fēng)格,沒有人會在意,反而很無聊。這不吸引人??梢坏┘尤肓四承┤诵曰脑?,一些你可以關(guān)聯(lián)的東西,大家就會開始感興趣了。
我認(rèn)為,當(dāng)你看到像你孩子的照片一樣的生成圖像時,AI 會通過一些有趣的處理,將它帶入不同的創(chuàng)作維度,這樣就能與觀眾建立聯(lián)系。而且,我想這也可能會影響軟件的開發(fā)方式,未來人們會通過這種方式構(gòu)建應(yīng)用。想象一下,你有一個動態(tài)系統(tǒng),AI 扮演開發(fā)者的角色,你將任務(wù)交給它,它為你編寫出完美的代碼或創(chuàng)建一個完全生成的用戶界面,然后你將其發(fā)布到 ChatGPT 應(yīng)用商店里。
主持人:
這真的聽起來像是未來將會更側(cè)重于創(chuàng)造一個優(yōu)質(zhì)的人工體驗,更重要的是,未來的關(guān)鍵將不再是那些硬技術(shù),而是如何審美地進(jìn)行這種體驗設(shè)計,對嗎?
Greg Brockman:
是的,我也這樣認(rèn)為。我認(rèn)為確實有一些機械性技能會轉(zhuǎn)化,而且我們看到每一代模型的進(jìn)步,嘗試去探索模型的潛力的人,往往能得到最可靠的結(jié)果。但本質(zhì)上,知道你想要什么、擁有良好的判斷力和品味,才是最關(guān)鍵的。
代理電商:點子不新,關(guān)鍵是模型終于能用了
主持人:
你曾是 Stripe 的 CTO,最近你還宣布了代理電商協(xié)議(Agency Commerce Protocol)。這個想法是你早就有的嗎?還是這是最近才在內(nèi)部發(fā)現(xiàn)的:哇,這是一個可以做很多事情的酷點子,讓代理能夠為我們?yōu)g覽并進(jìn)行購買呢?
Greg Brockman:
這個領(lǐng)域有一點就是,沒有什么新點子。所有這些想法,別人早就想過了,我們也想過很多次。真正的新鮮事物是模型已經(jīng)足夠強大,能夠有效利用這些想法。
你可以從插件的推出看到這一點。我們幾年前做了插件,但當(dāng)時的模型并不夠強大,插件也用不了太多。模型太復(fù)雜,無法正確調(diào)用插件。所以今天的模型比之前更可靠得多??梢哉f,新鮮事物不在于點子本身,而是它在今天變得可行了。
主持人:
你會通過 ChatGPT 進(jìn)行購物嗎?我知道 Sam 說他有用。
Greg Brockman:
有趣的是,我其實不太購物,所以最近我所有的購物幾乎都是通過 ChatGPT 來做的。
AGI是一個持續(xù)的過程,而不是終點
主持人:
我們可以談?wù)勎磥淼氖虑閱??去年開發(fā)者日,我們看到了 GPT-4;現(xiàn)在一年過去了,你們發(fā)布了這么多東西。你怎么看待明年(2026)的發(fā)展?然后是2030年的開發(fā)者日會是什么樣子?
Greg Brockman:
這是個很難回答的問題,但我確實認(rèn)為明年我們會有一些令人難以置信的模型。我最期待的里程碑是,我們會有能夠解決難題的模型。比如,像2016年 AlphaGo 對圍棋的突破一樣。那一局第37手的著法,改變了人們對圍棋的理解。想象一下這在材料科學(xué)、醫(yī)學(xué)領(lǐng)域的應(yīng)用。
我認(rèn)為我們將看到這樣的真正突破,無論是 AI 本身,還是 AI 在頂級人類專家的幫助下解決問題。我覺得我們會看到這種合作的場景。那么對于開發(fā)者來說,這種突破將帶來不可估量的價值。
比如,在金融領(lǐng)域,你可以構(gòu)建出最先進(jìn)的應(yīng)用,幫助用戶解決他們最棘手的財務(wù)問題,雖然這可能不是金融領(lǐng)域的頂級問題,但我們會開始解決這些極其復(fù)雜的問題。需要注意的是,這將消耗大量計算資源,所以我們必須確保這些任務(wù)對經(jīng)濟有足夠的價值,因為否則沒有人愿意為這些計算買單。
我覺得我們會不斷思考如何將這些技術(shù)推向更深遠(yuǎn)的領(lǐng)域。至于2030年,我認(rèn)為很難做出預(yù)測,但我相信我們會比現(xiàn)在更加接近 AGI。
主持人:
那你的 AGI 時間表呢?是否和之前有過調(diào)整?
Greg Brockman:
我認(rèn)為 AGI 更像是一個持續(xù)的過程,而不是一個終點。最初我認(rèn)為 AGI 是一個目標(biāo),只有完成這個目標(biāo)才算任務(wù)完成,但現(xiàn)在我認(rèn)為它是一個不斷發(fā)展的過程。
在某些階段,AGI 可能已經(jīng)能夠完成與人類相等的經(jīng)濟價值工作,這會是一個重要的里程碑,但這絕對不是結(jié)束。
我覺得人們已經(jīng)開始從 AGI 轉(zhuǎn)向超智能的討論,或者干脆拒絕所有這些術(shù)語,對我來說,這并不重要。真正重要的是,我們能否實現(xiàn) AI 的進(jìn)步,能否提升整個經(jīng)濟,并且真正讓人們受益。
我相信,AI 將對社會各方面產(chǎn)生深遠(yuǎn)的影響,而我們在推動這一技術(shù)發(fā)展時,始終要確保它是為了提升人類福祉,這就是我們 OpenAI 的使命。

2015-01-22 15:36:46


























