偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI前董事長采訪罕見流出!曝GPT5參數(shù)規(guī)模,真正定位是連接現(xiàn)實世界!自曝當年Ilya看到了什么,預言AGI后,錢沒意義

原創(chuàng) 精選
人工智能
許多網友不能理解 GPT-5 被宣傳的那種“癱坐在椅子上”的那種智能程度,更不用說是 AGI 了。那么作為第一款混合模型,究竟如何看待 GPT-5 的意義?它在 OpenAI 的戰(zhàn)略里是怎樣的定位?一時間猜測四起。

編輯 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

近期有關 GPT-5 的爭論真的是越來越多了。

許多網友不能理解 GPT-5 被宣傳的那種“癱坐在椅子上”的那種智能程度,更不用說是 AGI 了。

那么作為第一款混合模型,究竟如何看待 GPT-5 的意義?它在 OpenAI 的戰(zhàn)略里是怎樣的定位?一時間猜測四起。

在經歷了發(fā)布風暴和用戶試用不及預期的爭議后,奧特曼的盟友、OpenAI的聯(lián)合創(chuàng)始人兼總裁 Greg Brockman,很少見地錄制了一期播客。

當主持人很犀利地問道:

很多人在 X(推特)上發(fā)截圖說 GPT-5 沒那么強,但問題本身其實很簡單。你為什么有信心稱它是“世界上最好的編程模型”?

Brockman 解釋了原因,表示:

重點不僅是提升智能水平,還要講智能引連接現(xiàn)實世界應用。我們花了大量時間觀察人們在互動式編程里的使用方式,把大量反饋喂回訓練。這是以前沒做過的。

我們看到 GPT-5 在需要深度智能的任務上遠超其他模型。

這場播客還挖出了當年 Ilya 訓練出 GPT-4 時的感受:為什么還不是 AGI?一如現(xiàn)在人們對于 GPT-5 發(fā)布后的反應。

Brockman 透露,從此后 OpenAI 就將預訓練的方式開始轉向強化學習的推理范式上。

有意思的是,主持人差點說漏了嘴,透露出 GPT-5 的參數(shù)規(guī)模:低雙位數(shù)萬億級(小幾十萬億級)。

Brockman 對于OpenAI 內部工程團隊如何使用大模型開發(fā),也頗有心得:

大部分工程師,即便非常優(yōu)秀,他們的很多工作正好可以映射到模型當前的核心能力上。

對于你不熟悉的語言,你肯定不想自己寫代碼,而是希望模型來完成。部分工作變難,是因為模型無法直接獲取必要的上下文,需要和人溝通以做出決策。

播客中,還提及了“墻鐘時刻”,即不管實驗是多么超前,但實驗中鐘表終歸會與現(xiàn)實中的鐘表對齊,進而提到了 OpenAI 是否遇到了瓶頸。

Brockman一口否認推理、預訓練等這些技術上難題,直截了當?shù)乇硎荆核懔Σ攀?OpenAI 的瓶頸。

主持人進一步追問 OpenAI 的秘密:假如提供百倍的算力,OpenAI 會有哪些有創(chuàng)意的用法時,Brackman 卻捂住嘴不說了。

算力如何花,花在哪兒,也是現(xiàn)在非常務實的一個命題,播客中有更詳細的討論。

還討論了 AGI 時代到來后,金錢反而失去了意義。

篇幅關系這里不再過多展開了。本期播客主持人是兩位創(chuàng)業(yè)者,分別是 Smol AI 創(chuàng)始人 SWYX,和 Kernel Labs 創(chuàng)始人 Alessio。

這里為大家奉上小編辛苦四個小時整理的播客全文,建議大家收藏細讀。

瘋狂發(fā)布的背后

SWYX:恭喜 GPT-5、GPT-OSS,還有最近在 open islands 上的各種新東西。我們今天都會聊到這些。很高興你能來。上周整個就是一場瘋狂的發(fā)布風暴吧,感覺如何?

Brockman:對,真的特別瘋狂,在一周里發(fā)布了這么多東西。但沒錯,我們發(fā)布了開源模型,那些是我們籌備已久的成果,把很多 OpenAI 的最新進展壓縮進一個小巧、非常易用的形態(tài),現(xiàn)在已經被廣泛使用了,這幾天就有幾百萬次下載。同時我們也發(fā)布了 GPT-5,這也是我們長期研發(fā)的結果。能夠把這些發(fā)布到世界上,我真的特別為團隊感到驕傲。

Alessio:而且 GPT-5 是第一個混合模型,大多數(shù)人都沒法自己選用哪個模型,這背后還有不少爭論。

Brockman:我們會解決好這個問題。

OpenAI推理團隊的由來:GPT-4訓練完后,Ilya等人納悶:為什么還不是AGI

Alessio:你當初是和 Ilya 一起創(chuàng)立了 OpenAI 的推理團隊。能不能簡單回顧一下 OpenAI 在推理上的歷史?最初只是做下一詞預測,后來為什么會覺得推理很重要?從那時到今天的 GPT-5,這條路是怎么走過來的?

Brockman:我會說,在訓練完 GPT-4 后,我們有了一個真正能和人對話的模型。我記得第一次做后訓練時,我們給它一個遵循指令的數(shù)據集,輸入問題,輸出標準答案。那時我們突然想到,如果再追問一個問題會怎樣?結果它真的能結合前文的上下文,繼續(xù)進行合理的回答。那一刻我們意識到,這東西能聊天,能利用上下文,甚至沒有專門訓練過也能做到。

我還記得我們開了個研究討論會,Ilya、Jakub(現(xiàn)OpenAI首席科學家)、Wojciech(OpenAI創(chuàng)始成員) 都在,大家問:為什么這還不是 AGI?這個模型顯然還不是,但很難說清楚為什么。它能回答幾乎所有問題,但不夠可靠,會出錯,會偏離軌道。那我們需要做什么才能補上這個差距?最顯然的就是要讓模型能在世界里驗證自己的想法,能做強化學習(RL),提出假設、嘗試、得到反饋,從而變得可靠。這對我們來說并不是新思路。

回溯到 2017 年,我們在做 Dota 項目時,完全是強化學習,沒有依賴人類示范的行為克隆。從一個隨機初始化的神經網絡開始,最后能學出復雜精妙、而且正確的行為——這就是我們想要語言模型達到的可靠性。

所以在 GPT-4 訓練出來的那一刻,我們就知道必須進入“推理范式”。接下來就是怎么實現(xiàn)的問題。我們當時有十來個假設,團隊就開始努力讓它變成現(xiàn)實。很多嘗試失敗了,但最終有一個方向跑通了。關鍵就是不斷堅持,不斷推進,哪怕一開始只是零星的“生命跡象”,也要慢慢把它做大?,F(xiàn)在 Jerry 負責我們的強化學習團隊,已經取得很大進展。

這里面有非常了不起的基礎設施工作,比如 Wea、來自推理端的同事、還有 Felipe 等人。OpenAI 有很多人齊心協(xié)力,才真正讓這一切運作起來。真的很了不起。

通向AGI的路線:離線學習轉向在線學習

SWYX:我記得你之前在工程師大會上說過你很喜歡圖靈的那篇論文,那也讓你走上了機器學習的道路。圖靈其實預見到學習機器會部分在線學習。我一直在想,從 GPT-3、GPT-4 到 GPT-5 的過程,是不是從離線學習逐漸往在線學習過渡?

Brockman:這是個很有趣的問題:學習到底發(fā)生在哪里?我覺得我們現(xiàn)在還沒達到人類那樣完整的學習閉環(huán)。人類也未必完全是“在線學習”,比如你睡覺的時候,大量的“反向傳播”其實是在長期記憶里發(fā)生的。機器和人類的機制并不完全對應。但確實我們正在從“訓練一次→大量推理”的模式,往“推理→再基于推理結果繼續(xù)訓練”的模式演變。

Ilya 常說的一句話很有道理:當模型能力不足時,它生成的一個 token 的價值很低;當模型能力極強時,它生成的每一個 token 都很有價值——那代表著經過深思熟慮的重要信息。而強化學習的特點就是:模型不斷嘗試、生成數(shù)據,再基于這些數(shù)據繼續(xù)學習,這些嘗試和現(xiàn)實世界接觸后被篩選,反饋回模型里。這正是我們現(xiàn)在逐漸學會利用的地方。

而且規(guī)模需求差別巨大。預訓練里十個樣例沒什么用,你需要幾十萬的樣例。而在 RL 中,如果你有 10 個、100 個任務,模型能反復嘗試,就能真正學到東西。人類設計這些任務的杠桿效應非常大。接下來的一步,就是讓模型在使用過程中實時學習。我們還沒做到,但未來還沒寫完。

OpenAI的瓶頸:永遠是算力

Alessio:之前我們和 Nolan Brown 聊過樣本效率的問題。你覺得現(xiàn)在的瓶頸還是在于人類要設計高質量的任務,還是說更多還是模型本身的效率問題?

Brockman:瓶頸永遠是算力。

SWYX:(笑)

Brockman:我是認真的。如果你給我們更多算力,我們總能找到方法去充分利用?,F(xiàn)在我們的 RL 算法確實比以前高效了,但還是要消耗很多算力。比如一個任務,不是嘗試一次兩次,而是成千上萬次,才能學好。人類設計任務的價值很高,但算力的需求也隨之成倍增加。

SWYX:那如果我們有 10 倍、1000 倍的算力,你覺得最有創(chuàng)意的用法會是什么?

Brockman:我只能說——我們一定能找到用法(笑)。

Alessio:(笑)快點滿足我們吧。

Brockman:我是認真的。比如當年做 Dota,大家都覺得現(xiàn)有 RL 算法不可能擴展。但沒人真正試過。我們去做了,每周加倍算力,結果性能就不斷提升,從沒遇到真正的“天花板”。很多時候遇到的“瓶頸”其實只是 bug,一旦修復,就能繼續(xù)前進。所以擴展過程本身就是最有價值的探索。

算力的投入方式很多:是做更大的預訓練,還是更多 RL 嘗試?不管怎樣,本質上就是把能量轉化為算力,再轉化為智能。算力像是燃料,塑造神經網絡,產出一個“程序”。這個程序可以被無限次運行,遠遠超過了訓練時的算力消耗。這是一個很美妙的范式。

Alessio:你就像把動能轉化為模型里的勢能。那這些“勢能”是不是能繼續(xù)轉化回 RL 的動能,用在各個領域?比如 IMO 數(shù)學奧賽的成績已經達到了金牌水平,你覺得類似的技巧能在別的領域也達到同樣的效果嗎?

Brockman:我們已經看到一些證據了。IMO 模型能拿金牌,說明這種能力確實能遷移。其實我們沒有針對性地特別訓練,只是幾個同事順手做了一個 IOI 編程競賽項目,結果也達到了過去所謂“重大挑戰(zhàn)”的水平。你會發(fā)現(xiàn),學會解決困難問題本身就是一種可遷移的技能。能寫數(shù)學證明,就能轉移到解編程競賽題上。

如果你從未做過物理實驗,如果你從未真正嘗試過把一些化學品混合在一起之類的事情,你大概不會憑空就擅長這些事。所以說在泛化的限制上,你確實需要一些真實世界的經驗,去實際嘗試一下。但這些模型,它們已經做到幾乎不合理的程度了。我們經??吹竭@樣的情況:一家實驗室的科學家拿像 o3 這樣的模型來用,比如說問它一些假設:“這是一個實驗設計,我該怎么做?”模型給他們五個想法,他們嘗試這五個,其中四個不行,但一個行。而我們在 o3 上得到的反饋是,這樣的成果足夠發(fā)表在一個中等檔次的期刊上,不是頂級期刊,但中等檔次的期刊,差不多就是你會期待某個三年級、四年級博士生會做出來的那種工作。

再說一次,這真是個瘋狂的事實——o3 已經到這個地步了。而且我們完全清楚如何在所有維度上改進 o3。它需要算力,需要大量工作,需要明確任務,需要大量人類的智慧、愛心、勞動和時間,把心血傾注進去。但結果,正如你說的,我們造出了一個東西,它內部蘊含著巨大的“勢能”。而神奇的是,這個勢能并不是釋放一次就完了,而是一個檢查點,你可以在各種任務上反復使用。這是我認為真正能提升全人類的事情。

算力究竟怎么用?透露GPT-5參數(shù)規(guī)模:小幾十萬億級

SWYX:這太鼓舞人心了。我想回到兩個點。一個是關于“墻”。我之前和 Noman 辯論時,認為確實存在一堵“墻”,也就是掛鐘時間(wall clock time),因為時間必須真實流逝。比如在強化學習和環(huán)境交互里,模擬的速度確實可以比真實時間快,但最終還是要跟掛鐘時間對齊。所以你能看到我們逐漸收斂到那個方向——迭代空間逐漸逼近真實世界的時間。我不知道你對如何解決這個問題有什么看法。當然,我們還沒到那一步。

Brockman:所以我們暫時不用擔心這個問題。我覺得這是個根本性的障礙。當然,模型有一些非常不尋常的特性。你可以同時運行很多個副本,即便你無法降低延遲,你也能橫向擴展。

Brockman:另一個很有趣的點是算力到底花在哪里。我們正從一個世界過渡:以前大部分算力都花在訓練模型上,但隨著這些模型被更多部署,更多算力會花在推理和實際使用上。進一步想想,如果這些模型未來要大量與真實世界交互,那么它們大概需要在每個動作上投入很多思考。這樣可能導致每一次現(xiàn)實交互都要耗費大量算力。所以算力的開銷分布會和以前完全不一樣。而擁有高效的運行框架就顯得很關鍵。

再比如,如果我在真實世界中執(zhí)行了一堆步驟,我要如何做檢查點?如果一個系統(tǒng)需要重啟,它就會丟失當前狀態(tài)——那很糟糕。所以數(shù)字世界和現(xiàn)實世界的差異就在這里:在數(shù)字里一切都能完美保存和檢查點化,但現(xiàn)實是混亂而復雜的。不過我覺得這不是壞事。

我們已經見過代理在非常復雜、非?;靵y的環(huán)境中也能運作,比如 Dota。算法是有這個能力的。順便說一句,Dota 用的神經網絡只有 3 億參數(shù),像一個微小的昆蟲腦子。而現(xiàn)在我們開始擴展到更接近人類規(guī)模的模型了——從參數(shù)數(shù)量上看,甚至可能算力規(guī)模上也開始接近,雖然可能還不完全到位。但本質上,我們確實在朝最終目標前進。你要想象一個 AGI,它應該能以高度可預測的方式和現(xiàn)實世界交互。

SWYX:是的,我腦子里大概有些數(shù),你可以糾正我是不是差了幾個數(shù)量級。人類有大約 100 萬億個突觸,而 GPT-4、4.5、5 在參數(shù)上大概只有個位數(shù)到低雙位數(shù)的萬億級,但這些數(shù)字我們不做確認。不過差不多是這樣。

Brockman:對,我們正在往那個方向擴展。是的,100 萬億突觸,大概對應神經網絡的權重,所以兩者之間有某種等價性。我們確實開始接近正確的數(shù)量級了,可以這么說。

談休假后影響:DNA神經網絡本質是一樣的,但數(shù)據很足

SWYX:關于生物學基礎,我上次沒機會問:你曾經在研究所休假過,我好奇那段經歷對你在 OpenAI 的工作有沒有影響?

Brockman:我覺得最讓我驚訝的是,DNA 神經網絡和普通神經網絡幾乎一模一樣,只是把“人類語言”換成了別的東西。

SWYX:甚至詞匯表更簡單?

Brockman:對,就是 4 個字母。

SWYX:不過你們不會在更高層級做分詞嗎?

Brockman:我們當時的做法就是直接做字符級建模。

SWYX:不會吧?

Brockman:是的,為什么不呢?

SWYX:我懂,確實只有 4 個字母。

Brockman:對,這也是很有意思的一點:在人類語言里,我們理解語義和結構,能直觀地感受到一個分詞方案是不是合理,能否覆蓋所有詞。而在生物學里,它是一種外星語言。對人類來說很陌生,但對神經網絡來說,人類語言和生物語言沒什么本質差別。

SWYX:因為硬件是一樣的。

Brockman:沒錯。所以一個很驚人的假設是:既然這些神經網絡能學人類語言,那它們就應該能學生物語言。

而且我們確實看到了類似結果。比如我們訓練了一個 400 億參數(shù)的神經網絡,用大約 13 萬億個堿基對來訓練。結果感覺差不多像 GPT-1,甚至開始接近 GPT-2 的水平。也就是說,它能在很多生物學下游任務里發(fā)揮作用,但還不是 GPT-3、GPT-4,更不是 GPT-5。我們還沒法解決這些領域里真正困難的問題。但我們有算力,有正確的技術和算法。接下來就是要擴展,要考慮長上下文。

生物系統(tǒng)給模型帶來的壓力和語言不太一樣。比如語言序列不會存在 10 億個 token,但 DNA 會,你有 40 億堿基對。所以它強調的東西不同,但本質上是同一個問題。

SWYX:有沒有一個你最期待的應用?比如藥物研發(fā)?當然大家都會想到藥物研發(fā),但在那之前有沒有更容易實現(xiàn)、也很有影響力的東西?

Brockman:對我個人來說,比如我的妻子,她有一種叫 Air-glass Syndrome 的遺傳病。直到最近我們才開始找到可能的遺傳標記,之前一直不知道原因在哪里。這類情況如果我們有更好的生物學工具,就能找出各種疾病的標記。這只是一個例子,說明這些神經網絡的潛力應用。

GPT-3/4/5的旗艦特征

Alessio:你會怎么定義 GPT-5 時代的開端?如果我把 3、4、5 看作幾個主要版本:GPT-3 主要是文本,GPT-4 開始多模態(tài)和低延遲長思考,那么 GPT-5 的旗艦特征是什么?大家都在說“代理元年”,但還有沒有別的東西值得注意?

Brockman:我覺得智能的程度已經到了幾乎難以描述的地步。當然,還是有局限,還是會出錯。但在非常困難的領域里,比如看看 IMO(國際數(shù)學奧賽)的成績,模型能寫出和頂尖人類同級別的證明。在這個特定領域里還是有局限,我們還沒能證明一個真正未解定理,但這已經是個事實:模型能完成非常偉大的智力工作。這就是新的突破。

GPT-4 更像是廣泛適用、在商業(yè)上有用,但它提出的想法不夠深刻,解決的問題也不夠可靠。

我還記得在 GPT-3 的時候,我試著教它一些很基礎的東西。我們發(fā)現(xiàn)它能通過 few-shot 提示來學任務。我想教它排序,先給它 7 個數(shù)字,它沒排好。后來我寫了一整套教學腳本,從兩個數(shù)的排序到三個數(shù),再到五個數(shù)。結果還是失敗。而如果你問 GPT-5 排序五個數(shù)字,我敢說它一定能輕松完成,毫無問題。

順便說,它現(xiàn)在也能調用 Python 工具。

Alessio:所以……

Brockman:重點是,現(xiàn)在模型在智力上的飛躍可以真正幫助人類。我們已經看到數(shù)學家在試用 GPT-5,物理學家也在用,甚至有人說:“這個模型重新推導出了我花了幾個月才發(fā)現(xiàn)的見解?!?這會極大加速人類進展。我記得自己在高中和大學早期做數(shù)學研究時,要花很久思考抽象物體和它們之間的聯(lián)系。如果我能有個伙伴和我一起討論,能深刻理解并提出新的見解,那會讓我進步更快,也更有樂趣。GPT-5 帶來的新東西,就是能和人類一起推進智力前沿。

GPT-5是一把牛刀,殺雞的問題測試不出來它的厲害

Alessio:你覺得人們會被問題本身的難度限制嗎?比如在 Cursor 或 Codex 里,我覺得模型在面對難題時表現(xiàn)更好。很多人在 X(推特)上發(fā)截圖說 GPT-5 沒那么強,但問題本身其實很簡單。你為什么有信心稱它是“世界上最好的編程模型”?普通人又該怎么正確評價它呢?

Brockman:確實有些任務是飽和的。比如閑聊“你好,你好嗎”,能說的就那幾句。但如果你要它解一道復雜的數(shù)學題,那就能看出智力的差異。大多數(shù)任務介于這兩者之間。我們看到 GPT-5 在需要深度智能的任務上遠超其他模型。

其次,我們花了大量時間觀察人們在互動式編程里的使用方式,把大量反饋喂回訓練。這是以前沒做過的。比如 o3,我們訓練時只用了一些固定任務,模型在那些指標上表現(xiàn)很好,比如代碼競賽。但那不等于現(xiàn)實中的編程?,F(xiàn)實里的編程要面對 messy 的倉庫、本地狀態(tài)、抽象層次、不同庫的不同版本。這種多樣性不是靠幾個結構化任務就能出現(xiàn)的。

所以我們現(xiàn)在的重點不僅是提升智能(雖然這始終是核心),還要讓智能真正連接到現(xiàn)實世界應用。讓模型走出舒適區(qū),走出象牙塔,去面對真實世界的復雜和多樣性。

如何釋放模型的潛力,自曝自己如何用GPT

Alessio:在更實際的層面上,你對如何釋放這些模型的潛在能量有什么建議嗎?比如部分方法是加入代碼檢查器、類型檢查器,讓任務形成自循環(huán)。開發(fā)者在使用模型時,還有沒有其他元層面需要考慮的?

Brockman:我觀察到的第一點是,從這些模型中提取最大價值確實是一種技能。這需要韌性——真的去理解模型能力和弱點的輪廓。你需要去測試它:先從小任務測試,獲取反饋,再給它更大的任務,看看它能否按預期工作。

人們通常會有自己的提示庫。我自己在 GPT-4 時代就積累了一些提示庫。在 GPT-4 發(fā)布前,我會先收集一些問題,比如“它能否做到這個”。重要的是,你要選擇那些有多種可能答案的問題,而不是只有一個正確答案。比如在創(chuàng)意寫作上,我喜歡讓它把《指環(huán)王》和創(chuàng)業(yè)主題混合在一起,看看能得到什么,這也是測試和推動模型的一種方法。

我也會考慮任務如何拆分,讓模型能獨立處理一個自包含的部分。你不希望只運行一個模型實例,而是希望管理多個實例——不是管理一個代理,而是管理一組代理。因此,你首先要考慮代碼庫結構,然后推動模型操作不同模塊。我覺得很多人喜歡做前端測試,GPT-5 在前端測試上很擅長,但大部分開發(fā)者的時間不是花在這上面的,所以不能過度依賴這一點。重要的是先熟悉模型,理解它的長處和短板,把它當作自己的延伸。

另一種方式是,讓模型處理一些不在關鍵路徑上的任務,這樣即使出錯風險低,你也能不斷獲取信息,而不必等很久卻得不到回報。

代理如何穩(wěn)健運行?

SWYX:你一直提到,針對 Codex 和 OpenAI 的編程能力路線圖,后臺的代理和 IDE 代理會合并。你是如何思考這個問題的?是不是只是 IDE 調用后臺 API,后臺 API 輸出到 IDE?還是有更深的連接?

Brockman:我通常把 AI 產品化比作同事。你希望優(yōu)秀的程序員同事能做什么?你不只是想通過 Slack 找他,而是有時希望他能過來幫你看一眼,甚至幫你操作鍵盤。你希望它遠程異步工作,又能統(tǒng)一擁有知識和記憶,不希望它每天都是一個忘光一切的初級程序員。AI 需要可信訪問你的基礎設施,并且可以審計。

這些模型可以被精細管理,而人類不喜歡被如此管理。你要求人類每步都匯報,會很快失去耐心,但模型完全可以接受。這是一個值得利用的優(yōu)勢。

你希望模型能無縫混合:在遠程機器上工作,不影響本地狀態(tài),全沙箱、可觀察,同時在必要時能本地運行。代理的身份不應該僅限于本地或遠程,它可以跨多臺機器運行。

SWYX:軟件代理可以無縫移動。提到審批,讓我想起我朋友 Fuad,他在啟動代理穩(wěn)健性團隊,也負責啟動工程。

Brockman:我們考慮代理穩(wěn)健性時采用縱深防御。模型本身有一層,比如指令層次(instruction hierarchy),區(qū)分系統(tǒng)、開發(fā)者、用戶消息,并按信任順序執(zhí)行。這樣模型能知道忽略某些指令。低層系統(tǒng)防止“SQL 注入”式攻擊非常重要,但這只是第一步。

你需要多層控制。如果模型在沙箱中運行,不能執(zhí)行或訪問特定數(shù)據,那么你對可能性有完全保證。還有不同層級方法,隨著代理嵌入生活、承擔更多責任,安全性和可靠性需要同步提升。

SWYX:我做過 Linux 內核 OS 環(huán)的類比,很有趣,我們在 LLM 中建立類似分層安全概念。我還看到你在 AI 工程師的模型規(guī)范演講,這是我們觀看人數(shù)最多的演講。安全和可驗證性很難“性感化”。

Brockman:模型規(guī)范是一個例子:當模型能力很強時,你會非常關心它的行為。規(guī)范明確了模型的意圖,偏離規(guī)范不是我們的有意行為。規(guī)范與實際行為的差距在持續(xù)縮小。

還有價值觀問題:比如問模型“世界是平的”,它應該回答“是”嗎?還是回答科學事實?這是微妙的,規(guī)范幫助我們體現(xiàn)深思熟慮的結果,并希望得到社區(qū)反饋。

大模型像外星人,在各個領域觀察人類偏好

Alessio:我有個更偏理論的問題。我看你以前接受 Lex Friedman 采訪時提到《基地》。我想到 Brett Taylor,我們討論過某些語言的內存安全。你覺得 LLM 會有類似心理史學嗎?比如預測軟件未來趨勢,這些模型會引導我們走向什么?我們能改變它嗎?

Brockman:模型確實有心理史學屬性,它們是對人類思維的觀察訓練結果??梢园阉胂蟪赏庑侨丝措娨暲斫馊祟愋袨?,然后通過強化學習得到反饋,再在現(xiàn)實中嘗試新任務。

和人類類似:你有基因編碼的歷史、生活經驗、父母的正負反饋,然后在現(xiàn)實中嘗試應用這些知識。你可以預測人的行為,了解價值觀能推測行為。同樣,模型的未來不是預定的,但訓練過程會影響偏好。

Brockman:模型更像“人類的集合體”,包含各種性格。訓練后強化學習會篩選出可取的性格。我們可以生成符合價值觀的模型,比如想要藍色漸變而不是紫色漸變,可以在單一模型中實現(xiàn)。GPT-5 遵循指令能力極強,非常可個性化。

SWYX:我類比為“博格”,一種集體智能。在科幻粉絲中,Star Wars 與 Star Trek 對未來模型的看法一直爭論,我認為 Star Trek 更好。

Alessio:Sam 在 Star Wars 里選了死星。

Brockman:有趣的是,我們現(xiàn)在有多個領域觀察人類偏好,比如幽默偏好,再把這些反饋到模型上。模型和人類偏好共同演化,不斷迭代,使其更有用、更符合人類價值觀。

人類如何干預模型,只需要訓練時展示這些偏好就行

Alessio:當強化學習(RL)的獎勵和人類可能不太偏好的行為綁定在一起時,你們是怎么處理的?比如以我的經驗來看,就是 try-catch 的使用。比如模型做了正確的 try-catch 并沒有失敗,我們是不是需要大量偏好數(shù)據來告訴它們不應該這樣做?或者 RL 環(huán)境中有什么東西我們會改來讓這些行為不那么理想?我想搞清楚下一步我們該怎么做。

Brockman:是的,我覺得你決定干預點或弄清楚干預點在哪里,這件事非常多維,而且具體到每一種行為都會不同。

Brockman:有些事情,比如模型對不同庫的知識,是從早期階段就已經“內置”進模型里的。但你也可以教模型“嘿,不要僅僅依賴以前的知識,去查最新的文檔”。這是可以在更高層面上做的。而像過度使用 try-catch 這樣的行為,你實際上可以通過提示(prompt)來引導模型。再比如我們在強化學習訓練它時,可以提供獎勵,讓它知道“不要走這條路”。

這些模型的妙處在于,你可能有一長串不同的偏好、不同風格的列表,你需要在訓練過程中對它們提供反饋。如果你愿意的話,這就是訓練方法的一部分。但這些模型會進行泛化,就像我們設計的算法會泛化一樣,這就是深度學習的美妙之處。這是真正的魔力?,F(xiàn)在我們有了一整套圍繞深度學習核心構建的堆棧:模型調度、反饋機制、數(shù)據等等。

深度學習的核心魔力在于它的泛化能力。某些情況下,這種泛化比你希望的要弱一些,但對于這些模型來說同樣適用。為了讓模型能夠根據不同的偏好和價值觀運行,我們只需要在訓練時向它展示這些偏好,它就能在一定程度上泛化到訓練中未涉及的偏好和價值觀。這是我們在不同代模型中非常一致看到的現(xiàn)象。

SWYX:我腦海里浮現(xiàn)了一個梗:我的模型不泛化,那就讓整個世界成為它的分布——就這么解決一切問題。就是這么簡單,你只需要沿路建立戴森球。

GPT-5路由器:自主切換模型,但這不是未來

SWYX:關于 GPT-5,我想談最后幾個話題。你提到有一個路由器(router),這很酷。我也聽了你和 John Collison 在 Cheeky Pint 的播客,非常有趣的形式,你講了 Dota 那邊的故事,我之前沒聽過——關于 beta 模型和主模型的組合。GPT-5 的路由器也是類似的思路嗎?比如有推理模型和非推理模型,然后把它們組合起來。

Brockman:在某種程度上是的,你有多個模型,然后在它們之上加一個路由器。那個 Dota 模型的設計有非常具體的原因:我們在游戲前半段有一個不足之處。

SWYX:因為它總是輸,對嗎?

Brockman:沒錯。這個模型在游戲的某部分表現(xiàn)不好,但在其他部分表現(xiàn)很好。而且模型所操作的領域相對簡單,我們很容易說:“這一部分用這個模型,另一部分用那個模型”。

在 GPT-5 中的思路類似:我們有一個推理模型,適合需要智能的應用,但響應可能稍慢;還有一個非推理模型,能快速給出答案,雖然不是深度推理,但依然不錯。然后通過 if 語句選擇用哪個模型,有時候如果用戶的額度快用完,就切換到另一個模型,不把這些復雜操作留給用戶,這是很好的體驗。

Brockman:順便說一下,模型切換器不是未來,它就是現(xiàn)在。雖然理想情況下,完全整合的模型可以直接做正確的事情,但現(xiàn)實中更容易采用這種“多模型組合”的方式。

過去幾年我們發(fā)現(xiàn),這種組合模型方式很有意思:一個小而快速、能力有限的模型生成大量輸出,再配合一個昂貴的推理模型,你可以獲得“自適應計算”(adaptive compute)。雖然我們還沒在架構內部完全實現(xiàn)自適應計算,但在系統(tǒng)調度層面做非常容易。模型的可組合性帶來了巨大優(yōu)勢。

自曝糗事:命名、界面、易用性

SWYX:我必須表揚做模型卡的人,他們把大參數(shù)傳給 if 語句,依據對話類型、復雜性、工具需求、明確意圖和使用率限制,非常有意思。你覺得哪一項最值得討論?

Brockman:老實說,這些都很符合預期。核心信息是:在 OpenAI,我們做了很多正確的事情,但命名不是其中之一。用戶界面簡單、易用并不是我們的強項。比如我們有很多模型,你怎么知道用哪個?我記得我老婆用 4.0,我說不,你要用 0.3,她說我懂 4.0。

所以我們顯然需要重置復雜度,把復雜性內部化,而不是推給用戶,這是非常重要的。我們從社區(qū)反饋中也聽得很清楚,用戶希望簡化操作,而不是手動選擇。我們還沒完全到位,但會持續(xù)改進。目標是讓高級用戶擁有控制權,同時讓普通用戶不用糾結模型編號和選擇。

GPT-5 API 大幅降價背后有哪些優(yōu)化?

SWYX:關于定價問題也很有趣。GPT-5 定價很有競爭力,比 Gemini 還便宜。我很驚訝 GPT-5 價格還可以更低。你能說說降幅大概有多大嗎?多少是靠技術優(yōu)化、比如 Stargate?

Brockman:如果看歷史,我們每年價格大約砍掉九成的左右。

SWYX:我覺得可能更激進。

Brockman:可能更激進。比如 0.3 版本,我們降了 80%,使用量增加,收入保持或略有增長。這說明需求曲線非常陡峭——讓技術更普及,人們會用更多,這和我們的使命一致。

我們的目標是讓 AGI 造福全人類,其中一部分就是廣泛分發(fā) AI,讓更多人能在生活和工作中使用它。提升推理效率、降低成本都是手段。當前我們非常受限于算力,所以降價不一定能直接增加使用量,但提升效率會。

改進方向包括模型架構、后訓練優(yōu)化(特定任務思考時間)等。改進維度非常多,我們會不斷推進。

SWYX:順便說一下數(shù)據,我有個圖表,從 GPT-4 發(fā)布到現(xiàn)在,同等智能水平成本降低了 1000 倍。

Brockman:很漂亮。

Alessio:很不錯。

Brockman:大概 2.5 年左右,有哪件事能在 2.5 年內提升三個數(shù)量級?

Alessio:不知道。

SWYX:想不到。

模型自己構建新工具的可能性?

Alessio:而且還在降價,從 10000 到 1000 美元,現(xiàn)在 GPT-5 甚至只要幾美分。我寫了篇文章叫《自我提升的編碼代理》,問 GPT-5 能否為自己構建工具變成更好的編碼代理。這是一個“Sweet Lancer”任務,它可以自己完成,然后再問能否改進工具、形成循環(huán)。我發(fā)現(xiàn)模型其實不太喜歡用自己構建的新工具,它基本回應:“我可以直接做”。

Brockman:我其實并不真的需要那個工具。

Alessio:我覺得這里有一點……

Brockman:聽起來很像人類的想法。

Alessio:就是模型自身有一個“天花板”,它們能在多大程度上推動自己去改進?你覺得部分原因是,它們只是被教去使用這些工具,比如抓取、調用之類的,因此在推理階段很難自己去構建工具?還是你覺得這是它們能力躍遷的一部分?

Brockman:我認為這是能力躍遷的一部分,肯定是的。并不是說我們完全無法做到。很多事情都和訓練有關。如果模型只用過一套特定工具訓練,沒有被推動去快速適應新工具,那么在評估階段也不能指望它會表現(xiàn)不同。但能自己生產工具、提升效率,并且逐漸建立一個持久的工具庫,這是一個極其寶貴的能力。如果你的目標是解決極難問題、未解問題,那么這種能力是必要的依賴。

架構的決策受限于模型大小和可用算力

SWYX:你們在架構上有做過哪些決策或創(chuàng)新嗎?比如滑動窗口注意力、非常細粒度的專家混合(我覺得 DeepSeek 讓它流行起來)、rope、yarn、attention sinks……有沒有哪些特別突出的選擇,是為了 GPT OSS 做的?

Brockman:我會說,這些選擇都很自然。我們有團隊專注于不同架構,會探索各種方法。像 mixture of experts,這部分的決策很有趣,我得為團隊點贊。我腦海里的畫面是,我們希望架構在這些環(huán)境下容易運行,所以稀疏度的選擇直接影響內存占用,以及前向計算能用的算力等等。在某種程度上,架構決策受限于模型大小和可用算力。

SWYX:實際上就是非常務實的工程決策。

Brockman:對,我覺得是的。模型的強大之處在于,我們確實利用了很多最前沿的技術,不斷推動模型能力的極限。

本地和遠程模型:一切都是連接在一起的

SWYX:我覺得可以明顯看出 API 用模型和單機模型的架構差異。多租戶和批處理環(huán)境與單機環(huán)境完全不同。我不知道未來是否會合并,但可能是像你常說的“多模型組合”。

Brockman:沒錯。我覺得很有趣的一點是,有一種架構:本地模型有時會委派任務給遠程模型。這樣可以更快運行,也有利于隱私架構——決定哪些任務本地處理、哪些遠程處理。如果網絡斷了,本地模型仍能繼續(xù)工作,而遠程模型可以做慢速規(guī)劃。兩者之間的互動非常有意思。

SWYX:比如 GPT-5 可以在設備端運行,先用本地模型,有網絡時再通過在線路由處理?

Brockman:對,類似這樣。Codex 基礎設施里有本地代理和遠程代理,它們可以無縫協(xié)作,也支持多人協(xié)作。這就是未來的樣子,非常令人期待。

Alessio:隨身設備一直在你身邊。我可以想象未來的發(fā)展方向了。

Brockman:一切都是連接在一起的。

SWYX:那關于設備我們能透露什么?

Alessio:你提出來了……

SWYX:關于設備,我們能說什么?

Brockman:會很棒。

AI工具盛行,內部工程團隊如何調整適應的?

Alessio:談談 OpenAI 的工程團隊。我知道關于 Claude Code、Open Code 等工具有很多討論。你們如何組織團隊以發(fā)揮最高效率?團隊建設在人數(shù)、能力、規(guī)模上有調整嗎?

Brockman:軟件工程確實在多個維度上變化。對于模型來說,有些核心算法問題很難解決,但我們已經看到初步成果,比如 CudaMani 之類的自包含難題,我們的模型很快就能很好處理。但這仍然需要領域知識和抽象思考能力,不過并非無法解決。

還有一些問題很難在架構上解決——系統(tǒng)如何組合、抽象設計等。我們的模型開始在這些方面表現(xiàn)出色。大部分工程師,即便非常優(yōu)秀,他們的很多工作正好可以映射到模型當前的核心能力上。

對于你不熟悉的語言,你肯定不想自己寫代碼,而是希望模型來完成。部分工作變難,是因為模型無法直接獲取必要的上下文,需要和人溝通以做出決策。

目前我們還沒到根據工具存在改變團隊結構的地步,但現(xiàn)在極度重要的是讓模型在所有可能的領域得到應用,同時思考如何負責任地使用它們、設定安全護欄。

我們處于從早期采用者向主流過渡的階段。提高人類生產力意味著我們需要更多人力。軟件開發(fā)受限于團隊能力和技術債務。如果有工具讓工作快十倍,我們能做的事情就會增加百倍。模型不僅讓現(xiàn)有工作更高效,還能實現(xiàn)遠超以前的能力,這是核心目標。

Alessio:你們如何調整團隊工作以適應大語言模型?在問題跟蹤、代碼結構上有變化嗎?

Brockman:我們還在探索,但最成功的方法是根據模型的強弱構建代碼庫:自包含單元有完善的單元測試、快速運行、良好文檔。把細節(jié)留給模型處理效果很好。思考模塊組合和依賴關系時,確保干凈、AI 優(yōu)化模塊只被其他 AI 優(yōu)化模塊依賴,這樣整個系統(tǒng)就優(yōu)化完成。我們還在探索潛力。

模型發(fā)展非常快,六個月后,今天的弱點可能大幅減少。因此不必全部時間去適應現(xiàn)狀,但當前時刻能快速行動,機會巨大。

部分工程師會被取代,真正重要的是使命

SWYX:我很好奇,工程師的價值是否隨時間增加?

Brockman:部分工作會被自動化取代,但我們在創(chuàng)造史上最有用的工具,并建設人類有史以來最大的機器。數(shù)十億投入數(shù)據中心,這種規(guī)模幾乎超出人類理解范圍,遠超過新政、阿波羅計劃。經濟回報巨大,更重要的是,我們在向 AI 驅動的新經濟轉型,這是使命所在。我們希望引導這場變革,讓它提升每個人,這是幾乎獨一無二的歷史機遇,我們都很幸運能參與其中。

對我來說,這就是思考這一場人類規(guī)模重大變革的背景。

有時候,你幾乎會感到認知失調——你在調試某個低層死鎖問題,或者在擔心某個紫色漸變的顯示效果,然后突然意識到:我們談論的,實際上是人類的未來。所以,當你考慮工程師、公司歸屬以及這些事情時,這些確實重要。它不僅僅關于某個個體,也不僅僅關于某個團隊、某個產品或系統(tǒng),而是關于整個社會、整個經濟,這是我們一起在構建的整體體系。因此,我有時候會退一步思考大局,但同時你也必須關注微觀層面。

你需要關心人們是否快樂。人們是否感到與使命相關,他們是否覺得自己所做的工作有意義?這些因素實際上才是最重要的。而新聞頭條上出現(xiàn)的東西,不一定是真正驅動人的核心,但它確實反映了人們看到的技術潛力的經濟現(xiàn)實。

SWYX:這和 Noam 提到的多智能體團隊有點關聯(lián):個體的人類智能有限,但作為文明體,我們可以登月、建城、改變世界。我認為,集合起來我們能做的遠比單獨個體多得多。

Brockman:毫無疑問,我們可以一起創(chuàng)造令人驚嘆的成就。

OpenAI內部,究竟是如何搞研究的

Alessio:你怎么看當前 AI 研究的狀態(tài)?大家是否都在做同樣的事情?你覺得每個實驗室的不同方法最終會幫助我們收斂到正確方向,還是說因為投入巨大,大家都必須做自己認為最有效的事情?

Brockman:我認為這個領域實際上非常多樣化。有時候可能感覺像是趨同演化,但如果你和不同實驗室的人深入交流,你會發(fā)現(xiàn)他們有完全不同的視角。

Brockman:在 OpenAI,我們早期做的一個決策是,我們希望團隊成員在思維方式上高度一致。那些長期追求博士學位、有自己研究愿景的人,很難指揮他們做具體工作。如果你希望大家朝同一方向努力,就必須挑選合適的人。這可能是 OpenAI 最重要的早期決策之一,也幫助我們取得了現(xiàn)在的成就。所以不同實驗室的選擇、研究方向和產出,反映了這種多樣性。

在 OpenAI,我們非常專注于如何開展研究以達到下一層次。即便是 GPT-5,我們也承受了很多壓力去處理現(xiàn)有編碼問題的反饋,做這些“磨合”工作可以有所進展,但有時候你必須退一步思考:如何實現(xiàn)下一個跳躍?如何實現(xiàn)下一個范式轉變?比如“推理范式”就是我們成功做出的一個例子。OpenAI 多年來多次這樣做,也將繼續(xù)進行。研究突破仍然等待我們去創(chuàng)造,尤其在多模態(tài)和生成方法上,領域比以往任何時候都更為豐富。

SWYX:而且別忘了,這只是主線研究。還有語音、圖像生成、視頻生成等領域。

Brockman:很容易被忽略。

Alessio:Studio Ghibli 就是其中最大的一支團隊。

Brockman:是的,真的很驚人。這類項目通常是少數(shù)團隊多年來專注解決的核心問題,這也是 OpenAI 的核心理念:對重要問題做長期投資,形成連貫整體。

OpenAI野心射程有多廣

Alessio:從外部來看,很難判斷你們具體關注什么。比如圖像生成幾乎是突然出現(xiàn)的,卻得到了廣泛采用。人們應該如何理解你們的優(yōu)先級決策?哪些可以自行探索,哪些該等待你們改進?

Brockman:這個領域可能性空間巨大。神經網絡和深度學習適用于幾乎任何數(shù)據和領域,但我們不能做所有事情。核心推理范式是我們將持續(xù)推進的方向,多模態(tài)、語音、圖像生成、視頻生成等也是非常重要的,并且它們是相互關聯(lián)的。但有些領域我們很難確定如何在核心項目中優(yōu)先考慮。

比如 2018 年的機器人研究,我們取得了出色成果,但后來意識到在另一個領域我們能走得更快。比如機械手解魔方,團隊受限于手的耐久性,只能運行有限時間,機械工程師需要修復。而這個團隊后來轉向了數(shù)字領域,開發(fā)了 GitHub Copilot,這是令人驚嘆的成就,顯然在數(shù)字領域比物理領域推進更快。

因此,我們始終盡量集中資源,專注于一個清晰的核心問題。我們做的事情中,有些會成為核心項目,有些只是分支,但可能性空間實在太大,每個人都有機會去探索。

許多果實尚未被采摘

SWYX:我們來收尾幾個小的“閃電問題”,從 OpenAI 的宏觀視角出發(fā)。這個問題是 Alessio 提的,你來提問吧。

Alessio:哦,當你創(chuàng)辦 OpenAI 的時候,你幾乎覺得開 AI 實驗室已經太晚了。那么今天人們認為幾乎來不及去做的事情,其實現(xiàn)在做仍然有價值的,有哪些呢?

Brockman:我認為很明顯,把這些模型連接到真實世界的應用領域是極有價值的。有時候你可能會覺得所有創(chuàng)意都被別人做過了,但經濟體量如此之大,人類活動的每個應用場景都龐大無比。因此,人們真正思考如何充分利用我們創(chuàng)造的這種驚人智能,是非常值得也非常重要的。比如在醫(yī)療領域,你必須考慮所有相關方,思考現(xiàn)有系統(tǒng)如何運作,又如何將模型嵌入其中。我認為這種思考在各個領域都適用——還有很多“果實”尚未被采摘。

SWYX:那就去寫 GPT Rapper 吧。

Brockman:但我建議的是,真正去思考那些價值不僅僅是寫出一個更好的 rapper,而是深入理解某個領域,建立專業(yè)知識和人脈關系,這才是最有意義的。

SWYX:你偶爾會做天使投資嗎?通常什么會吸引你的注意?

Brockman:實際上我這些年沒有做過天使投資。是的,因為一切都會分散我對 OpenAI 的注意力,我只想保持高度專注。

AGI之后,錢還有意義嗎?

SWYX:好的,這是個“時間旅行”問題:你想給 2045 年的自己留一張便簽嗎?Greg?到那時你會 58 歲。

Brockman:戴森球建好了嗎?

SWYX:戴森球?兄弟,我不知道你有沒有算過要建它需要做多少事……

Brockman:更認真地說,2045 年離現(xiàn)在太遙遠,很難想象一切會發(fā)展成什么樣。我希望那是一個充滿驚人豐富性的世界,我們真的應該實現(xiàn)多行星生活,幾乎任何你能想象的科幻夢想都可能實現(xiàn)。唯一受限的可能只是物理上無法快速移動原子。但我希望那個世界盡可能驚艷,就像我們坐在 2025 年這里想象的一樣。

SWYX:即便如此,我們仍需要 UBI(某種假設工具?)和豐富性,因為真正的豐富意味著我們不再需要它。

Brockman:首先,我認為關于這個話題有很多爭論。我記得 OpenAI 早期有討論,AGI 之后,錢還有意義嗎?如果你只需和計算機對話,它就能生成你想要的一切——無論是物質產品還是其他——幾乎免費,那金錢意味著什么?

另一方面,有一種資源顯然會非常緊俏,那就是算力——現(xiàn)在就是這樣。

在 OpenAI 內部我們已經看到,能獲取最多算力的研究人員能承擔最大的項目,完成更多工作。未來,人們如何獲得算力?你關心的任務、應用能獲得更多算力,就能產生更多成果。因此,算力分布問題將非常關鍵。我認為,即便不工作,你的基本需求也會得到滿足,這是肯定的。

但問題是,你能否做更多?不僅僅是生成任意電影,而是生成細節(jié)豐富、極其精美、能為你思考百年主觀體驗的作品。對你個人來說,算力投入總會帶來回報,因此我們必須認真思考社會的算力架構問題。

問題不會消失,機會反而會更多

SWYX:接下來這個我總覺得更難:給 2005 年的 Greg 留一張便簽,18 歲的自己。

Brockman:哇,時間旅行啊。我能寫多長?給自己一點建議。

SWYX:顯然,這也可視作給其他人的參考,但形式上還請你先寫給自己。

Brockman:我最驚訝的一點是:問題的豐富性會隨著時間增長。因為我記得 1999、2000 年讀硅谷的故事時,覺得自己錯過了機會,生得太晚了。

SWYX:非常常見。

Brockman:沒錯,感覺所有有趣的問題都被解決了,我能做的時候已沒有剩余。但事實完全相反?,F(xiàn)在是技術領域最令人興奮的時期,因為我們擁有這個驚人的工具,它將提升并革新人類每一個應用領域。我想,問題不會消失,機會反而會增多,這是我當時希望自己理解的核心信息。

Alessio:太棒了,非常感謝你來到我們的播客,Greg。

SWYX:謝謝你的時間。

Brockman:非常感謝,很高興在這里。

好了,文章到這里結束了,祝大家周日愉快!

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-03-20 12:43:57

2025-09-05 09:04:00

2024-12-24 14:30:00

模型AI訓練

2009-12-16 09:34:50

英特爾貝瑞特

2025-10-14 14:43:11

2024-01-18 12:30:03

2025-05-19 08:54:00

2025-05-13 09:02:23

2024-11-12 13:07:44

2024-03-27 13:31:00

模型AI

2024-03-04 13:55:24

2023-09-07 13:06:18

人工智能模型

2011-02-18 16:46:45

云計算RSA董事長

2024-03-21 14:06:50

2024-03-19 08:18:46

GPT-5算力Altman

2022-02-22 10:58:53

冬奧會5G運營商

2023-12-01 09:59:27

2009-01-09 11:51:32

雅虎BartzCEO

2025-08-18 17:14:41

GPT-5OpenAIAGI

2024-02-21 13:31:00

點贊
收藏

51CTO技術棧公眾號