編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
OpenAI 不是要搞 AGI 嗎?為什么突然專門開始搞編碼大模型了?
今天一早,GPT-5 的 Codex 版本在凌晨發(fā)布,再度讓整個 AI 編程賽道圈沸騰起來。緊接著 2 個小時后,OpenAI 官方的“GPT-5-Codex”的主題播客也放了出來。
OpenAI的“御用”播客主持人 Andrew Mayne (身兼作家、魔術師、OpenAI顧問)再度出鏡,邀請 OpenAI 聯(lián)合創(chuàng)始人 Greg Brockman,以及 Codex 工程負責人 Thibaut Succo,圍繞 智能體、GPT-5-Codex、以及 2030 年編程賽道會是什么樣的,展開了長達1小時的深刻討論。
播客中,Mayne 提問的角度遠比網(wǎng)友犀利:好好地,一直搞通用模型的 OpenAI,為什么突然搞起編程模型來了?
而恰巧的是,據(jù)小編了解到的,只要是OpenAI發(fā)布編程相關的產(chǎn)品,其實一直都是 Brockman 在背后站臺,無一例外。
Brockman 表示,其實從 GPT-3 開始,OpenAI 就注意到了大模型可以自動補全 Python 代碼,他們當時視為一種“生命跡象”。雖然GPT-4發(fā)布后,也嘗試了許多其他領域,但編程賽道一直是重點。
提及語言模型和代碼模型的區(qū)別,Brockman 提及了本質(zhì)的區(qū)別:模型可以在代碼環(huán)境中被用起來,不僅需要智能,接口設計也同樣重要。
但寫代碼不一樣,文字會“活過來”。你需要運行它,需要和工具聯(lián)動,需要一整套“架子”。所以我們發(fā)現(xiàn),模型能否被用起來,不僅取決于智能本身,接口設計幾乎同樣重要。
Brockman 甚至自曝今年年初OpenAI的一個公司目標:
到年底實現(xiàn)一個“具代理能力的軟件工程師”(agentic software engineer)。
這足以看出 OpenAI 對于編碼賽道的必爭之心。
關于中午小編在實測OpenAI最新模型!文章中提到的CLI、云端 Codex的表現(xiàn)支離破碎、參差不齊的效果,播客中也有回應:目前是實驗階段。Codex 一方面是OpenAI的內(nèi)部工具,一方面又要考慮如何對外,所以造成了這種割裂感。
最終的愿景是,應該有一個 AI 它既能訪問自己的計算集群,也能“看著你”在本地幫助你,這兩者不該是割裂的。
未來,大家還需要學編程嗎?兩位大佬回答得非常巧妙:
學編程可能不如學AI(工具)更重要。當然現(xiàn)階段,用AI編程最好的人,自然還是有軟件功底的大牛們。
那些用 AI 編程最成功的人,其實對軟件工程基礎都下過很大功夫。他們會搭好架構,設計合理的代碼結構,然后再讓 AI 輔助。
再比如,暢想未來,Brockman 似乎從 OpenAI 內(nèi)部幾個項目部門為了算力分配激烈競爭的情況嗅到了未來的炮火味:未來,人們可能會為了算力資源而競爭。
此外,還有許多 Codex 實際使用中的技巧,Sottiaux 介紹了許多OpenAI團隊內(nèi)部的使用方式,比如 agents.md文件等等,再比如,云端還是本地?CLI 還是瀏覽器、IDE?
值得一提的是,五年前,Codex 就開始被OpenAI提上了議程,5年后的2030年,又會是什么樣子?Brockman 給出了很清晰的答案:
我們大體上能看見未來的輪廓:長期來看,你會希望有一個 AI 它有自己的計算資源,能委派給一隊 agent 并行解決多項任務。你早上喝咖啡時可以查看 agent 的工作,給出一些反饋,說“這不是我想要的”,這個工作流最終會出現(xiàn)。
但現(xiàn)在的模型還不夠聰明以至于能完全作為那種交互方式的主體。因此一個實在的 agent 在你的終端、在編輯器里幫你處理工作、看起來很像一年前你做事的方式,這也是現(xiàn)在可行的路線。
料還很多,建議大家收藏細讀。
完整的對話內(nèi)容整理如下,大家enjoy:
1.不是追求AGI嗎?為什么專門搞起代碼模型了
Andrew Mayne: 大家好,我是 Andrew Mayne,這里是 OpenAI 播客。本期我們將和 OpenAI 聯(lián)合創(chuàng)始人兼總裁 Greg Brockman,以及 Codex 工程負責人 Thibaut Sucho 聊聊議程式編程、GPT-5 Codex,以及 2030 年可能的發(fā)展方向。
我們今天要談的是 Codex。我自己其實從最早版本的時候就在用它,那時候我還在 OpenAI 工作。你們現(xiàn)在發(fā)布了新版。
我整個周末都在玩這個工具,印象非常深刻。這幾年技術進步太驚人了。我想聽聽它最早的故事——最初是怎么想到用語言模型來寫代碼的?
Greg Brockman: 我記得在 GPT-3 的時代,第一次看到“生命跡象”:你輸入一個文檔字符串、一個 Python 函數(shù)定義,模型就能把代碼補全。當你第一次見到這種情況時,你就知道——這東西會成的,會很大。我們當時有一個很宏大的目標:想象一下,如果語言模型能寫出一千行連貫的代碼,那會怎樣?這就是當時的大目標。而現(xiàn)在,這個目標早就被實現(xiàn)了,我們甚至都不覺得稀奇了。研發(fā)過程中,你總是看到漏洞、不足、做不到的地方。但偶爾回頭看看,其實已經(jīng)走了很遠。
Thibault Sottiaux:最不可思議的是,我們習慣進步太快了。昨天還不可能的事,今天已經(jīng)成了日常工具,你每天都在用,過一陣子回頭一想,上個月這還不存在。這種適應速度真的很讓人著迷。
Greg Brockman: 我們一直在糾結的一個問題是:要不要在某個領域深耕?
Greg Brockman: 因為我們的終極目標是 AGI,通用智能。第一直覺當然是全面提升各種能力。但編碼一直是個例外。我們?yōu)榇a做了完全不同的訓練計劃:專門聚焦代碼數(shù)據(jù)、代碼指標,真正理解模型在編程上的表現(xiàn)。
后來我們也開始在別的領域嘗試,但編程一直是特別的重點。比如 GPT-4,我們訓練出了一個在各方面都大幅躍升的通用模型。但其實當時我們也在單獨訓練 Codex,甚至做過一個更偏 Python 的模型。
大概 2021 年吧,我們在推動代碼能力。還記得 Codex 的第一次演示,那就是今天所謂“氛圍編程”的雛形。當時我在搭界面時意識到,普通語言模型接口很簡單:就是補全一段文字,可能再跟一句。但寫代碼不一樣,文字會“活過來”。你需要運行它,需要和工具聯(lián)動,需要一整套“架子”。所以我們發(fā)現(xiàn),模型能否被用起來,不僅取決于智能本身,接口設計幾乎同樣重要。從那以后我們就很明確了。今年模型更強大之后,我們也開始不只看“比賽能不能贏”,而是讓它真正有用:在多樣化環(huán)境里訓練,貼近用戶的實際使用場景,然后打造這個“架子”。這也是 Thibaut 和他的團隊特別發(fā)力的地方。
2.代碼環(huán)境下, “架子”很重要
Andrew Mayne: 能解釋一下“架子”(harness)到底是什么意思嗎?
Thibault Sottiaux:可以。模型本身只是輸入-輸出的能力。
所謂“架子”,就是把它和周圍基礎設施整合起來,讓模型能真正作用于環(huán)境。包括工具、循環(huán)方式,比如我們說的代理循環(huán)(agent loop)。本質(zhì)上并不復雜,但當你把這些拼在一起、端到端訓練時,就會出現(xiàn)近乎魔法的效果:模型能替你行動、創(chuàng)造,成為真正的合作者??梢园阉胂蟪桑杭茏邮巧眢w,模型是大腦。
Andrew Mayne: 明白了。
Andrew Mayne: 很有意思。想想 GPT-3 的時候,你還得寫帶注釋的代碼,告訴模型“這個函數(shù)要干什么”,在前面加上 #。而現(xiàn)在模型已經(jīng)天然地很擅長寫代碼了。你剛剛提到,要在通用模型和代碼專用模型之間權衡,這個是因為外部用戶的需求,還是你們自己內(nèi)部想要用?我覺得是兩者都有。
Greg Brockman: 沒錯。我記得在 2022 年,我們和 GitHub 合作推出了 Copilot。那是第一次真正感受到:有一個 AI 在你寫代碼的流程里,它能幫你加速。當時有很多討論:交互界面應該是什么樣?是用“幽靈文本”直接補全?還是下拉列表給幾個選項?不過有一點很清楚——延遲本身就是產(chǎn)品特性。比如自動補全,1500 毫秒就是上限,再聰明也沒人愿意等。所以我們收到的信號是:要在延遲限制內(nèi),用盡可能聰明的模型。
但 GPT-4 更聰明,卻滿足不了延遲預算,那怎么辦?它沒用嗎?當然不是。答案是——你要改“架子”。改交互方式。這就是關鍵:接口和使用方式要和模型的特性一起演進。極快且聰明的模型很棒,極聰明但偏慢的模型同樣值得。我們一直相信智能的價值終會體現(xiàn),雖然當下總會有人質(zhì)疑“太慢了,誰會用”。但我們的態(tài)度就是:長遠來看,更強的智能一定會證明自己。
Andrew Mayne: 在做 GitHub Copilot 的時候,我其實沒法完全理解這會走向哪里。當時習慣了就是“補全一行”,讓它做個小任務。沒想到加上“架子”和各種能力,價值會擴大這么多。那時感覺只要有模型就夠了,但現(xiàn)在才明白,工具鏈和周邊的設計也能帶來巨大的差別。
3.從用戶瘋狂喂給模型上下文到讓模型自己驅(qū)動
Andrew Mayne: 你們剛提到多模態(tài),現(xiàn)在已經(jīng)有 Codex CLI,可以在命令行里用;也有 VS Code 插件;還能直接部署到網(wǎng)頁。我當時沒完全意識到這有多大價值。那么你們自己平時是怎么用的?在哪些地方感覺最有用?
Thibault Sottiaux:我想回到我們最早看到的一些跡象:公司里外有很多開發(fā)者——我們的用戶會用 ChatGPT 來幫他們排查非常復雜的問題。我們清楚地看到一件事:人們會盡可能把更多上下文塞進 ChatGPT,粘貼代碼片段、堆棧跟蹤之類的,然后把這些交給非常聰明的模型尋求幫助。交互開始變得越來越復雜,直到有一天我們意識到,也許不要由用戶來驅(qū)動這一切,不如讓模型自己驅(qū)動交互、自己去找上下文、自己定位問題并調(diào)試這個難題,這樣用戶就可以坐下來看模型自己做事。可以說這是把交互反過來想的一種做法,也因此我們開始更多地思考“架子”(harness),賦予模型行動的能力。
Greg Brockman: 我們也在不斷迭代不同的形態(tài)(form factors)。我記得年初我們嘗試了幾種不同的方法。我們有一種可以稱作異步代理式的架構(async agentic harness),但我們也有本地體驗和幾種不同的實現(xiàn)方式。
Thibault Sottiaux:對,我們其實還試著把這個想法放到終端里運行。但后來感覺那樣不夠“AGI 風格”。我們需要能在大規(guī)模上遠程運行的能力,你可以合上筆記本,把任務交給 agent 在后臺繼續(xù)運行,然后可能在手機上跟進并與之交互。那看起來很酷,于是我們在這方面推動了一把。但我們確實做過一個在終端里完全可用的原型,OpenAI 內(nèi)部的人也在高效使用它。我們最后決定不把它作為產(chǎn)品推出——感覺不夠打磨好。它曾被稱為 10x,因為我們感覺它能給我們十倍的生產(chǎn)力提升。但隨后我們決定去嘗試不同的形態(tài),最初全力押注異步形態(tài)?,F(xiàn)在我們又回頭、重新演進,決定把這個 agent 帶回終端、帶進你的 IDE,但我們真正想把握好的是:這個實體,這個與你協(xié)作的合作者,能以開發(fā)者已經(jīng)在用的工具呈現(xiàn)給你。
Greg Brockman: 我們還有其他嘗試,也算是多線出擊。比如有一個版本是遠程 daemon(守護進程)連接到本地 agent,所以你兩者都能同時獲得。
Greg Brockman: 我認為演進的一部分是:你幾乎有一個矩陣(matrix),可以嘗試不同方式部署工具。比如異步的:它在云里有自己的計算資源;有本地的:它在本地同步運行;你也可以在兩者之間混合。
對我們而言,有一個問題是:應該更多關注去構建一個“可外化”的東西——即在用戶多樣化環(huán)境中都能用,還是更專注在我們自己的環(huán)境,確保對內(nèi)部工程師非常好用?挑戰(zhàn)在于我們希望兩者都做好。最終我們想要的工具是對每個人都有用的。但如果你自己都做不出對自己有用的東西,又如何把它做到對所有人極其有用?所以我們要決定把工程努力聚焦在哪兒,如何做到“投入產(chǎn)出比”最大。今年我們總體的聚焦之一是:我們知道構建強能力的編碼 agent 是最重要的事情之一。年初我們定了個公司目標——到年底實現(xiàn)一個“具代理能力的軟件工程師”(agentic software engineer)。弄清楚這到底意味著什么、怎么實現(xiàn)、怎么把所有機會和計算資源整合到這個問題上,是許多 OpenAI 人員的重大工作。
4.未來的輪廓:便利性向左拉,智能型向上推
Andrew Mayne: 你提到內(nèi)部有個叫 10x 的工具,是內(nèi)部工具。有時候會覺得“哦,這對別人也很有用”,但決定何時對外、如何優(yōu)先推廣確實很難抉擇。我們看到 claude code 變得非常強大,我想那是類似的從內(nèi)部到部署的故事。當你開始思考下一步要把重點放在哪兒時,你怎么決定?你剛說可以把東西放到云上、放到 web 上,做那些代理式任務讓你離開電腦也能繼續(xù)運行。這種新模態(tài)讓我很難全面想清楚,但這些東西有時需要時間沉淀,人們會慢慢獨立發(fā)現(xiàn)它們。你們內(nèi)部有沒有人突然領會到“哦,現(xiàn)在我懂了”?我想答案是肯定的,對吧?
Greg Brockman: 我覺得我們大體上能看見未來的輪廓:長期來看,你會希望有一個 AI 它有自己的計算資源,能委派給一隊 agent 并行解決多項任務。你早上喝咖啡時可以查看 agent 的工作,給出一些反饋,說“這不是我想要的”,這個工作流最終會出現(xiàn)。但現(xiàn)在的模型還不夠聰明以至于能完全作為那種交互方式的主體。因此一個實在的 agent 在你的終端、在編輯器里幫你處理工作、看起來很像一年前你做事的方式,這也是現(xiàn)在可行的路線。
我覺得兩者會逐漸融合:這是未來的樣子,但我們不能拋棄當下——要思考如何把 AI 帶入代碼審查,讓它主動出現(xiàn)、替你做有用的事。隨之而來的是新的挑戰(zhàn):如果 PR(拉取請求)數(shù)量大增,你該如何篩選出真正想合并的那些?我們已經(jīng)看到這些機會空間,也看到人們在 OpenAI 內(nèi)部開始改變他們的開發(fā)方式、改造代碼庫的結構。
Thibault Sottiaux:是的,我覺得有兩點合在一起說明了我們現(xiàn)在所處的位置。其一是基礎設施很難做統(tǒng)一。我們當然希望每個人的代碼、任務和包都能被完美容器化,從而在大規(guī)模上運行,但現(xiàn)實并非如此。很多人有非常復雜、只能在筆記本上跑通的設置,我們要能利用這些并在用戶現(xiàn)有環(huán)境中提供支持,這樣他們就不必為 Codex 單獨做配置。這能讓用戶以非常低的門檻體驗到強大的編碼 agent 能為他們帶來什么。同時這也讓我們能實驗哪個接口合適。六個月前我們根本沒有在玩這些工具,現(xiàn)在一切都很新、演進得很快,我們必須持續(xù)迭代、在如何與這些 agent 協(xié)作上創(chuàng)新。我們覺得還沒完全把界面做對,這還會繼續(xù)演進。但把它做成零配置、開箱即用的體驗,能讓更多人受益并試用,給我們帶來反饋,這對于持續(xù)創(chuàng)新非常重要。
Greg Brockman: 我記得年初跟一位很棒的工程師聊天,他說我們有一個集成能讓 ChatGPT 自動看到終端里的上下文,這非常具有變革性——因為他不用再拷貝粘貼錯誤信息,只要瞬間問“bug 是什么?”,模型就能告訴他。這是一個集成帶來的巨大改變,而不是更聰明的模型本身。很容易陷入只關注某一維度的問題——到底哪一維更重要?答案是兩者都重要。我一直這么思考:回到 2020 年我們最初發(fā)布 API 時,有兩條決定 AI 吸引力的維度:一條是智能(intelligence),另一條是便利性(convenience),便利性可以理解為延遲、成本或可用的集成。存在一個接受域(acceptance region):如果模型極其聰明,但運行要花一個月——只要它的輸出極其有價值,比如能生成某段關鍵代碼或治愈某種疾病,那也值得等待;反之若模型能力不足,那你只想要自動補全,必須極其便利、幾乎沒有認知負擔?,F(xiàn)在我們處在一個中間位置:我們有更聰明的模型,它們在便利性上比自動補全要差一些,但也遠沒有到要等一個月的程度。所以我們的挑戰(zhàn)之一就是:什么時候把便利性向左拉?什么時候把智能向上推?這是一個極大的設計空間,也正是這件事有趣的地方。
5.用 CLI,插件、還是IDE?
Andrew Mayne: 你還記得嗎?我在 2020 年做了一個上架時被展示的應用,叫 AI channels。那個時候 GPT-3 很有能力,但我得寫 600 字的 prompt 才能讓它做事。按那時候的成本和延遲,我覺得不是很現(xiàn)實。后來有了 GPT-3.5、GPT-4,一切開始拼到一起。你剛提到模型能看到你工作環(huán)境的上下文,我以前把 ChatGPT 的內(nèi)容復制粘貼到工作區(qū),那感覺像去超市卻拒絕推購物車一樣——極其低效。一旦把東西放到“輪子上”,事情就變好?,F(xiàn)在我面臨的問題是:坐下來工作我去用 CLI?用 VS Code 插件?還是去 Cursor?或者別的工具?你們怎么判定這一切?
Thibault Sottiaux:目前我們還在實驗階段,嘗試不同的方法把 agent 帶到你已經(jīng)高產(chǎn)的地方。舉例來說,Codex 現(xiàn)在在 GitHub 里:你可以 @Codex,然后它會替你去做事。如果你說“Codex,修復這個 bug”或者“把這些測試移到這里”,它就會跑去在我們數(shù)據(jù)中心的“自己的小筆記本”上運行并完成任務,你根本不用多想。
但如果你在一個文件夾里工作,就要決定是在 IDE 里做還是在終端里做。我們看到的是——高手用戶在終端構建了非常復雜的工作流;而當你在處理文件或項目時,更傾向于在 IDE 里操作,那界面更打磨、你可以撤銷操作、能看到編輯結果,不會錯過。
終端也是一個很棒的“氛圍編程”工具:如果你不太在意生成的代碼具體樣子,你可以快速生成一個小應用,更多關注交互本身而不是代碼細節(jié),更關注結果。這取決于你想做什么。但總體上仍處于實驗階段,我們在嘗試不同的方案。
Thibault Sottiaux:我覺得這種狀態(tài)會持續(xù)一段時間。
Greg Brockman:我也深以為然。我還認為我們的方向會更多地是跨這些工具做整合。
因為人們會使用多種工具:終端、瀏覽器、GitHub 網(wǎng)頁界面、本地倉庫等。人們已經(jīng)學會在合適的時候選擇合適的工具。現(xiàn)在處在實驗階段,這些工具會顯得支離且差異很大,你需要學一套新技能和各工具的使用方式。我們在迭代時要思考的是:這些怎么拼在一起?你現(xiàn)在可以看到一些端倪,比如 Codex 的 IDE 擴展能運行遠程 Codex 任務。最終我們的愿景是:應該有一個 AI 它既能訪問自己的計算集群,也能“看著你”在本地幫助你,這兩者不該是割裂的。
Thibault Sottiaux:對。它就是一個編碼實體,來幫助并與你協(xié)作。就像我和 Greg 合作時,我不會抱怨他有時在 Slack,有時當面說,有時在 GitHub review 上互動 —— 交互方式多樣,這沒問題。
圖片
Thibault Sottiaux:這就像你和其他人類、合作者互動時的自然體驗一樣。這也是我們把 Codex 視為一個“具備代理能力的實體”的原因,它的設計就是為了在你想完成任務時極大增強你的能力。
6.Codex秘籍: agents.md,壓縮而非掃描整個代碼庫
Andrew Mayne: 那我們來聊聊一些使用方式吧,比如agents.md。你要不要解釋一下?
Thibault Sottiaux:好的。agents.md 是一組你可以提供給 Codex 的說明,它和代碼一起存放,讓 Codex 更清楚如何在代碼庫中高效地導航、完成任務。通常有兩類信息很適合放在 agents.md:
一類是“壓縮”信息,讓 agent 更高效地讀取 agents.md,而不是掃描整個代碼庫;
另一類是代碼庫本身無法體現(xiàn)的偏好,比如“測試文件應該放這里”,或者“我喜歡以某種風格來實現(xiàn)”。
這兩類信息——偏好,以及告訴 agent 如何理解和使用代碼庫——在 agents.md 里非常有用。
是的。我認為這里有個很根本的問題:你如何把上下文和偏好傳遞給一個什么都不知道的 agent,同時讓它少走一些人類上手時必然要走的彎路?
其實我們對人類也是這樣做的。我們寫readme.md。而agents.md 只是約定的文件名,告訴 agent 應該先去看這里。但還有一個問題:agent 目前記憶力并不好。比如你第十次運行 agent,它是否真的受益于前九次解決難題時的經(jīng)驗?所以我們還有很多研究要做:如何賦予 agent 記憶力,如何讓它深入探索并理解整個代碼庫,再利用這些知識去解決問題。這只是一個例子,但類似的研究前景還有很多,我們能看到相當豐厚的成果。
Andrew Mayne: 現(xiàn)在競爭格局很激烈。
Andrew Mayne: 有一段時間,OpenAI 對很多人來說是“突然冒出來”的。GPT-3、GPT-4 接連發(fā)布,現(xiàn)在 Anthropic 也在做很強的模型,Google 的 Gemini 也很不錯。你們怎么看行業(yè)格局?你們怎么看自己的位置?
Greg Brockman: 我覺得還有很大進步空間。我自己更關注潛力而不是競爭。我們 2015 年創(chuàng)立 OpenAI 時就覺得 AGI 有可能比大家預想的更早到來,而我們希望能在過程中發(fā)揮積極作用。要把這個愿景落實到實踐,一直是我們主要的工作。
當我們開始探索如何打造既有能力、又真正有用的模型時,關鍵在于如何把它們帶到人們身邊。比如我們選擇推出 ChatGPT,并提供免費層,這完全是基于使命——讓 AI 盡可能廣泛可及、惠及所有人。
在我看來,最重要的是保持指數(shù)級進步,并思考如何以積極、實用的方式落地。我們現(xiàn)在的模型是“GPT-4 級別的預訓練模型 + 強化學習”,這樣它們能更可靠、更聰明。你可以想象,如果只是“讀過互聯(lián)網(wǎng)”,第一次寫代碼時肯定會很糟糕;但如果能練習解決難題,有 Python 解釋器,有各種工具,那么就能更穩(wěn)健、更精細。
這些環(huán)節(jié)現(xiàn)在已經(jīng)能協(xié)同運作,但我們必須繼續(xù)推進到下一個層級。比如大規(guī)模重構代碼庫——目前還沒人完全攻克,但沒有任何原理性障礙。一旦做到,企業(yè)級用例會爆發(fā)。比如 COBOL 系統(tǒng),現(xiàn)在幾乎沒人再學習 COBOL,它已經(jīng)成了全球的隱患。唯一出路就是打造能處理這種任務的系統(tǒng)。所以這是個巨大的開放空間,指數(shù)曲線還在延續(xù),我們必須跟上。
7.從補全API切換到響應API
Andrew Mayne: 我今天最喜歡的一件事,是 OpenAI 發(fā)推介紹怎么用 CLI 從 completions API 切換到responses API。因為這…
Thibault Sottiaux:這是個很好的用途,我預期會看到更多類似情況。比如給 Codex 特別的指令,讓它可靠地去做重構,然后就能自動完成。遷移任務是最痛苦的,沒人愿意做。要換庫、保證一切照常運行,誰都不想。如果我們能自動化大部分,那就是非常有價值的貢獻。
Greg Brockman: 我覺得還有很多方向。比如安全補丁,很快會變得極其重要。
Greg Brockman: 還有,AI 能生成新工具。想想 Unix 的標準工具集有多重要。如果 AI 能自己為人類、也為自己構建實用工具,就能不斷疊加復雜度和效用,形成效率飛輪。AI 不僅寫代碼,還能執(zhí)行、管理服務,做 SRE 運維,這些都在前方。
Greg Brockman: 它們正在發(fā)生,但還沒達到我們理想的程度。
8.OpenAI內(nèi)部揭秘代碼審查功能的誕生
Thibault Sottiaux:我們內(nèi)部已經(jīng)攻克了一個大問題,并決定以代碼審查的形式發(fā)布。我們發(fā)現(xiàn)最大瓶頸是代碼量增加后,團隊必須花大量時間做 review。于是我們開發(fā)了一個高信號模式的 Codex,讓它能審查 PR,深入思考契約和意圖,再驗證代碼是否符合。它能跨層級追蹤依賴、檢驗契約,指出即使是最優(yōu)秀的人類審查員也要花數(shù)小時才能發(fā)現(xiàn)的問題。
這個工具先在 OpenAI 內(nèi)部發(fā)布,非常成功。一旦出問題,大家都抱怨失去安全網(wǎng)。它極大加速了團隊,尤其是 Codex 團隊。就在 IDE 擴展發(fā)布前一晚,我的頂尖工程師提交了 25 個 PR,Codex 自動發(fā)現(xiàn)了不少 bug,第二天 IDE 擴展幾乎無 bug 發(fā)布。速度令人難以置信。
Greg Brockman: 而且很有趣的是,大家一開始對自動代碼審查工具非常緊張。以往的嘗試都讓人覺得是“噪音”——只是某個機器人發(fā)來的郵件,沒人愿意看。但這次完全相反。說明只要能力低于閾值,就會讓人覺得負擔,甚至反感;一旦能力突破閾值,人們就離不開它。
我們還觀察到:如果某個 AI 功能現(xiàn)在“還行”,一年后它就會變得極其可靠,成為關鍵工作流。代碼審查正是這樣的方向。
Thibault Sottiaux:代碼審查這塊也很有意思,因為它不僅僅是審查,還在于讓人類真正融入其中,把它當作一個協(xié)作伙伴,甚至包括在 review 的過程中。
我們反復討論的一點是:怎么把這些發(fā)現(xiàn)呈現(xiàn)出來,讓你真的愿意去讀,甚至會從中學到東西——哪怕它錯了。因為你能理解它的推理過程。大多數(shù)時候(其實超過 90% 的情況)它是對的,而作為代碼作者或代碼審查者,你往往能從中學到一些新東西。
Greg Brockman: 是啊。回到我們之前說的進展速度,有時候需要回顧一下過去是什么樣的。我記得在 GPT-3 和 GPT-4 的階段,我們特別關注“雙倍下注”的問題。還記得 AI 說錯了,你指出它的錯誤嗎?
Greg Brockman: 哦,它會跟你爭論,對吧?沒錯,它會試圖說服你它是對的。我們早就過了那個階段?,F(xiàn)在即便還有一些邊緣情況,就像人類一樣,但那已不再是核心問題。很神奇的是,現(xiàn)在即使它沒有完全命中正確答案,它也會把重要的東西挑出來,并且有相當合理的思路。我每次做完這樣的代碼審查都會想:“嗯,對,這個點值得注意,我確實該想一想?!?/span>
9.連續(xù)工作長達7小時,代碼重構級任務
Andrew Mayne: 我們現(xiàn)在發(fā)布了 GPT-5。就在這期播客錄制的時候,GPT-5-Codex 也已經(jīng)推出了。
Thibault Sottiaux:我們對此感到非常興奮。
Andrew Mayne: 非常激動。那么,你們能說服我嗎?為什么我應該為此興奮?
Thibault Sottiaux:GPT-5 Codex 是我們專門針對 Codex 優(yōu)化過的 GPT-5 版本。我們之前講過“harness”(工具集合),它就是為 harness 優(yōu)化的。我們把它看作是一個緊密結合模型和工具的智能體,能更可靠地運作。
這個模型的特點之一是能長時間持續(xù)工作,具備完成復雜重構任務所需的“韌性”。但在處理簡單任務時,它又能非??斓禺a(chǎn)生結果,幾乎不需要過多思考。就像一個出色的協(xié)作者——你可以向它提問、查找需要修改或理解的代碼部分、幫助你規(guī)劃。而一旦交給它一項任務,它就能長時間堅持下去。我們內(nèi)部測試過,它可以連續(xù)工作長達 7 小時來完成非常復雜的重構任務,這是我們以前在其他模型上沒見過的。我們還在代碼質(zhì)量上投入了大量精力,讓它特別適合 Codex 場景下的 GPT-5 使用。
Andrew Mayne: 你說的“工作長達 7 小時”,不是指它只是不斷把內(nèi)容放回上下文里吧?它真的會做決策,判斷什么重要,然后一步步推進?
Thibault Sottiaux:沒錯。想象一下那種棘手的重構:你發(fā)現(xiàn)代碼庫已經(jīng)不可維護,必須做一些修改才能繼續(xù)前進。于是你先做一個計劃,然后把任務交給 GPT-5 Codex。它會自己解決所有問題,讓測試能運行、通過,最后完整完成整個重構。我們確實看到過它連續(xù)工作 7 個小時來搞定這樣的任務。
Greg Brockman: 我覺得特別不可思議的是,這些模型的核心智能真的是令人震撼。甚至就在三、六個月前,它們在瀏覽和定位我們內(nèi)部代碼庫的某個特定功能時,已經(jīng)比我更擅長了。
而這本身就需要非常復雜的理解能力。
10.工程師的價值所在
Andrew Mayne: 你不會對 Greg 說“對不起吧”?
Greg Brockman: 因為問題在于,我可以做更多事情。我真正想花時間做、也希望別人記住我的價值的地方,絕不是“在代碼庫里找功能”。那不是我作為工程師的價值所在,也不是我希望花時間的事。
對我來說,核心在于:我們現(xiàn)在有了這樣驚人的智能,它首先能吸走那些枯燥、重復的工作。當然,也有一些過程是有趣的,比如思考架構,這時候它又能成為很好的伙伴。但關鍵是我能選擇如何花費時間。我可以去思考:要讓多少個 agent 并行工作?分別負責什么任務?要怎么拆解問題?我把它看作是擴展了程序員的機會空間。
我是個堅定的 Emacs 用戶,但我也嘗試過 VS Code、Cursor、Windsurf 這些工具,一方面是為了體驗,另一方面是因為我喜歡工具的多樣性。但很難讓我離開終端。不過現(xiàn)在,我發(fā)現(xiàn)自己越來越常有這種感覺:在重構的時候會想,“我為什么還要親手敲這些代碼?”比如還要記某個語法的精確寫法,或者做一些純機械性的操作。我更希望有個實習生來代勞。而現(xiàn)在,我在終端里就真的有了這樣的“實習生”。我覺得這真的很了不起:我們已經(jīng)到達這樣一個階段——你手里有了強大的核心智能,并且可以選擇什么時候、如何使用它。
Andrew Mayne: 請在擴展里加上語音識別吧。我現(xiàn)在特別喜歡直接對模型說話,讓它去做事。
Greg Brockman: 對,應該能直接和模型視頻聊天。我覺得我們正走向真正的協(xié)作者、真正的同事。
11.Agentic 的未來
Andrew Mayne: 那我們談談未來吧。你們怎么看未來?Agentic 的未來有什么令人興奮的地方?我們會怎樣使用這些系統(tǒng)?
Thibault Sottiaux:我們非常確定的一個方向是:未來會有大量的智能體群體運行在云端,由人類——無論是個人、團隊還是組織——進行監(jiān)督和引導,從而創(chuàng)造巨大的經(jīng)濟價值。
換句話說,幾年后,它會是這樣的景象:數(shù)百萬個智能體在公司或數(shù)據(jù)中心中運作,完成有用的工作。問題在于:我們該如何逐步走向那個階段?該如何在實驗中找到合適的形態(tài)和交互模式?必須解決的關鍵問題之一是安全、可靠性和對齊。智能體要能高效工作,同時確保安全,讓人類始終掌握控制權。
這也是為什么在 Codex CLI 里,默認情況下,智能體運行在沙箱里,不能隨意修改你電腦上的文件。接下來我們會持續(xù)投入,讓運行環(huán)境更安全;同時研究什么時候需要人類介入、什么時候需要人類批準某些動作;逐步擴展權限體系,讓智能體能在你允許的范圍內(nèi)使用權限,甚至在你批準時,執(zhí)行一些風險更高的操作。最終目標是:建立一個完整的系統(tǒng),支持多智能體,并能被個人、團隊和組織靈活引導,而且要與組織整體目標保持一致。雖然現(xiàn)在看起來還有點模糊,但這方向令人非常興奮。
Greg Brockman: 對,我完全同意。
我覺得更細一點看,這里面有很多技術問題要解決。Thibaut 說到的就是“可擴展的監(jiān)督”。當你放出大量智能體寫代碼時,你不可能每一行都看?,F(xiàn)在大多數(shù)人也不會逐行檢查模型產(chǎn)出的所有代碼。但關鍵是:如何保持信任?如何確保 AI 產(chǎn)出的東西真的正確?
這類問題其實我們早在 2017 年就開始研究,提出過一些策略:比如用人類或較弱的 AI 來監(jiān)督更強的 AI,通過這種方式逐步建立一個機制,確保即使它們在做很復雜、很關鍵的任務時,我們依然能維持信任與監(jiān)督,始終掌握方向盤。這是一個非常重要的問題,在“越來越強大的代碼智能體”場景里體現(xiàn)得尤其明顯。
但還有一個更容易被忽視的維度:人們往往會對當下的 AI 能力“過擬合”,以為這就是 AI 的全部。但我們還沒有真正看到 AI 去解決那些全新、非常困難的問題?,F(xiàn)在你讓它做重構,你大致知道任務的形狀,它會幫你完成很多工作,節(jié)省時間。但如果是一些根本無解的問題呢?
我想到的例子不僅僅是編程領域,而是在醫(yī)學,比如新藥研發(fā);或是材料科學,比如創(chuàng)造出全新的材料。未來有很多能力正朝這個方向發(fā)展,會解鎖這類應用。
對我來說,一個重大里程碑是:第一次有 AI 產(chǎn)出的成果本身極具價值和意義。不是因為它是 AI 做的,也不是因為更便宜,而是因為它就是一項突破。甚至不一定是 AI 完全自主完成的,而是和人類協(xié)作,但 AI 在其中是關鍵依賴。
我們已經(jīng)看到了一些苗頭。比如在生命科學中,研究人員會讓 GPT-3.5 給出五個實驗方案,試了五個,其中四個不行,但一個成功了。而反饋是:結果相當于一個三到四年級博士生的水平。這簡直瘋狂。
Andrew Mayne: 對,簡直瘋狂。
Greg Brockman: 對,那還是在 GPT-3.5(03)時代?,F(xiàn)在在 GPT-5 和 GPT-5 Pro 上,我們看到的結果完全不一樣。研究人員會說:“好,這是真的在做全新的東西。”有時它并不是單獨解決那些宏大的理論,而是在人機協(xié)作中,把能力延展到遠超人類單打獨斗所能達到的地方。對我來說,這是必須持續(xù)推進并把握好的關鍵之一。
12.2030年,人們?yōu)樗懔Ψ峙涠偁?/h4>
Andrew Mayne: 我在和別人聊未來的時候,總會遇到一個挑戰(zhàn)——人們常常把未來想象成“現(xiàn)在 + 閃亮的外殼和機器人”。他們會設想:那等機器人把所有代碼都寫了會怎樣?但你們剛才提到,其實有些事情你喜歡做,有些你并不在乎。那到 2030 年會怎樣?它會是什么樣子?五年前是 GPT-3,再過五年呢?
Thibault Sottiaux:想想看,六個月前我們還沒有這些東西。所以要準確描繪五年后的樣子其實很難。但有一點很重要……
Andrew Mayne: 等到五年后我會突然跳出來放播客說:“你當時就是這么說的?!辈贿^到時候會是你的 agent 替你做這事。
Thibault Sottiaux:對(笑)。重要的一點是:那些屬于關鍵基礎設施、支撐整個社會的代碼,我們必須持續(xù)理解它,并擁有理解它的工具。這也是我們?yōu)槭裁磿娬{(diào)代碼審查。代碼審查的作用就是幫你理解那段代碼,成為你的隊友,幫助你深入理解別人(可能還有 AI)寫下的代碼。
Andrew Mayne: 比如 NPM 上那些隨便就有人塞進漏洞的包。
Greg Brockman: 對,這一直是個貓鼠游戲:攻擊者越來越精,防御者也越來越強。AI 到來后問題是:到底哪一方更有優(yōu)勢?也許它只是加速了這場貓鼠博弈。但我認為有希望能通過 AI 解鎖一些全新的能力。比如“形式化驗證”,那幾乎是防御的終極武器。讓我興奮的是,不只是繼續(xù)這場永無止境的軍備競賽,而是最終能帶來更穩(wěn)定、更易理解的系統(tǒng)。
我覺得還有類似的機會:讓我們真正理解系統(tǒng)。因為現(xiàn)在我們幾乎處在“人類理解傳統(tǒng)軟件系統(tǒng)的極限邊緣”。
Thibault Sottiaux:我們之所以打造 Codex,其中一個原因就是提升世界現(xiàn)有代碼和基礎設施的質(zhì)量,而不是單純增加代碼量。這一點很關鍵。Codex 能幫你發(fā)現(xiàn) bug,幫你重構,幫你找到更優(yōu)雅、更高性能的實現(xiàn)方式,達到同樣甚至更廣的目標,而不是制造一億行你根本看不懂的代碼。讓我興奮的是,Codex 能幫團隊和個人寫出更好的代碼,成為更好的工程師,最終得到更簡潔的系統(tǒng),卻能完成更多事情。
Greg Brockman: 我認為展望 2030 的一部分是:我們會進入“物質(zhì)充裕”的世界。AI 將讓你幾乎隨心所欲地創(chuàng)造任何東西,比你現(xiàn)在想象的還要容易。
而且不僅僅是在數(shù)字世界,在物理世界也會如此,盡管難以預測。但與此同時,它會是一個“算力極度稀缺”的世界。
我們在 OpenAI 內(nèi)部已經(jīng)體驗到一些端倪:不同研究項目為了算力彼此競爭,研究成敗取決于算力分配。這點難以夸大。我認為未來世界將會是這樣的:你能否實現(xiàn)、創(chuàng)造你腦中的一切,不僅取決于想象力,還取決于背后的算力。因此,我們必須思考如何增加全球算力的供給。我們想提升的不只是智能本身,還有智能的可用性。而歸根結底,這是一個物理基礎設施問題,而不僅僅是軟件問題。
Thibault Sottiaux:以 GPT-5 為例,很了不起的一點是:它已經(jīng)能作為免費版、Plus 版、Pro 版的一部分提供。
也就是說,你用 Plus 訂閱就能用 Codex,你拿到的就是 GPT-5,和別人一樣的版本。這種智能本身已經(jīng)非常強大,同時它在成本上也非常高效。
Andrew Mayne: 讓我印象很深的一點是,我覺得這個模型的能力更強了,但它出來時的定價卻和以前差不多,甚至在某些方面更便宜。這讓我覺得很驚訝,這種模式太棒了。
Greg Brockman: 我認為我們在提升智能水平的同時還能持續(xù)降價,這一點很容易被忽視,被人們當成理所當然,但其實非常瘋狂。比如我們在 O3 上大概降了 80% 的價格。就像你說的,六美分就能買到當年 GPT-3 級別的智能。
Andrew Mayne: 對,當時還有媒體發(fā)文抱怨,說推理模型讓使用成本更高了,但他們沒有把推理模型和過去六七個月的推理模型相比。事實上,這些模型的效率提升非??臁?/span>
Greg Brockman: 而且這種趨勢會繼續(xù)下去?;氐剿懔ο∪钡膯栴},有一點我覺得很有啟發(fā)性:現(xiàn)在大家談的是打造上百萬甚至上千萬顆 GPU 的大規(guī)模集群。但不久的將來,每個人可能都需要一個專屬 GPU 來運行自己的 AI 代理,這完全合理。這樣一來,就意味著我們需要接近 100 億顆 GPU,而現(xiàn)在的規(guī)模還遠遠不夠。我們要思考的問題是,如何增加算力供給,讓它真實存在于世界上,同時又要把有限的算力發(fā)揮到極致。這既是效率問題,也是智能提升的問題??梢哉f,要把這件事真正做成,需要大量的工作和建設。
Thibault Sottiaux:有趣的是,代理與 GPU 的關系在于:GPU 離用戶越近,效果越好。
因為代理在執(zhí)行時,可能在幾分鐘內(nèi)調(diào)用兩百次工具,它需要在 GPU 和你的筆記本之間不斷來回交互,執(zhí)行調(diào)用、獲取上下文,再繼續(xù)反思。如果 GPU 能離用戶更近,那么整個交互和執(zhí)行的延遲就能大大降低,這對體驗是極大的提升。
13.學編程,不如學AI更重要
Andrew Mayne: 很多人都會問到未來、就業(yè)這些問題。是不是還需要學編程?我覺得現(xiàn)在正是學習編程的好時機。
Greg Brockman: 我同意。要學編程,但更重要的是學會如何使用 AI。這才是關鍵。
Thibault Sottiaux:用 Codex 學一門新的編程語言非常有趣。比如我們團隊里有不少人之前不懂 Rust,但我們決定用 Rust 來構建核心框架。結果發(fā)現(xiàn),他們通過 Codex 提問、探索不熟悉的代碼庫,很快就能上手并寫出不錯的結果。當然,我們團隊里也有經(jīng)驗豐富的 Rust 工程師,負責把關和指導。但整體來說,這確實是學習編程的好時機。
Greg Brockman: 我當年是靠 W3Schools 的教程學會編程的,從 PHP、JavaScript、HTML、CSS 開始。我記得當時做應用時,不懂“序列化”這個詞,就自己設計了一種結構,用特殊字符來分隔數(shù)據(jù)。問題是,如果數(shù)據(jù)里剛好也包含那個特殊字符呢?就只能自求多福了(笑)。這類坑,教程一般不會告訴你。但如果有 Codex 做代碼審查,它會直接告訴你:這里用 JSON 序列化庫就行了。這種“替你發(fā)現(xiàn)問題、甚至你自己都不知道要問的問題”,才是讓編程效率大幅提升的關鍵。
Andrew Mayne: 我也經(jīng)常通過看它的解法學到很多,比如發(fā)現(xiàn)新的庫、新的方法。有時候我會故意給它一個很“瘋狂”的任務,比如:用一千行代碼自己寫一個語言模型會怎么做?它可能沒法完全成功,但你能看到它的思路,甚至學到自己不知道存在的方法。
Thibault Sottiaux:我注意到,那些用 AI 編程最成功的人,其實對軟件工程基礎都下過很大功夫。他們會搭好架構,設計合理的代碼結構,然后再讓 AI 輔助。這能讓他們走得更遠,而不是只停留在“讓 AI 寫點代碼”的層面。
Andrew Mayne: 自從 GPT-5 和 Codex 發(fā)布以來,你們看到的使用情況怎么樣?
Thibault Sottiaux:整體使用量增長了 10 倍以上。原本的用戶用得更多,也用得更深入,時長也更長。我們現(xiàn)在把它納入了 PLUS 和 PRO 計劃,配上了很慷慨的使用額度,這也幫助它快速普及。
Greg Brockman: 對,而且我覺得大家的心態(tài)也開始轉變,逐漸意識到 GPT-5 的使用方式和以往不一樣。我們也有自己的一套工具和框架生態(tài),一旦用戶真正理解,就能跑得非??臁?/span>
Andrew Mayne: 今天聊得很棒,非常感謝你們來參加節(jié)目。最后有什么想說的嗎?
Greg Brockman: 謝謝邀請。我們對未來充滿期待,前路還有很多要建設的東西。技術進步依然在指數(shù)曲線上。讓這些工具真正被所有人使用、發(fā)揮作用,是我們使命的核心
Thibault Sottiaux:我也很感謝能來聊這些。我現(xiàn)在和 Codex 的對話時間比和大多數(shù)人還多(笑)。它讓我真切感受到 AGI 的存在,我也希望未來更多人能從中受益。















 
 
 

















 
 
 
 