差點被Ilya摁掉,胎死腹中!ChatGPT爆紅內幕首次公開
自2022年11月30日上線以來,ChatGPT迅速爆紅。
連OpenAI自己都沒料到會這么火。
在OpenAI播客第二期中,ChatGPT負責人Nick Turley和首席研究官Mark Chen首度揭秘這款產品的幕后故事。
從名字的由來,到病毒式傳播的意外驚喜;
從內部激烈的發(fā)布爭論,到模型行為如何調整,他們逐一詳解。
圖片
他們還討論了圖像生成技術的突破、編程方式的變革以及OpenAI的企業(yè)文化等。
這場對話不僅揭示了ChatGPT成功的原因,也展望了AI在醫(yī)療、研究等領域的未來機遇。
??本來只是預覽,沒想到火了!
OpenAI起名爛得出名,在ChatGPT發(fā)布前,這款日后爆火、載入史冊的產品叫「與GPT 3.5暢聊」(Chat with GPT 3.5)。
至于GPT到底是啥意思?
在當時,OpenAI內部眾說紛紜。一半的人認為是「生成式預訓練」(generative pre-training),另一半人認為它是「生成式預訓練Transformer」(generative pre-trained transformer)。
事實上,GPT是后者「generative pre-trained transformer」的縮寫。
OpenAI是如何決定ChatGPT這個酷炫的名字的?
某天,他們意識到「Chat with GPT 3.5」這個稱呼有些拗口,難以發(fā)音。
于是,在發(fā)布前的某個深夜,他們決定簡化一下。
具體的改名時間,難以回憶了:在發(fā)布前的前一天晚上,也可能是發(fā)布當天。
那時候,各種情況已經很混亂了,一團亂麻。
當時GPT 3.5模型已經發(fā)布好幾個月了,ChatGPT只是一個低調的研究預覽。
研究預覽意味著不保證穩(wěn)定性,系統(tǒng)可能會宕機。
因為從能力角度來看,當只看看評估結果時,你會覺得「哦,還是老一套,只是加了一個界面,減少了提示需求,然后聊天功能就出來了」。
圖片
發(fā)布時,OpenAI的博客稱:「ChatGPT是InstructGPT的姊妹模型——后者經專門訓練,能夠精準遵循用戶指令并生成詳盡的回應?!?/p>
日后ChatGPT的火爆,在他們的意料之外。
那么,ChatGPT 是什么時候開始爆火的呢?
毫無疑問,每個人都有自己的記憶,因為那段時期非?;靵y。
對ChatGPT負責人Nick Turley來說,直到發(fā)布后第四天,他才意識到ChatGPT就是「AI界的iPhone」,它將改變世界。
圖片
第一天,數(shù)據(jù)暴漲,他還在想:「儀表盤是不是壞了?日志數(shù)據(jù)肯定不對?!?/p>
第二天,他心想:「哦,奇怪,日本Reddit網友發(fā)現(xiàn)了這個東西,也許這只是小范圍的現(xiàn)象?!?/p>
第三天,他意識到:「好吧,它確實火起來了,但熱度很快就會消失?!?/p>
到了第四天,他才明白:「它將改變世界?!?/p>
不過,對于當時的前沿研究負責人Mark Chen而言,第一天就是意識到ChatGPT不一樣:它的增長速度非常快。
圖片
他認為這是通向通用人工智能(AGI)夢想的里程碑,OpenAI將成為谷歌這樣耳熟能詳?shù)拇笃放啤?/p>
但ChatGPT,真的只是一個很隨意的名字。
只答對了一半問題,它值得發(fā)布嗎?
那OpenAI內部對ChatGPT是否真的「有用」、是否應該發(fā)布,其實意見也不一致。
Mark回憶稱:「并不是所有人都同意發(fā)布。」
甚至在上線前一天晚上,聯(lián)合創(chuàng)始人Ilya對模型提了十個問題,難度都非常大。其中只有五個回答, 他認為還算「可以接受」。
圖片
這成了OpenAI內部的「經典傳說」。
所以,當時他們面臨一個「艱難的抉擇」:「到底要不要上線這個模型?外界會怎么看它?它到底夠不夠好?」
這也反映出類似「知識詛咒」的現(xiàn)象——
當在內部開發(fā)這些模型時,你很快就會對它的能力習以為常。
你很難再設身處地地站在一個沒有參與模型訓練過程的人的角度,去感受那種真正的魔力。
對此,Nick也非常贊同。這也是一個提醒:在AI上,其實OpenAI經常判斷錯誤:
你以為它還不夠好,但現(xiàn)實卻是用戶覺得非常有用。
這就是為什么與現(xiàn)實頻繁接觸如此重要。
因為沒有哪個明確的時間點,你能斷定:「現(xiàn)在模型終于有用了?!?/p>
「有用」是連續(xù)的光譜,并沒有一條清晰的界線。
你可能還在猶豫它是否達到那個「理想點」,但現(xiàn)實的用戶已經從中受益了。
只有真正讓模型接觸用戶,才能理解它的實際價值。這就是「與現(xiàn)實頻繁接觸」的核心含義。
在ChatGPT項目上,開發(fā)團隊非常有原則,就是不讓項目范圍無限制地膨脹。他們堅決要求盡快獲得反饋和數(shù)據(jù)。
這與傳統(tǒng)科技巨頭的發(fā)布慣例不同。
在假期來臨之前,傳統(tǒng)巨頭會發(fā)布一些新東西。比如說如果在11月某個時間點之后,某個項目還沒有上線,那它就得等到來年2月了。好像總有那么一個發(fā)布窗口期。
而OpenAI要靈活得多,這也是ChatGPT首次發(fā)布留下的影響:一旦人們開始使用ChatGPT,改進速度就變得非常驚人。
OpenAI當然可以考慮用更多數(shù)據(jù)、在更大的規(guī)模上訓練,擴大計算資源,但真實用戶使用所帶來的信號,是完全不同的概念。
隨著時間的推移,反饋已經真正成為OpenAI構建產品不可或缺的一部分。它也成了OpenAI安全工作的一部分。
大家總能感覺到,因為猶豫而錯失反饋所帶來的時間成本。
當然,可以閉門造車地反復思量:用戶會更喜歡這個,還是更喜歡那個?
但這完全無法替代把它直接推向市場的檢驗。
最初發(fā)布AI模型的方式,更像是發(fā)布硬件:很少發(fā)布,每次發(fā)布都必須盡善盡美,發(fā)布后就不再更新,然后轉頭去做下一個大項目。它資本密集,周期漫長。
但隨著時間的推移,ChatGPT帶來了轉折點?,F(xiàn)在,OpenAI的理念就是讓模型與真實世界接觸。他們轉向了更像軟件的發(fā)布方式:頻繁更新,快速試錯,靈活回滾,降低單次發(fā)布的風險。
現(xiàn)在,這也成了OpenAI提升模型性能最重要的杠桿之一。
警鐘ChatGPT一夜變「舔狗」
頻繁更新、高度依賴用戶反饋來改進模型,可以更貼近用戶需求,可以更快地創(chuàng)新。但也有問題。
一個典型例子就是模型變得過于諂媚和阿諛奉承。人們突然發(fā)現(xiàn)ChatGPT會說:「嘿,您的智商高達190,您是智慧巨人,您還是宇宙中最帥的人?!?/p>
Mark認為:「這是個典型例子,說明我們高度依賴用戶反饋來改進模型?!顾忉屃司唧w的技術原因。
它背后涉及到「人類反饋強化學習」(RLHF)。比如,當用戶喜歡某個回答時,會點「贊」。
OpenAI訓練模型,傾向于生成更多能獲得點贊的回答。
聽起來很合理,但一旦平衡不好,模型就可能變得過于討好。用戶可能會偏愛被贊美的感覺,模型就開始學會「拍馬屁」,變成「賽博舔狗」。
但其實這種現(xiàn)象只是少數(shù)高級用戶發(fā)現(xiàn)的,而大多數(shù)普通用戶并沒察覺到。
這是依賴用戶反饋最典型的負面例子。
問題被發(fā)現(xiàn)后不久,Joanne Jang就發(fā)文回應,詳細解釋了來龍去脈。
圖片
「諂媚事件」非常重要,是很好的教訓。但從根本上說,Mark Chen認為OpenAI有正確的機制來打造出色的產品。
OpenAI更看重這些能力
而不是PhD文憑
奇點已至,未來人們需要什么樣的技能?
這是現(xiàn)在很普遍的問題。
在自己的團隊中,OpenAI尋找什么樣的技能?
Nick對此思考了很久。
圖片
招聘很難,特別是如果想組建一支規(guī)模小、能力強、謙遜且能快速行動的團隊。他認為,「好奇心」是最重要的特質。
世界瞬息萬變,到底該怎么做?
對大家來說,有太多未知。在開發(fā)AI時,你必須保持一定的謙遜,因為在你真正去研究、去深入、去嘗試理解之前,你并不知道什么是有價值的,什么是有風險的。
現(xiàn)在在工作的方方面面,我們顯然要與AI協(xié)作,不僅僅是編碼。而在這方面的瓶頸,在于提出正確的問題,而不一定是得到答案。
從根本上, 他相信:「我們需要雇傭那些對世界、對我們的事業(yè)抱有深度好奇心的人。我反而不太在乎他們是否有AI領域的經驗?!?/p>
就產品團隊而言,Nick發(fā)現(xiàn):好奇心是成功的最佳預測指標。
即使在研究團隊,OpenAI現(xiàn)在也越來越不看重你是否擁有AI博士學位了。
Mark Chen剛加入OpenAI時,也沒有AI經驗,而現(xiàn)在是首席研究官。
對新員工來說,Mark Chen認為很重要的一點是「自主性」(agency)。在OpenAI,你不會得到事無巨細的指令。
OpenAI真正需要的是,你能主動去發(fā)現(xiàn)問題,然后心想:「嘿,這有個問題,沒人解決,那我就自己上,把它搞定?!?/p>
此外, 他也看重「適應性」。
AI日新月異,變化極快,這是AI領域目前的本質。你需要能夠快速判斷什么是重要的,并迅速調整工作方向。
從根本上說,OpenAI擁有大量具備自主性、能夠「搞定事情」的人——產品發(fā)布還能更快。
這體現(xiàn)在產品、研究和政策等各個方面。當然,「搞定事情」的含義各不相同。
這種高比例的實干家,以及除了在關鍵領域外極少的繁文縟節(jié),正是 OpenAI 的獨特之處。
當從200人增長到2000人時,很多事情可能會改變。在某些方面,OpenAI確實變了。但人們常常低估了OpenAI所做事情的多樣性。
在OpenAI工作,更像是身處一所大學:因為一個共同的理想,大家聚集在這里,但每個人都在做著不同的事情。在午餐或晚餐時,你會坐下來和某人聊天,了解他們正在做的事,然后你會驚嘆:「哇,你做的那個東西太酷了!」
正因為OpenAI涉足的領域如此廣泛,每個具體的項目——無論是 ChatGPT、Sora還是其他——實際上都是由非常精簡、保守的團隊來負責。
比如,開發(fā)ChatGPT的團隊總人數(shù)大約只有200。
這保證了團隊成員高度的自主性,并確保他們擁有所需的資源。
參考資料:
https://www.youtube.com/watch?v=atXyXP3yYZ4