OpenAI緊急直播,ChatGPT瘋狂開掛「深度研究」!10分鐘爆肝萬字現(xiàn)AGI雛形,刷榜人類最后考試
一大早,OpenAI開啟的在線直播,簡直讓人猝不及防。
OpenAI研究負(fù)責(zé)人Mark Chen帶領(lǐng)三位工作人員,在20多分鐘內(nèi)向我們詳細(xì)演示了Deep Research的功能。
最大亮點(diǎn)之一:只要數(shù)十分鐘,它就能完成人類專家花費(fèi)幾小時的復(fù)雜調(diào)研任務(wù)!
Mark Chen將之稱為「我們的下一代智能體產(chǎn)品」。
去年,OpenAI就推出了o1,但這些推理模型的一個限制,是它們無法使用工具,因?yàn)槿鄙倭藶g覽互聯(lián)網(wǎng)這個核心能力,
因此,現(xiàn)在OpenAI宣布了一個重大步驟:引入Deep Research!
奧特曼激動地表示,這就像是擁有一種超能力,可以隨時調(diào)用專家!
它能夠使用互聯(lián)網(wǎng)進(jìn)行復(fù)雜的研究和推理,并為你提供詳細(xì)報告。它非常強(qiáng)大,能夠完成那些通常需要數(shù)小時、數(shù)天,且花費(fèi)數(shù)百美元的任務(wù)。
需要強(qiáng)調(diào)的是,Deep Research是基于優(yōu)化版o3打造——一個可以瀏覽網(wǎng)頁和執(zhí)行python代碼的o3。
這是一個可以在互聯(lián)網(wǎng)上進(jìn)行多步驟研究的模型,它能發(fā)現(xiàn)、綜合內(nèi)容,并對之進(jìn)行推理。甚至隨著發(fā)現(xiàn)更多信息,它還會調(diào)整自己的計劃。
也就是說,Deep Research的一大特點(diǎn),就是消除了模型中的延遲限制,它返回結(jié)果可能需要五分鐘,甚至長達(dá)半小時。
模型能在無人監(jiān)督的情況下,以更長時間執(zhí)行自主任務(wù),這儼然就是AGI的雛形。最終,OpenAI的愿景是:模型能自主發(fā)現(xiàn)和發(fā)掘新知識。
OpenAI研究員表示,「使用Deep Research對我來說真的是一次個人的AGI時刻。只要10分鐘,它就能生成準(zhǔn)確又全面的競爭對手和市場研究報告(還有來源),以前這些東西我得花3個小時才能做完」。
現(xiàn)在,Deep Research會自己上網(wǎng),然后給你一份全面、引用翔實(shí)的研究論文!也就是說,它已經(jīng)妥妥達(dá)到了某領(lǐng)域研究專家的級別。
奧特曼還特意發(fā)文表示,這還不是o3-mini的「One More Thing」,這個小彩蛋過幾天公布。
今天,Deep Research就將在Pro中推出了(每月100次查詢),之后還會很快在Plus、Team、Education和Enterprise版本中上線。
幫PM完成深度市場調(diào)查報告
從一個按鈕「Deep Research」開始,就可以和Deep Research聊天了。
OpenAI研究者演示說,自己一直在思考的就是,是否該開發(fā)一款新的語言翻譯app呢?
這個市場調(diào)研,就可以交給Deep Research——
「幫我找到ios和Android的采用率,想要學(xué)習(xí)另一種語言的人的百分比,過去幾年移動普及率的變化,以及發(fā)達(dá)國家和發(fā)展中國家的差異?!?/span>
研究者明確表示,希望自己想要的信息以格式化的報告呈現(xiàn),其中要包含表格和明確建議,說明哪些是最佳的新興機(jī)會。
這個市場調(diào)查要求,可著實(shí)不簡單。如果是普通打工人來調(diào)研,最少也得花費(fèi)數(shù)小時。
但是Deep Research,立馬就啟動了調(diào)查。
接下來,研究者進(jìn)一步細(xì)化了自己的要求:給我滲透率的用戶百分比,分析總體使用情況,對其余部分進(jìn)行最好的假設(shè)。
在這里,Deep Research就開始發(fā)揮自己的長處:自主啟動研究過程。
在這個過程中,它會瀏覽不同網(wǎng)頁,查看相關(guān)圖片、表格、PDF,提取所有信息,來確定下一步要做什么。
在OpenAI的演示結(jié)束時,Deep Research仍然在進(jìn)行搜索和調(diào)研。此時,它已經(jīng)查看了29個不同來源和大量信息。
可以看出,它的報告中已經(jīng)包含了不同的表格,以及多種呈現(xiàn)數(shù)據(jù)的形式。
而且,我們能夠點(diǎn)擊查看模型的每一個引用,以及它遇到的不同網(wǎng)站。
對于不同學(xué)術(shù)領(lǐng)域的市場研究,比如物理學(xué)、計算機(jī)科學(xué)、生物學(xué),Deep Research都很擅長。
OpenAI研究者還展示了一個財務(wù)研究的例子:「我是一個硅谷風(fēng)投公司的投資分析師,想分析民用超音速航空旅行市場,準(zhǔn)備一份詳盡的投資備忘錄?!?/span>
在這個過程中,模型開展了7分鐘的研究,使用了12個不同來源,提供了一份全面的調(diào)查報告。
下面是一個生物學(xué)方面的例子。
研究者上傳了一篇論文,想找到關(guān)于同一主題的其他論文。
最終Deep Research給出的結(jié)果,得到了生物學(xué)專家的認(rèn)可。
有趣的東西:買買買
而且,Deep Research能做的絕不僅僅是嚴(yán)肅的學(xué)術(shù)調(diào)查報告,它還可以幫你完成很多有趣、好玩的調(diào)查,比如——我該買什么?
如果我們要入手一件很貴的東西,肯定不敢貿(mào)然下單,而是提前在網(wǎng)上細(xì)細(xì)研讀每一頁說明和買家評論。
比如想在日本滑雪,想買滑雪板,就可以直接讓Deep Research給我們出一份帶表格的報告。
在這個過程中,我們可以細(xì)化要求:高級滑雪者,有時雪是粉狀的,自己身高很高所以需要長滑雪板,而且顏色要很漂亮。
最終,Deep Research給出了長篇的報告,還對理想的滑雪板做了詳細(xì)列表。
也就是說,如果你想要的答案非常具體,那么Deep Research就會非常有效。
甚至,我們可以用Deep Research找出10年前在東京去過的餐廳的名字,或者找到我們忘記名字、但記得其中某集內(nèi)容的電視劇。
除了描述情節(jié)之外,其余的信息就是這是5到10年前的電視劇了。
結(jié)果,Deep Research居然找出了正確答案!
優(yōu)化版o3加持,AGI又近一步
去年12月,谷歌最先放出了研究智能體Deep Research。
OpenAI同款Deep Research,也是智能體的一種,能夠針對復(fù)雜任務(wù)上網(wǎng)進(jìn)行多步研究。
它能在幾十分鐘內(nèi),完成人類需要數(shù)小時才能完成的工作。
只需一個提示,ChatGPT即可查找、分析和綜合數(shù)百個在線資源,創(chuàng)建一份「研究分析師級」的綜合報告。
值得一提的是,Deep Research由即將推出的o3模型的「優(yōu)化版本」加持。
OpenAI通過端到端強(qiáng)化學(xué)習(xí),對它的深度瀏覽和推理任務(wù)進(jìn)行了訓(xùn)練。
該版本專門用于網(wǎng)頁瀏覽和數(shù)據(jù)分析,它利用推理能力來搜索、解釋和分析互聯(lián)網(wǎng)上大量的文本、圖像和PDF,并根據(jù)遇到的信息隨時調(diào)整方向。
要知道,「綜合知識」的能力,是創(chuàng)造新知識的先決條件。
因此,Deep Research的推出,標(biāo)志著OpenAI向更廣泛的目標(biāo)——開發(fā)AGI邁出了重要一步。
OpenAI研究科學(xué)家Hyung Won Chung對此表示:
Deep Research的一個顯著特點(diǎn)就是它極強(qiáng)的耐心。我認(rèn)為它已經(jīng)接近了「超人類耐心」。在這個項(xiàng)目的過程中,我意識到智力和耐心是非常契合的。
就像推理模型o1一樣,Deep Research是通過強(qiáng)化學(xué)習(xí)(RL)進(jìn)行學(xué)習(xí)的。它學(xué)習(xí)如何搜索相關(guān)信息,并通過推理整合知識。當(dāng)scale遇上RL時,魔力就會產(chǎn)生。
畢竟,OpenAI一直設(shè)想,真正的AGI是能夠自己產(chǎn)出新穎的科學(xué)研究。
幾天前的Reddit在線問答中,奧特曼也發(fā)表了同樣的觀點(diǎn)。
在我看來,最重要的影響將是加速科學(xué)發(fā)現(xiàn)的速度,我認(rèn)為這是對提高生活質(zhì)量貢獻(xiàn)最大的因素。
一個提示,即出一份專業(yè)報告
那么,Deep Research究竟能做什么?
據(jù)OpenAI介紹,它是專為那些在金融、科學(xué)、政策和工程等領(lǐng)域從事密集知識工作,需要全面、精確和可靠研究的人們而打造的。
對于那些「買買買」購物狂來說,Deep Research還能為你所需研究的購買項(xiàng)目,比如汽車、家電、家具等,提供高度的個性化建議。
而且,每個輸出都有完整的文檔記錄,包含清晰的引用和思維過程總結(jié),方便隨后參考和驗(yàn)證。
尤其是,它特別擅長發(fā)現(xiàn)需要瀏覽眾多網(wǎng)站才能獲取的小眾、非直觀信息。
只需查詢一次,Deep Research就能get要點(diǎn),加快復(fù)雜、耗時的網(wǎng)絡(luò)研究,節(jié)省了大量寶貴的時間。
此外,Deep Research能夠獨(dú)立發(fā)現(xiàn)、推理并整合來自網(wǎng)絡(luò)各種見解。
在技術(shù)層面上,它采用了與o1相同的強(qiáng)化學(xué)習(xí)方法,并進(jìn)行了重要的升級。
它在真實(shí)世界任務(wù)中進(jìn)行了訓(xùn)練,整合了瀏覽器的操作能力,強(qiáng)化了Python工具使用。
雖然o1在編碼、數(shù)學(xué)和其他技術(shù)領(lǐng)域展示了令人印象深刻的能力,但許多現(xiàn)實(shí)世界的挑戰(zhàn)需要從不同在線來源獲取大量背景和信息。
Deep Research在這些推理能力的基礎(chǔ)上彌補(bǔ)了這一差距,使其能夠處理人們在工作和日常生活中面臨的各類問題。
最快5分鐘,圖像數(shù)據(jù)可視化要來
進(jìn)入ChatGPT,可以再聊天對話框中選擇「Deep Research」,直接輸入提示即可。
不論是對流媒體平臺的競爭分析,還是關(guān)于最佳通勤自行車的個性化報告,ChatGPT全能hold住。
甚至,你還可以上傳文件、電子表格,提供與問題更多相關(guān)的背景信息。
一旦開啟對話,側(cè)邊欄會顯示所采取步驟和信息來源的摘要。
一般來說,Deep Research需要5-30分鐘完成一份研究,具體實(shí)踐取決于深入網(wǎng)絡(luò)研究所需的時間。
在此期間,你完全可以去干別的事,ChatGPT完成研究后會主動向你發(fā)送通知,最終的輸出將以報告形式展現(xiàn)在聊天中。
更驚喜的是,未來幾周,OpenAI還將在這些報告中添加嵌入式圖像、數(shù)據(jù)可視化和其他分析輸出,提供更多清晰度和背景信息。
與Deep Research相比,GPT-4o更適合實(shí)時的多模態(tài)對話。
對于需要深入和細(xì)節(jié)的多維度、專業(yè)領(lǐng)域的問題,Deep Research能夠進(jìn)行廣泛探索并為每個論點(diǎn)提供引用來源。
這種能力使其有別于簡單的快速總結(jié),而是能夠提供經(jīng)過充分論證和驗(yàn)證的專業(yè)答案,這些答案的質(zhì)量足以作為正式的工作成果使用。
比如,你想要統(tǒng)計過去10年內(nèi),按GDP排名的前10個發(fā)達(dá)國家和前10個發(fā)展中國家的以下數(shù)據(jù):iOS和安卓系統(tǒng)的使用率、想學(xué)習(xí)另一門語言的人口比例、移動設(shè)備普及率的變化。
GPT-4o僅僅是幫你列了出來,而Deep Research更像是一個報告,甚至給出了完整的可視化表格。
端到端強(qiáng)化學(xué)習(xí),與o1同源
Deep Research是如何運(yùn)作的?
它通過在各個領(lǐng)域的復(fù)雜瀏覽和推理任務(wù)上,進(jìn)行端到端強(qiáng)化學(xué)習(xí)訓(xùn)練而成。
通過這種訓(xùn)練,它學(xué)會了規(guī)劃和執(zhí)行多步驟路徑,找到所需數(shù)據(jù),必要時可以回溯并對實(shí)時信息做出反應(yīng)。
該模型還能夠?yàn)g覽用戶上傳的文件,使用Python工具繪制和迭代圖表,在回答中嵌入生成的圖表和網(wǎng)站圖片,并引用其來源中的具體句子或段落。
通過這種訓(xùn)練,它在多個關(guān)注現(xiàn)實(shí)世界問題的公開評估中刷新SOTA。
人類最后一場考試,得分26.6%刷爆了
全網(wǎng)爆火的「人類最后一次考試」中,Deep Research取得了26.6%準(zhǔn)確率破紀(jì)錄。
奧特曼驕傲地表示,早在周五,「人類最后一場考試」的最高分是 o3-mini-high,得分為 13%。但到了周日,Deep Research功能的得分已經(jīng)達(dá)到了26.6%。
要知道這項(xiàng)測試包含了超3,000道「專家級」多選題和簡答題,涵蓋從語言學(xué)到火箭科學(xué)、從古典學(xué)到生態(tài)學(xué)等100多個學(xué)科。
與o1相比,最大的進(jìn)步出現(xiàn)在化學(xué)、人文社會科學(xué)和數(shù)學(xué)領(lǐng)域。
驅(qū)動Deep Research的模型通過在必要時有效尋找專業(yè)信息,展現(xiàn)出類人的解決方案。
GAIA
在GAIA測試中,這是一個評估AI解決現(xiàn)實(shí)世界問題能力的公開基準(zhǔn)測試。
驅(qū)動Deep Research的模型同樣刷新SOTA,位居外部排行榜榜首。
這些測試包含三個難度等級的問題,成功完成這些任務(wù)需要具備推理能力、多模態(tài)流暢性、網(wǎng)頁瀏覽和工具使用等多項(xiàng)技能。
下面是一級和三級任務(wù)的對比區(qū)別。
專家級任務(wù)
另外,在對各個領(lǐng)域?qū)<壹壢蝿?wù)的內(nèi)部評估中,Deep Research能夠自動化完成,需要多個小時的復(fù)雜人工調(diào)查工作。
下圖為專家級任務(wù)與最大工具調(diào)用次數(shù)的對比,顯示出了模型花更多時間思考和瀏覽時,性能就會更強(qiáng)。
這跟OpenAI的理念相吻合:在未來世界里,智能體將花費(fèi)越來越長的時間,完成越來越困難的任務(wù)。
下面這個案例中,Deep Research進(jìn)行的化學(xué)研究,節(jié)省了大約4小時的時間。
語言學(xué)方面,更是節(jié)省了5個小時。
以下兩個圖表可以證實(shí)這一事實(shí)。其中,上圖為不同估算經(jīng)濟(jì)價值范圍的通過率,下圖為完成不同任務(wù)所需時間范圍的通過率。
所謂通過率,即模型在專家級任務(wù)中提供滿意答案的比率,答案由專家評定。
從圖表中可以看出,通過率與估算經(jīng)濟(jì)價值的相關(guān)性,比估計小時數(shù)的相關(guān)性更高,也就是說,模型發(fā)現(xiàn)困難的事,也是對人類來說更耗時的事。
局限性
Deep Research仍處于早期階段,同樣存在一些限制。
根據(jù)內(nèi)部評估,它有時會在回答中產(chǎn)生虛構(gòu)的事實(shí)或做出錯誤的推斷,不過,頻率明顯低于現(xiàn)有的ChatGPT模型。
它可能難以區(qū)分權(quán)威信息和謠言,目前在置信度校準(zhǔn)方面表現(xiàn)較弱,往往無法準(zhǔn)確傳達(dá)不確定性。
在發(fā)布時,報告和引用可能存在微小的格式錯誤,任務(wù)可能需要更長時間才能開始。
OpenAI預(yù)計所有這些問題都會隨著使用時間的增加而快速改善。
Pro用戶先上手,Plus一個月內(nèi)上線
OpenAI稱,Deep Research在ChatGPT中非常消耗計算資源。
研究查詢所需時間越長,所需的推理計算就越多。
目前,OpenAI開始向Pro用戶提供優(yōu)化版本,每月最多100次查詢。
接下來,這項(xiàng)功能會逐漸向Plus和Team用戶(帶越一個月內(nèi)),以及Enterprise用戶推出。
未來,所有付費(fèi)用戶都將獲得更高的使用配額。
屆時,OpenAI將發(fā)布一個更快、更具成本效益的深度研究版本,它由更小的模型驅(qū)動,但仍能提供高質(zhì)量的結(jié)果。
下一步:Operator+Deep Research
ChatGPT的Deep Research功能現(xiàn)已在網(wǎng)頁版正式上線,并將在一個月內(nèi)推廣到移動端和桌面端。
如前所述,目前,Deep Research可以訪問實(shí)時互聯(lián)網(wǎng),獲取最新信息,并對上傳的文件進(jìn)行深入分析。
但,這僅僅是開始。
未來,任何一個人將能夠接入更專業(yè)的數(shù)據(jù)源,比如學(xué)術(shù)期刊或企業(yè)內(nèi)部資源。
這種定制化的知識獲取能力,讓ChatGPT真正成為你的專屬智能助手。
最激動人心的是,OpenAI正在醞釀一場更大的革命。
下一步,通過將Deep Research(負(fù)責(zé)異步網(wǎng)絡(luò)調(diào)查)與Operator(負(fù)責(zé)實(shí)際行動執(zhí)行)相結(jié)合,ChatGPT將不再局限于信息處理,能夠?yàn)槊總€人執(zhí)行愈加復(fù)雜的任務(wù)。
這種突破性組合,將開創(chuàng)一個全新的AI個人助手時代。