偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI緊急直播,ChatGPT瘋狂開掛「深度研究」!10分鐘爆肝萬字現(xiàn)AGI雛形,刷榜人類最后考試

人工智能 新聞
剛剛,OpenAI再度緊急出手,在發(fā)布會直播全新的「Deep Research」功能。基于o3的推理再加上聯(lián)網(wǎng)搜索,ChatGPT如今可以完成耗費(fèi)人類專家數(shù)小時的復(fù)雜研究了!現(xiàn)在,模型已經(jīng)刷爆「人類最后考試」榜單。

一大早,OpenAI開啟的在線直播,簡直讓人猝不及防。

圖片

OpenAI研究負(fù)責(zé)人Mark Chen帶領(lǐng)三位工作人員,在20多分鐘內(nèi)向我們詳細(xì)演示了Deep Research的功能。

最大亮點(diǎn)之一:只要數(shù)十分鐘,它就能完成人類專家花費(fèi)幾小時的復(fù)雜調(diào)研任務(wù)!

圖片

Mark Chen將之稱為「我們的下一代智能體產(chǎn)品」。

去年,OpenAI就推出了o1,但這些推理模型的一個限制,是它們無法使用工具,因?yàn)槿鄙倭藶g覽互聯(lián)網(wǎng)這個核心能力,

因此,現(xiàn)在OpenAI宣布了一個重大步驟:引入Deep Research!

圖片

奧特曼激動地表示,這就像是擁有一種超能力,可以隨時調(diào)用專家!

圖片

它能夠使用互聯(lián)網(wǎng)進(jìn)行復(fù)雜的研究和推理,并為你提供詳細(xì)報告。它非常強(qiáng)大,能夠完成那些通常需要數(shù)小時、數(shù)天,且花費(fèi)數(shù)百美元的任務(wù)。

需要強(qiáng)調(diào)的是,Deep Research是基于優(yōu)化版o3打造——一個可以瀏覽網(wǎng)頁和執(zhí)行python代碼的o3。

圖片

這是一個可以在互聯(lián)網(wǎng)上進(jìn)行多步驟研究的模型,它能發(fā)現(xiàn)、綜合內(nèi)容,并對之進(jìn)行推理。甚至隨著發(fā)現(xiàn)更多信息,它還會調(diào)整自己的計劃。

也就是說,Deep Research的一大特點(diǎn),就是消除了模型中的延遲限制,它返回結(jié)果可能需要五分鐘,甚至長達(dá)半小時。

模型能在無人監(jiān)督的情況下,以更長時間執(zhí)行自主任務(wù),這儼然就是AGI的雛形。最終,OpenAI的愿景是:模型能自主發(fā)現(xiàn)和發(fā)掘新知識。

圖片

OpenAI研究員表示,「使用Deep Research對我來說真的是一次個人的AGI時刻。只要10分鐘,它就能生成準(zhǔn)確又全面的競爭對手和市場研究報告(還有來源),以前這些東西我得花3個小時才能做完」。

現(xiàn)在,Deep Research會自己上網(wǎng),然后給你一份全面、引用翔實(shí)的研究論文!也就是說,它已經(jīng)妥妥達(dá)到了某領(lǐng)域研究專家的級別。

奧特曼還特意發(fā)文表示,這還不是o3-mini的「One More Thing」,這個小彩蛋過幾天公布。

圖片

今天,Deep Research就將在Pro中推出了(每月100次查詢),之后還會很快在Plus、Team、Education和Enterprise版本中上線。

幫PM完成深度市場調(diào)查報告

從一個按鈕「Deep Research」開始,就可以和Deep Research聊天了。

圖片

OpenAI研究者演示說,自己一直在思考的就是,是否該開發(fā)一款新的語言翻譯app呢?

這個市場調(diào)研,就可以交給Deep Research——

「幫我找到ios和Android的采用率,想要學(xué)習(xí)另一種語言的人的百分比,過去幾年移動普及率的變化,以及發(fā)達(dá)國家和發(fā)展中國家的差異?!?/span>

研究者明確表示,希望自己想要的信息以格式化的報告呈現(xiàn),其中要包含表格和明確建議,說明哪些是最佳的新興機(jī)會。

圖片

這個市場調(diào)查要求,可著實(shí)不簡單。如果是普通打工人來調(diào)研,最少也得花費(fèi)數(shù)小時。

但是Deep Research,立馬就啟動了調(diào)查。

圖片

接下來,研究者進(jìn)一步細(xì)化了自己的要求:給我滲透率的用戶百分比,分析總體使用情況,對其余部分進(jìn)行最好的假設(shè)。

在這里,Deep Research就開始發(fā)揮自己的長處:自主啟動研究過程。

圖片

在這個過程中,它會瀏覽不同網(wǎng)頁,查看相關(guān)圖片、表格、PDF,提取所有信息,來確定下一步要做什么。

圖片

在OpenAI的演示結(jié)束時,Deep Research仍然在進(jìn)行搜索和調(diào)研。此時,它已經(jīng)查看了29個不同來源和大量信息。

可以看出,它的報告中已經(jīng)包含了不同的表格,以及多種呈現(xiàn)數(shù)據(jù)的形式。

圖片

而且,我們能夠點(diǎn)擊查看模型的每一個引用,以及它遇到的不同網(wǎng)站。

圖片

對于不同學(xué)術(shù)領(lǐng)域的市場研究,比如物理學(xué)、計算機(jī)科學(xué)、生物學(xué),Deep Research都很擅長。

OpenAI研究者還展示了一個財務(wù)研究的例子:「我是一個硅谷風(fēng)投公司的投資分析師,想分析民用超音速航空旅行市場,準(zhǔn)備一份詳盡的投資備忘錄?!?/span>

在這個過程中,模型開展了7分鐘的研究,使用了12個不同來源,提供了一份全面的調(diào)查報告。

圖片

下面是一個生物學(xué)方面的例子。

研究者上傳了一篇論文,想找到關(guān)于同一主題的其他論文。

最終Deep Research給出的結(jié)果,得到了生物學(xué)專家的認(rèn)可。

圖片

有趣的東西:買買買

而且,Deep Research能做的絕不僅僅是嚴(yán)肅的學(xué)術(shù)調(diào)查報告,它還可以幫你完成很多有趣、好玩的調(diào)查,比如——我該買什么?

如果我們要入手一件很貴的東西,肯定不敢貿(mào)然下單,而是提前在網(wǎng)上細(xì)細(xì)研讀每一頁說明和買家評論。

比如想在日本滑雪,想買滑雪板,就可以直接讓Deep Research給我們出一份帶表格的報告。

圖片

在這個過程中,我們可以細(xì)化要求:高級滑雪者,有時雪是粉狀的,自己身高很高所以需要長滑雪板,而且顏色要很漂亮。

圖片

最終,Deep Research給出了長篇的報告,還對理想的滑雪板做了詳細(xì)列表。

圖片

也就是說,如果你想要的答案非常具體,那么Deep Research就會非常有效。

甚至,我們可以用Deep Research找出10年前在東京去過的餐廳的名字,或者找到我們忘記名字、但記得其中某集內(nèi)容的電視劇。

除了描述情節(jié)之外,其余的信息就是這是5到10年前的電視劇了。

圖片

結(jié)果,Deep Research居然找出了正確答案!

圖片

優(yōu)化版o3加持,AGI又近一步

去年12月,谷歌最先放出了研究智能體Deep Research。

OpenAI同款Deep Research,也是智能體的一種,能夠針對復(fù)雜任務(wù)上網(wǎng)進(jìn)行多步研究。

圖片

它能在幾十分鐘內(nèi),完成人類需要數(shù)小時才能完成的工作。

只需一個提示,ChatGPT即可查找、分析和綜合數(shù)百個在線資源,創(chuàng)建一份「研究分析師級」的綜合報告。

值得一提的是,Deep Research由即將推出的o3模型的「優(yōu)化版本」加持。

OpenAI通過端到端強(qiáng)化學(xué)習(xí),對它的深度瀏覽和推理任務(wù)進(jìn)行了訓(xùn)練。

該版本專門用于網(wǎng)頁瀏覽和數(shù)據(jù)分析,它利用推理能力來搜索、解釋和分析互聯(lián)網(wǎng)上大量的文本、圖像和PDF,并根據(jù)遇到的信息隨時調(diào)整方向。

要知道,「綜合知識」的能力,是創(chuàng)造新知識的先決條件。

因此,Deep Research的推出,標(biāo)志著OpenAI向更廣泛的目標(biāo)——開發(fā)AGI邁出了重要一步。

OpenAI研究科學(xué)家Hyung Won Chung對此表示:

Deep Research的一個顯著特點(diǎn)就是它極強(qiáng)的耐心。我認(rèn)為它已經(jīng)接近了「超人類耐心」。在這個項(xiàng)目的過程中,我意識到智力和耐心是非常契合的。


就像推理模型o1一樣,Deep Research是通過強(qiáng)化學(xué)習(xí)(RL)進(jìn)行學(xué)習(xí)的。它學(xué)習(xí)如何搜索相關(guān)信息,并通過推理整合知識。當(dāng)scale遇上RL時,魔力就會產(chǎn)生。

圖片

畢竟,OpenAI一直設(shè)想,真正的AGI是能夠自己產(chǎn)出新穎的科學(xué)研究。

幾天前的Reddit在線問答中,奧特曼也發(fā)表了同樣的觀點(diǎn)。

圖片

在我看來,最重要的影響將是加速科學(xué)發(fā)現(xiàn)的速度,我認(rèn)為這是對提高生活質(zhì)量貢獻(xiàn)最大的因素。

一個提示,即出一份專業(yè)報告

那么,Deep Research究竟能做什么?

據(jù)OpenAI介紹,它是專為那些在金融、科學(xué)、政策和工程等領(lǐng)域從事密集知識工作,需要全面、精確和可靠研究的人們而打造的。

對于那些「買買買」購物狂來說,Deep Research還能為你所需研究的購買項(xiàng)目,比如汽車、家電、家具等,提供高度的個性化建議。

而且,每個輸出都有完整的文檔記錄,包含清晰的引用和思維過程總結(jié),方便隨后參考和驗(yàn)證。

尤其是,它特別擅長發(fā)現(xiàn)需要瀏覽眾多網(wǎng)站才能獲取的小眾、非直觀信息。

只需查詢一次,Deep Research就能get要點(diǎn),加快復(fù)雜、耗時的網(wǎng)絡(luò)研究,節(jié)省了大量寶貴的時間。

此外,Deep Research能夠獨(dú)立發(fā)現(xiàn)、推理并整合來自網(wǎng)絡(luò)各種見解。

在技術(shù)層面上,它采用了與o1相同的強(qiáng)化學(xué)習(xí)方法,并進(jìn)行了重要的升級。

它在真實(shí)世界任務(wù)中進(jìn)行了訓(xùn)練,整合了瀏覽器的操作能力,強(qiáng)化了Python工具使用。

雖然o1在編碼、數(shù)學(xué)和其他技術(shù)領(lǐng)域展示了令人印象深刻的能力,但許多現(xiàn)實(shí)世界的挑戰(zhàn)需要從不同在線來源獲取大量背景和信息。

Deep Research在這些推理能力的基礎(chǔ)上彌補(bǔ)了這一差距,使其能夠處理人們在工作和日常生活中面臨的各類問題。

最快5分鐘,圖像數(shù)據(jù)可視化要來

進(jìn)入ChatGPT,可以再聊天對話框中選擇「Deep Research」,直接輸入提示即可。

不論是對流媒體平臺的競爭分析,還是關(guān)于最佳通勤自行車的個性化報告,ChatGPT全能hold住。

甚至,你還可以上傳文件、電子表格,提供與問題更多相關(guān)的背景信息。

一旦開啟對話,側(cè)邊欄會顯示所采取步驟和信息來源的摘要。

一般來說,Deep Research需要5-30分鐘完成一份研究,具體實(shí)踐取決于深入網(wǎng)絡(luò)研究所需的時間。

在此期間,你完全可以去干別的事,ChatGPT完成研究后會主動向你發(fā)送通知,最終的輸出將以報告形式展現(xiàn)在聊天中。

更驚喜的是,未來幾周,OpenAI還將在這些報告中添加嵌入式圖像、數(shù)據(jù)可視化和其他分析輸出,提供更多清晰度和背景信息。

與Deep Research相比,GPT-4o更適合實(shí)時的多模態(tài)對話。

對于需要深入和細(xì)節(jié)的多維度、專業(yè)領(lǐng)域的問題,Deep Research能夠進(jìn)行廣泛探索并為每個論點(diǎn)提供引用來源。

這種能力使其有別于簡單的快速總結(jié),而是能夠提供經(jīng)過充分論證和驗(yàn)證的專業(yè)答案,這些答案的質(zhì)量足以作為正式的工作成果使用。

比如,你想要統(tǒng)計過去10年內(nèi),按GDP排名的前10個發(fā)達(dá)國家和前10個發(fā)展中國家的以下數(shù)據(jù):iOS和安卓系統(tǒng)的使用率、想學(xué)習(xí)另一門語言的人口比例、移動設(shè)備普及率的變化。

GPT-4o僅僅是幫你列了出來,而Deep Research更像是一個報告,甚至給出了完整的可視化表格。

圖片

端到端強(qiáng)化學(xué)習(xí),與o1同源

Deep Research是如何運(yùn)作的?

它通過在各個領(lǐng)域的復(fù)雜瀏覽和推理任務(wù)上,進(jìn)行端到端強(qiáng)化學(xué)習(xí)訓(xùn)練而成。

通過這種訓(xùn)練,它學(xué)會了規(guī)劃和執(zhí)行多步驟路徑,找到所需數(shù)據(jù),必要時可以回溯并對實(shí)時信息做出反應(yīng)。

該模型還能夠?yàn)g覽用戶上傳的文件,使用Python工具繪制和迭代圖表,在回答中嵌入生成的圖表和網(wǎng)站圖片,并引用其來源中的具體句子或段落。

通過這種訓(xùn)練,它在多個關(guān)注現(xiàn)實(shí)世界問題的公開評估中刷新SOTA。

人類最后一場考試,得分26.6%刷爆了

全網(wǎng)爆火的「人類最后一次考試」中,Deep Research取得了26.6%準(zhǔn)確率破紀(jì)錄。

奧特曼驕傲地表示,早在周五,「人類最后一場考試」的最高分是 o3-mini-high,得分為 13%。但到了周日,Deep Research功能的得分已經(jīng)達(dá)到了26.6%。

圖片

要知道這項(xiàng)測試包含了超3,000道「專家級」多選題和簡答題,涵蓋從語言學(xué)到火箭科學(xué)、從古典學(xué)到生態(tài)學(xué)等100多個學(xué)科。

與o1相比,最大的進(jìn)步出現(xiàn)在化學(xué)、人文社會科學(xué)和數(shù)學(xué)領(lǐng)域。

驅(qū)動Deep Research的模型通過在必要時有效尋找專業(yè)信息,展現(xiàn)出類人的解決方案。

圖片

GAIA

在GAIA測試中,這是一個評估AI解決現(xiàn)實(shí)世界問題能力的公開基準(zhǔn)測試。

驅(qū)動Deep Research的模型同樣刷新SOTA,位居外部排行榜榜首。

這些測試包含三個難度等級的問題,成功完成這些任務(wù)需要具備推理能力、多模態(tài)流暢性、網(wǎng)頁瀏覽和工具使用等多項(xiàng)技能。

圖片

下面是一級和三級任務(wù)的對比區(qū)別。

圖片

專家級任務(wù)

另外,在對各個領(lǐng)域?qū)<壹壢蝿?wù)的內(nèi)部評估中,Deep Research能夠自動化完成,需要多個小時的復(fù)雜人工調(diào)查工作。

下圖為專家級任務(wù)與最大工具調(diào)用次數(shù)的對比,顯示出了模型花更多時間思考和瀏覽時,性能就會更強(qiáng)。

這跟OpenAI的理念相吻合:在未來世界里,智能體將花費(fèi)越來越長的時間,完成越來越困難的任務(wù)。

圖片

下面這個案例中,Deep Research進(jìn)行的化學(xué)研究,節(jié)省了大約4小時的時間。

圖片

語言學(xué)方面,更是節(jié)省了5個小時。

圖片

以下兩個圖表可以證實(shí)這一事實(shí)。其中,上圖為不同估算經(jīng)濟(jì)價值范圍的通過率,下圖為完成不同任務(wù)所需時間范圍的通過率。

所謂通過率,即模型在專家級任務(wù)中提供滿意答案的比率,答案由專家評定。

從圖表中可以看出,通過率與估算經(jīng)濟(jì)價值的相關(guān)性,比估計小時數(shù)的相關(guān)性更高,也就是說,模型發(fā)現(xiàn)困難的事,也是對人類來說更耗時的事。

圖片

圖片

局限性

Deep Research仍處于早期階段,同樣存在一些限制。

根據(jù)內(nèi)部評估,它有時會在回答中產(chǎn)生虛構(gòu)的事實(shí)或做出錯誤的推斷,不過,頻率明顯低于現(xiàn)有的ChatGPT模型。

它可能難以區(qū)分權(quán)威信息和謠言,目前在置信度校準(zhǔn)方面表現(xiàn)較弱,往往無法準(zhǔn)確傳達(dá)不確定性。

在發(fā)布時,報告和引用可能存在微小的格式錯誤,任務(wù)可能需要更長時間才能開始。

OpenAI預(yù)計所有這些問題都會隨著使用時間的增加而快速改善。

Pro用戶先上手,Plus一個月內(nèi)上線

OpenAI稱,Deep Research在ChatGPT中非常消耗計算資源。

研究查詢所需時間越長,所需的推理計算就越多。

目前,OpenAI開始向Pro用戶提供優(yōu)化版本,每月最多100次查詢。

接下來,這項(xiàng)功能會逐漸向Plus和Team用戶(帶越一個月內(nèi)),以及Enterprise用戶推出。

未來,所有付費(fèi)用戶都將獲得更高的使用配額。

屆時,OpenAI將發(fā)布一個更快、更具成本效益的深度研究版本,它由更小的模型驅(qū)動,但仍能提供高質(zhì)量的結(jié)果。

下一步:Operator+Deep Research

ChatGPT的Deep Research功能現(xiàn)已在網(wǎng)頁版正式上線,并將在一個月內(nèi)推廣到移動端和桌面端。

如前所述,目前,Deep Research可以訪問實(shí)時互聯(lián)網(wǎng),獲取最新信息,并對上傳的文件進(jìn)行深入分析。

但,這僅僅是開始。

未來,任何一個人將能夠接入更專業(yè)的數(shù)據(jù)源,比如學(xué)術(shù)期刊或企業(yè)內(nèi)部資源。

這種定制化的知識獲取能力,讓ChatGPT真正成為你的專屬智能助手。

最激動人心的是,OpenAI正在醞釀一場更大的革命。

下一步,通過將Deep Research(負(fù)責(zé)異步網(wǎng)絡(luò)調(diào)查)與Operator(負(fù)責(zé)實(shí)際行動執(zhí)行)相結(jié)合,ChatGPT將不再局限于信息處理,能夠?yàn)槊總€人執(zhí)行愈加復(fù)雜的任務(wù)。

這種突破性組合,將開創(chuàng)一個全新的AI個人助手時代。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-01-19 05:49:44

DNS協(xié)議

2025-05-19 08:55:00

Github代碼模型

2023-03-02 09:35:55

chatGPTOpenAI編程

2025-05-14 10:09:12

2025-06-13 09:08:00

2025-02-17 10:41:16

2020-11-23 21:58:07

Spring

2017-06-09 11:20:47

高考AI教育

2021-07-15 06:43:11

Bash調(diào)試腳本

2017-03-01 19:45:15

戴爾服務(wù)器

2025-02-24 08:36:00

2019-08-19 09:10:14

人工智能深度學(xué)習(xí)技術(shù)

2010-11-03 11:01:05

求職面試

2013-09-13 14:08:01

2025-03-25 13:07:36

2022-03-17 09:33:28

AI深度學(xué)習(xí)思考

2023-11-23 13:45:00

模型訓(xùn)練

2024-12-20 08:05:00

2020-10-13 18:22:58

DevOps工具開發(fā)

2014-08-08 09:30:04

android scrollview
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號