偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<mark id="dskbb"><big id="dskbb"><tbody id="dskbb"></tbody></big></mark>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

OpenAI緊急直播，ChatGPT瘋狂開掛「深度研究」！10分鐘爆肝萬字現(xiàn)AGI雛形，刷榜人類最后考試

作者：新智元 2025-02-03 12:29:29

人工智能新聞

剛剛，OpenAI再度緊急出手，在發(fā)布會(huì)直播全新的「Deep Research」功能?；趏3的推理再加上聯(lián)網(wǎng)搜索，ChatGPT如今可以完成耗費(fèi)人類專家數(shù)小時(shí)的復(fù)雜研究了！現(xiàn)在，模型已經(jīng)刷爆「人類最后考試」榜單。

一大早，OpenAI開啟的在線直播，簡(jiǎn)直讓人猝不及防。

OpenAI研究負(fù)責(zé)人Mark Chen帶領(lǐng)三位工作人員，在20多分鐘內(nèi)向我們?cè)敿?xì)演示了Deep Research的功能。

最大亮點(diǎn)之一：只要數(shù)十分鐘，它就能完成人類專家花費(fèi)幾小時(shí)的復(fù)雜調(diào)研任務(wù)！

Mark Chen將之稱為「我們的下一代智能體產(chǎn)品」。

去年，OpenAI就推出了o1，但這些推理模型的一個(gè)限制，是它們無法使用工具，因?yàn)槿鄙倭藶g覽互聯(lián)網(wǎng)這個(gè)核心能力，

因此，現(xiàn)在OpenAI宣布了一個(gè)重大步驟：引入Deep Research！

奧特曼激動(dòng)地表示，這就像是擁有一種超能力，可以隨時(shí)調(diào)用專家！

它能夠使用互聯(lián)網(wǎng)進(jìn)行復(fù)雜的研究和推理，并為你提供詳細(xì)報(bào)告。它非常強(qiáng)大，能夠完成那些通常需要數(shù)小時(shí)、數(shù)天，且花費(fèi)數(shù)百美元的任務(wù)。

需要強(qiáng)調(diào)的是，Deep Research是基于優(yōu)化版o3打造——一個(gè)可以瀏覽網(wǎng)頁和執(zhí)行python代碼的o3。

這是一個(gè)可以在互聯(lián)網(wǎng)上進(jìn)行多步驟研究的模型，它能發(fā)現(xiàn)、綜合內(nèi)容，并對(duì)之進(jìn)行推理。甚至隨著發(fā)現(xiàn)更多信息，它還會(huì)調(diào)整自己的計(jì)劃。

也就是說，Deep Research的一大特點(diǎn)，就是消除了模型中的延遲限制，它返回結(jié)果可能需要五分鐘，甚至長(zhǎng)達(dá)半小時(shí)。

模型能在無人監(jiān)督的情況下，以更長(zhǎng)時(shí)間執(zhí)行自主任務(wù)，這儼然就是AGI的雛形。最終，OpenAI的愿景是：模型能自主發(fā)現(xiàn)和發(fā)掘新知識(shí)。

OpenAI研究員表示，「使用Deep Research對(duì)我來說真的是一次個(gè)人的AGI時(shí)刻。只要10分鐘，它就能生成準(zhǔn)確又全面的競(jìng)爭(zhēng)對(duì)手和市場(chǎng)研究報(bào)告（還有來源），以前這些東西我得花3個(gè)小時(shí)才能做完」。

現(xiàn)在，Deep Research會(huì)自己上網(wǎng)，然后給你一份全面、引用翔實(shí)的研究論文！也就是說，它已經(jīng)妥妥達(dá)到了某領(lǐng)域研究專家的級(jí)別。

奧特曼還特意發(fā)文表示，這還不是o3-mini的「One More Thing」，這個(gè)小彩蛋過幾天公布。

今天，Deep Research就將在Pro中推出了（每月100次查詢），之后還會(huì)很快在Plus、Team、Education和Enterprise版本中上線。

幫PM完成深度市場(chǎng)調(diào)查報(bào)告

從一個(gè)按鈕「Deep Research」開始，就可以和Deep Research聊天了。

OpenAI研究者演示說，自己一直在思考的就是，是否該開發(fā)一款新的語言翻譯app呢？

這個(gè)市場(chǎng)調(diào)研，就可以交給Deep Research——

「幫我找到ios和Android的采用率，想要學(xué)習(xí)另一種語言的人的百分比，過去幾年移動(dòng)普及率的變化，以及發(fā)達(dá)國(guó)家和發(fā)展中國(guó)家的差異。」

研究者明確表示，希望自己想要的信息以格式化的報(bào)告呈現(xiàn)，其中要包含表格和明確建議，說明哪些是最佳的新興機(jī)會(huì)。

這個(gè)市場(chǎng)調(diào)查要求，可著實(shí)不簡(jiǎn)單。如果是普通打工人來調(diào)研，最少也得花費(fèi)數(shù)小時(shí)。

但是Deep Research，立馬就啟動(dòng)了調(diào)查。

接下來，研究者進(jìn)一步細(xì)化了自己的要求：給我滲透率的用戶百分比，分析總體使用情況，對(duì)其余部分進(jìn)行最好的假設(shè)。

在這里，Deep Research就開始發(fā)揮自己的長(zhǎng)處：自主啟動(dòng)研究過程。

在這個(gè)過程中，它會(huì)瀏覽不同網(wǎng)頁，查看相關(guān)圖片、表格、PDF，提取所有信息，來確定下一步要做什么。

在OpenAI的演示結(jié)束時(shí)，Deep Research仍然在進(jìn)行搜索和調(diào)研。此時(shí)，它已經(jīng)查看了29個(gè)不同來源和大量信息。

可以看出，它的報(bào)告中已經(jīng)包含了不同的表格，以及多種呈現(xiàn)數(shù)據(jù)的形式。

而且，我們能夠點(diǎn)擊查看模型的每一個(gè)引用，以及它遇到的不同網(wǎng)站。

對(duì)于不同學(xué)術(shù)領(lǐng)域的市場(chǎng)研究，比如物理學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)，Deep Research都很擅長(zhǎng)。

OpenAI研究者還展示了一個(gè)財(cái)務(wù)研究的例子：「我是一個(gè)硅谷風(fēng)投公司的投資分析師，想分析民用超音速航空旅行市場(chǎng)，準(zhǔn)備一份詳盡的投資備忘錄?！?/span>

在這個(gè)過程中，模型開展了7分鐘的研究，使用了12個(gè)不同來源，提供了一份全面的調(diào)查報(bào)告。

下面是一個(gè)生物學(xué)方面的例子。

研究者上傳了一篇論文，想找到關(guān)于同一主題的其他論文。

最終Deep Research給出的結(jié)果，得到了生物學(xué)專家的認(rèn)可。

有趣的東西：買買買

而且，Deep Research能做的絕不僅僅是嚴(yán)肅的學(xué)術(shù)調(diào)查報(bào)告，它還可以幫你完成很多有趣、好玩的調(diào)查，比如——我該買什么？

如果我們要入手一件很貴的東西，肯定不敢貿(mào)然下單，而是提前在網(wǎng)上細(xì)細(xì)研讀每一頁說明和買家評(píng)論。

比如想在日本滑雪，想買滑雪板，就可以直接讓Deep Research給我們出一份帶表格的報(bào)告。

在這個(gè)過程中，我們可以細(xì)化要求：高級(jí)滑雪者，有時(shí)雪是粉狀的，自己身高很高所以需要長(zhǎng)滑雪板，而且顏色要很漂亮。

最終，Deep Research給出了長(zhǎng)篇的報(bào)告，還對(duì)理想的滑雪板做了詳細(xì)列表。

也就是說，如果你想要的答案非常具體，那么Deep Research就會(huì)非常有效。

甚至，我們可以用Deep Research找出10年前在東京去過的餐廳的名字，或者找到我們忘記名字、但記得其中某集內(nèi)容的電視劇。

除了描述情節(jié)之外，其余的信息就是這是5到10年前的電視劇了。

結(jié)果，Deep Research居然找出了正確答案！

優(yōu)化版o3加持，AGI又近一步

去年12月，谷歌最先放出了研究智能體Deep Research。

OpenAI同款Deep Research，也是智能體的一種，能夠針對(duì)復(fù)雜任務(wù)上網(wǎng)進(jìn)行多步研究。

它能在幾十分鐘內(nèi)，完成人類需要數(shù)小時(shí)才能完成的工作。

只需一個(gè)提示，ChatGPT即可查找、分析和綜合數(shù)百個(gè)在線資源，創(chuàng)建一份「研究分析師級(jí)」的綜合報(bào)告。

值得一提的是，Deep Research由即將推出的o3模型的「優(yōu)化版本」加持。

OpenAI通過端到端強(qiáng)化學(xué)習(xí)，對(duì)它的深度瀏覽和推理任務(wù)進(jìn)行了訓(xùn)練。

該版本專門用于網(wǎng)頁瀏覽和數(shù)據(jù)分析，它利用推理能力來搜索、解釋和分析互聯(lián)網(wǎng)上大量的文本、圖像和PDF，并根據(jù)遇到的信息隨時(shí)調(diào)整方向。

要知道，「綜合知識(shí)」的能力，是創(chuàng)造新知識(shí)的先決條件。

因此，Deep Research的推出，標(biāo)志著OpenAI向更廣泛的目標(biāo)——開發(fā)AGI邁出了重要一步。

OpenAI研究科學(xué)家Hyung Won Chung對(duì)此表示：

Deep Research的一個(gè)顯著特點(diǎn)就是它極強(qiáng)的耐心。我認(rèn)為它已經(jīng)接近了「超人類耐心」。在這個(gè)項(xiàng)目的過程中，我意識(shí)到智力和耐心是非常契合的。

就像推理模型o1一樣，Deep Research是通過強(qiáng)化學(xué)習(xí)（RL）進(jìn)行學(xué)習(xí)的。它學(xué)習(xí)如何搜索相關(guān)信息，并通過推理整合知識(shí)。當(dāng)scale遇上RL時(shí)，魔力就會(huì)產(chǎn)生。

畢竟，OpenAI一直設(shè)想，真正的AGI是能夠自己產(chǎn)出新穎的科學(xué)研究。

幾天前的Reddit在線問答中，奧特曼也發(fā)表了同樣的觀點(diǎn)。

在我看來，最重要的影響將是加速科學(xué)發(fā)現(xiàn)的速度，我認(rèn)為這是對(duì)提高生活質(zhì)量貢獻(xiàn)最大的因素。

一個(gè)提示，即出一份專業(yè)報(bào)告

那么，Deep Research究竟能做什么？

據(jù)OpenAI介紹，它是專為那些在金融、科學(xué)、政策和工程等領(lǐng)域從事密集知識(shí)工作，需要全面、精確和可靠研究的人們而打造的。

對(duì)于那些「買買買」購物狂來說，Deep Research還能為你所需研究的購買項(xiàng)目，比如汽車、家電、家具等，提供高度的個(gè)性化建議。

而且，每個(gè)輸出都有完整的文檔記錄，包含清晰的引用和思維過程總結(jié)，方便隨后參考和驗(yàn)證。

尤其是，它特別擅長(zhǎng)發(fā)現(xiàn)需要瀏覽眾多網(wǎng)站才能獲取的小眾、非直觀信息。

只需查詢一次，Deep Research就能get要點(diǎn)，加快復(fù)雜、耗時(shí)的網(wǎng)絡(luò)研究，節(jié)省了大量寶貴的時(shí)間。

此外，Deep Research能夠獨(dú)立發(fā)現(xiàn)、推理并整合來自網(wǎng)絡(luò)各種見解。

在技術(shù)層面上，它采用了與o1相同的強(qiáng)化學(xué)習(xí)方法，并進(jìn)行了重要的升級(jí)。

它在真實(shí)世界任務(wù)中進(jìn)行了訓(xùn)練，整合了瀏覽器的操作能力，強(qiáng)化了Python工具使用。

雖然o1在編碼、數(shù)學(xué)和其他技術(shù)領(lǐng)域展示了令人印象深刻的能力，但許多現(xiàn)實(shí)世界的挑戰(zhàn)需要從不同在線來源獲取大量背景和信息。

Deep Research在這些推理能力的基礎(chǔ)上彌補(bǔ)了這一差距，使其能夠處理人們?cè)诠ぷ骱腿粘Ｉ钪忻媾R的各類問題。

最快5分鐘，圖像數(shù)據(jù)可視化要來

進(jìn)入ChatGPT，可以再聊天對(duì)話框中選擇「Deep Research」，直接輸入提示即可。

不論是對(duì)流媒體平臺(tái)的競(jìng)爭(zhēng)分析，還是關(guān)于最佳通勤自行車的個(gè)性化報(bào)告，ChatGPT全能hold住。

甚至，你還可以上傳文件、電子表格，提供與問題更多相關(guān)的背景信息。

一旦開啟對(duì)話，側(cè)邊欄會(huì)顯示所采取步驟和信息來源的摘要。

一般來說，Deep Research需要5-30分鐘完成一份研究，具體實(shí)踐取決于深入網(wǎng)絡(luò)研究所需的時(shí)間。

在此期間，你完全可以去干別的事，ChatGPT完成研究后會(huì)主動(dòng)向你發(fā)送通知，最終的輸出將以報(bào)告形式展現(xiàn)在聊天中。

更驚喜的是，未來幾周，OpenAI還將在這些報(bào)告中添加嵌入式圖像、數(shù)據(jù)可視化和其他分析輸出，提供更多清晰度和背景信息。

與Deep Research相比，GPT-4o更適合實(shí)時(shí)的多模態(tài)對(duì)話。

對(duì)于需要深入和細(xì)節(jié)的多維度、專業(yè)領(lǐng)域的問題，Deep Research能夠進(jìn)行廣泛探索并為每個(gè)論點(diǎn)提供引用來源。

這種能力使其有別于簡(jiǎn)單的快速總結(jié)，而是能夠提供經(jīng)過充分論證和驗(yàn)證的專業(yè)答案，這些答案的質(zhì)量足以作為正式的工作成果使用。

比如，你想要統(tǒng)計(jì)過去10年內(nèi)，按GDP排名的前10個(gè)發(fā)達(dá)國(guó)家和前10個(gè)發(fā)展中國(guó)家的以下數(shù)據(jù)：iOS和安卓系統(tǒng)的使用率、想學(xué)習(xí)另一門語言的人口比例、移動(dòng)設(shè)備普及率的變化。

GPT-4o僅僅是幫你列了出來，而Deep Research更像是一個(gè)報(bào)告，甚至給出了完整的可視化表格。

端到端強(qiáng)化學(xué)習(xí)，與o1同源

Deep Research是如何運(yùn)作的？

它通過在各個(gè)領(lǐng)域的復(fù)雜瀏覽和推理任務(wù)上，進(jìn)行端到端強(qiáng)化學(xué)習(xí)訓(xùn)練而成。

通過這種訓(xùn)練，它學(xué)會(huì)了規(guī)劃和執(zhí)行多步驟路徑，找到所需數(shù)據(jù)，必要時(shí)可以回溯并對(duì)實(shí)時(shí)信息做出反應(yīng)。

該模型還能夠?yàn)g覽用戶上傳的文件，使用Python工具繪制和迭代圖表，在回答中嵌入生成的圖表和網(wǎng)站圖片，并引用其來源中的具體句子或段落。

通過這種訓(xùn)練，它在多個(gè)關(guān)注現(xiàn)實(shí)世界問題的公開評(píng)估中刷新SOTA。

人類最后一場(chǎng)考試，得分26.6%刷爆了

全網(wǎng)爆火的「人類最后一次考試」中，Deep Research取得了26.6%準(zhǔn)確率破紀(jì)錄。

奧特曼驕傲地表示，早在周五，「人類最后一場(chǎng)考試」的最高分是 o3-mini-high，得分為 13%。但到了周日，Deep Research功能的得分已經(jīng)達(dá)到了26.6%。

要知道這項(xiàng)測(cè)試包含了超3,000道「專家級(jí)」多選題和簡(jiǎn)答題，涵蓋從語言學(xué)到火箭科學(xué)、從古典學(xué)到生態(tài)學(xué)等100多個(gè)學(xué)科。

與o1相比，最大的進(jìn)步出現(xiàn)在化學(xué)、人文社會(huì)科學(xué)和數(shù)學(xué)領(lǐng)域。

驅(qū)動(dòng)Deep Research的模型通過在必要時(shí)有效尋找專業(yè)信息，展現(xiàn)出類人的解決方案。

GAIA

在GAIA測(cè)試中，這是一個(gè)評(píng)估AI解決現(xiàn)實(shí)世界問題能力的公開基準(zhǔn)測(cè)試。

驅(qū)動(dòng)Deep Research的模型同樣刷新SOTA，位居外部排行榜榜首。

這些測(cè)試包含三個(gè)難度等級(jí)的問題，成功完成這些任務(wù)需要具備推理能力、多模態(tài)流暢性、網(wǎng)頁瀏覽和工具使用等多項(xiàng)技能。

下面是一級(jí)和三級(jí)任務(wù)的對(duì)比區(qū)別。

專家級(jí)任務(wù)

另外，在對(duì)各個(gè)領(lǐng)域?qū)＜壹?jí)任務(wù)的內(nèi)部評(píng)估中，Deep Research能夠自動(dòng)化完成，需要多個(gè)小時(shí)的復(fù)雜人工調(diào)查工作。

下圖為專家級(jí)任務(wù)與最大工具調(diào)用次數(shù)的對(duì)比，顯示出了模型花更多時(shí)間思考和瀏覽時(shí)，性能就會(huì)更強(qiáng)。

這跟OpenAI的理念相吻合：在未來世界里，智能體將花費(fèi)越來越長(zhǎng)的時(shí)間，完成越來越困難的任務(wù)。

下面這個(gè)案例中，Deep Research進(jìn)行的化學(xué)研究，節(jié)省了大約4小時(shí)的時(shí)間。

語言學(xué)方面，更是節(jié)省了5個(gè)小時(shí)。

以下兩個(gè)圖表可以證實(shí)這一事實(shí)。其中，上圖為不同估算經(jīng)濟(jì)價(jià)值范圍的通過率，下圖為完成不同任務(wù)所需時(shí)間范圍的通過率。

所謂通過率，即模型在專家級(jí)任務(wù)中提供滿意答案的比率，答案由專家評(píng)定。

從圖表中可以看出，通過率與估算經(jīng)濟(jì)價(jià)值的相關(guān)性，比估計(jì)小時(shí)數(shù)的相關(guān)性更高，也就是說，模型發(fā)現(xiàn)困難的事，也是對(duì)人類來說更耗時(shí)的事。

局限性

Deep Research仍處于早期階段，同樣存在一些限制。

根據(jù)內(nèi)部評(píng)估，它有時(shí)會(huì)在回答中產(chǎn)生虛構(gòu)的事實(shí)或做出錯(cuò)誤的推斷，不過，頻率明顯低于現(xiàn)有的ChatGPT模型。

它可能難以區(qū)分權(quán)威信息和謠言，目前在置信度校準(zhǔn)方面表現(xiàn)較弱，往往無法準(zhǔn)確傳達(dá)不確定性。

在發(fā)布時(shí)，報(bào)告和引用可能存在微小的格式錯(cuò)誤，任務(wù)可能需要更長(zhǎng)時(shí)間才能開始。

OpenAI預(yù)計(jì)所有這些問題都會(huì)隨著使用時(shí)間的增加而快速改善。

Pro用戶先上手，Plus一個(gè)月內(nèi)上線

OpenAI稱，Deep Research在ChatGPT中非常消耗計(jì)算資源。

研究查詢所需時(shí)間越長(zhǎng)，所需的推理計(jì)算就越多。

目前，OpenAI開始向Pro用戶提供優(yōu)化版本，每月最多100次查詢。

接下來，這項(xiàng)功能會(huì)逐漸向Plus和Team用戶（帶越一個(gè)月內(nèi)），以及Enterprise用戶推出。

未來，所有付費(fèi)用戶都將獲得更高的使用配額。

屆時(shí)，OpenAI將發(fā)布一個(gè)更快、更具成本效益的深度研究版本，它由更小的模型驅(qū)動(dòng)，但仍能提供高質(zhì)量的結(jié)果。

下一步：Operator+Deep Research

ChatGPT的Deep Research功能現(xiàn)已在網(wǎng)頁版正式上線，并將在一個(gè)月內(nèi)推廣到移動(dòng)端和桌面端。

如前所述，目前，Deep Research可以訪問實(shí)時(shí)互聯(lián)網(wǎng)，獲取最新信息，并對(duì)上傳的文件進(jìn)行深入分析。

但，這僅僅是開始。

未來，任何一個(gè)人將能夠接入更專業(yè)的數(shù)據(jù)源，比如學(xué)術(shù)期刊或企業(yè)內(nèi)部資源。

這種定制化的知識(shí)獲取能力，讓ChatGPT真正成為你的專屬智能助手。

最激動(dòng)人心的是，OpenAI正在醞釀一場(chǎng)更大的革命。

下一步，通過將Deep Research（負(fù)責(zé)異步網(wǎng)絡(luò)調(diào)查）與Operator（負(fù)責(zé)實(shí)際行動(dòng)執(zhí)行）相結(jié)合，ChatGPT將不再局限于信息處理，能夠?yàn)槊總€(gè)人執(zhí)行愈加復(fù)雜的任務(wù)。

這種突破性組合，將開創(chuàng)一個(gè)全新的AI個(gè)人助手時(shí)代。

責(zé)任編輯：張燕妮來源：新智元

OpenAI 模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<kbd id="1kiay"><progress id="1kiay"><legend id="1kiay"></legend></progress></kbd>