偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="5rhc2"><samp id="5rhc2"><delect id="5rhc2"></delect></samp></thead>

<strong id="5rhc2"></strong>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

沃頓商學(xué)院教授發(fā)文解析o1：能力仍有短板，「人機(jī)協(xié)同智能」或成AGI最重要難題

作者：新智元 2024-12-18 15:30:00

人工智能新聞

OpenAI最近奉上了滿(mǎn)血版的o1 Pro，這一全新系列的模型究竟有多強(qiáng)？它能否指明AI發(fā)展的未來(lái)方向？沃頓商學(xué)院教授在3個(gè)月的前一篇博客就中給出了「神預(yù)言」一般的答案。

o1 preview問(wèn)世3個(gè)月后，滿(mǎn)血版的o1 Pro終于在上周以每月200美元的身價(jià)正式上線，奧特曼號(hào)稱(chēng)其為「當(dāng)今世界上最智能的模型」。

所以，這個(gè)正式的o1 Pro究竟強(qiáng)大到了什么程度？

可以肯定的是，它遠(yuǎn)遠(yuǎn)不是一個(gè)走到AGI終點(diǎn)的滅霸，但這是scaling law之后的又一個(gè)里程碑嗎？代表著未來(lái)LLM的發(fā)展方向嗎？能像OpenAI研究院Jason Wei所說(shuō)的，足以成為一個(gè)「?jìng)髌妗箚幔?/span>

就在o1 Pro發(fā)布的當(dāng)口，沃頓商學(xué)院副教授、GenAI實(shí)驗(yàn)室聯(lián)合主任Ethan Mollick提起了這篇自己3個(gè)月前寫(xiě)就的博客，可以說(shuō)既是模型發(fā)布前的「神預(yù)言」，也是一盆有理有據(jù)、恰到好處的「冷水」。

Ethan Mollick表示，早在9月份我們第一次見(jiàn)到o1 preview時(shí)，他就寫(xiě)下了這篇博客文章，詳解這個(gè)模型對(duì)當(dāng)下和未來(lái)都意味著什么。模型的質(zhì)量很重要，但更為重要的是，了解模型對(duì)人工智能未來(lái)的潛在意義。

下面，我們就把這篇文章當(dāng)成時(shí)間傳送門(mén)，將3個(gè)月前橫空出世的o1 preview和處在性?xún)r(jià)比漩渦中的o1 Pro放在一起比較，或許可以給當(dāng)下提供更多啟發(fā)。

「草莓」大顯身手

一段時(shí)間之前，我已經(jīng)接觸到了傳聞沸沸揚(yáng)揚(yáng)的被稱(chēng)為「草莓」的增強(qiáng)版推理系統(tǒng)，現(xiàn)在OpenAI將其發(fā)布了，我也終于可以分享一些想法。

這個(gè)模型的確讓人驚訝，但能力仍然有限，但最重要的是，它的出現(xiàn)指明了AI的發(fā)展方向。

新模型被稱(chēng)為o1-preview（此處Mollick狠狠吐槽OpenAI等一眾AI公司在命名上非常糟糕），讓AI在解決問(wèn)題之前先「思考」一個(gè)問(wèn)題，因此能夠解決需要規(guī)劃和迭代的困難問(wèn)題。

根據(jù)這張我們都熟悉的基準(zhǔn)結(jié)果圖，o1-preview在數(shù)學(xué)和科學(xué)領(lǐng)域尤為強(qiáng)悍，對(duì)于極其困難的物理問(wèn)題，甚至可以擊敗博士級(jí)別的人類(lèi)專(zhuān)家。

但需要明確的是，o1-preview并不是在所有方面都有提升，比如在寫(xiě)作方面就沒(méi)有比GPT-4o更強(qiáng)；但對(duì)于需要計(jì)劃的任務(wù)來(lái)說(shuō)，變化就相當(dāng)大了。

由于很難評(píng)估所有這些復(fù)雜任務(wù)的輸出，因此要展示「Strawberry」模型的提升（以及一些限制），也許最簡(jiǎn)單直觀的方法就是游戲——比如填字游戲（crossword puzzle）。

不要小瞧了填字游戲，這是一個(gè)下限很低但上限也很高的項(xiàng)目，最難的填字游戲完全可以達(dá)到地獄模式，而且非?？简?yàn)邏輯推理能力。

電影《模仿游戲》中就有這樣的情節(jié)：二戰(zhàn)期間，AI之父Alan Turing擔(dān)任英國(guó)密碼破譯項(xiàng)目Enigma的負(fù)責(zé)人，為了招攬全國(guó)在數(shù)學(xué)和密碼學(xué)方面的才俊，他就在報(bào)紙上登出了一個(gè)填字游戲作為報(bào)名測(cè)試，甚至最后一關(guān)的現(xiàn)場(chǎng)考核也是要求a在規(guī)定時(shí)間內(nèi)做出填字游戲題。

電影《模仿游戲》劇照

由于o1 preview還無(wú)法從圖片中讀取文字，因此Mollick只能自己手動(dòng)打出來(lái)喂給模型。如下圖所示，這是一個(gè)相當(dāng)具有挑戰(zhàn)性的難題，而且，Mollick只挑選了18條線索中的8條提供給o1。

填字游戲?qū)τ贚LM來(lái)說(shuō)尤其困難，因?yàn)樾枰鉀Q：嘗試并否決掉許多相互關(guān)聯(lián)的答案——這是之前的大模型無(wú)法做到的，因?yàn)樗麄円淮沃荒茉诖鸢钢刑砑右粋€(gè)token/單詞。

如下圖所示，如果給Claude提供相應(yīng)的線索，它首先給出序號(hào)1的答案（它猜測(cè)是STAR，但這個(gè)答案是錯(cuò)誤的），然后在此基礎(chǔ)上嘗試解答其余部分。

然而，由于第一顆扣子就扣錯(cuò)了，Claude永遠(yuǎn)都無(wú)法接近正確答案。如果沒(méi)有規(guī)劃流程，它就只能向前沖，并不知道自己前進(jìn)的方向是對(duì)是錯(cuò)。

Claude的嘗試

但面對(duì)相同的問(wèn)題時(shí)，「草莓」時(shí)會(huì)怎么做呢？

首先，它會(huì)開(kāi)始「思考」，這個(gè)過(guò)程持續(xù)了整整108秒（但大多數(shù)問(wèn)題都能在更短的時(shí)間內(nèi)解決）。

而且，o1思考時(shí)并不是一聲不吭，而是會(huì)「自言自語(yǔ)」，輸出自己的「思維鏈」讓你看到它的想法。下面是其中的一個(gè)示例（還有更多內(nèi)容未展示出來(lái)），而且這些想法非常有啟發(fā)性，值得你花點(diǎn)時(shí)間閱讀。

在這個(gè)過(guò)程中，「草莓」反復(fù)迭代，不斷創(chuàng)造想法并否決其中不可行的部分，結(jié)果做得很好，令人印象深刻。

但值得注意的是，o1-preview似乎仍然基于GPT-4o，而且有時(shí)對(duì)于語(yǔ)言的理解過(guò)于拘泥于字面意思。

比如，下圖右側(cè)中1 Down的答案是「Galaxy cluster」，這顯然并不是指真正的星系，而是Samsung Galaxy手機(jī)——「APPS」。

AI并沒(méi)有猜到這層意思，因此不斷嘗試各種星系團(tuán)的名稱(chēng)，然而確定Down 1是COMA（是一個(gè)真實(shí)的星系團(tuán)），可想而知，其余的結(jié)果也不正確。雖然不完全符合規(guī)則，但也相當(dāng)有創(chuàng)意。

但公平來(lái)講，Mollick本人也沒(méi)有猜到這層意思。如果把「Down 1是APPS」這個(gè)線索提供給o1，可以看到模型又開(kāi)始在接下來(lái)的1分鐘內(nèi)快速迭代想法（下圖左側(cè)），并正確推理出了Across 1的答案是「ACTS」。

這里是o1在一條線索的基礎(chǔ)上給出的最終答案，完全正確，而且解決了硬引用，盡管它幻想出了一條不存在的新線索。相比之下，身為名牌大學(xué)副教授的Ethan Mollick甚至都沒(méi)能接近這個(gè)正確答案。

至此我們可以發(fā)現(xiàn)，o1-preview做了一些沒(méi)有Strawberry就不可能完成的事情，但它仍然不是完美無(wú)缺的：錯(cuò)誤和幻覺(jué)仍然會(huì)發(fā)生，而且仍然受限于底層模型GPT-4o的「智能」的限制。

雖然Claude有很多優(yōu)點(diǎn)，但相比之下，o1在復(fù)雜規(guī)劃或解題方面遠(yuǎn)遠(yuǎn)勝出，代表了這些領(lǐng)域的巨大飛躍。

從協(xié)同智能到...

o1-preview意味著我們正面臨人工智能范式的改變?！敢?guī)劃」是智能體的一種表現(xiàn)形式，人工智能可以在沒(méi)有人類(lèi)幫助的情況下自行得出結(jié)論并解決問(wèn)題。

可以從上面的例子中看到，AI完成了太多繁重的思考工作，并產(chǎn)生了完整的結(jié)果，人類(lèi)作為合作伙伴的角色反而被削弱了，整個(gè)過(guò)程的主體是AI完成了自己的工作并給出答案。

當(dāng)然，我們可以篩選推理思維鏈的輸出來(lái)發(fā)現(xiàn)AI犯了哪些錯(cuò)誤，但Ethan Mollick的感覺(jué)是，他作為布置任務(wù)的人，和AI的輸出內(nèi)容之間沒(méi)有什么聯(lián)系，也沒(méi)有在引導(dǎo)解決方案的走向上發(fā)揮重要作用。這不一定是壞事，但和之前不同。

隨著這些系統(tǒng)不斷升級(jí)并逐漸接近真正的自主智能體，我們需要弄清如何與其保持人類(lèi)在保持同步——既能捕獲錯(cuò)誤，又要及時(shí)察覺(jué)到我們?cè)噲D解決的問(wèn)題。

o1-preview正在緩緩拉開(kāi)帷幕，解鎖我們尚未見(jiàn)到的AI能力，盡管它目前還存在局限性。這給我們留下了一個(gè)關(guān)鍵問(wèn)題：隨著AI的發(fā)展，我們?nèi)绾芜M(jìn)化人類(lèi)與人工智能的合作？這是o1-preview目前還無(wú)法解決的問(wèn)題。

責(zé)任編輯：張燕妮來(lái)源：新智元

OpenAI 模型技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)