偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

沃頓商學(xué)院教授發(fā)文解析o1:能力仍有短板,「人機(jī)協(xié)同智能」或成AGI最重要難題

人工智能 新聞
OpenAI最近奉上了滿(mǎn)血版的o1 Pro,這一全新系列的模型究竟有多強(qiáng)?它能否指明AI發(fā)展的未來(lái)方向?沃頓商學(xué)院教授在3個(gè)月的前一篇博客就中給出了「神預(yù)言」一般的答案。

o1 preview問(wèn)世3個(gè)月后,滿(mǎn)血版的o1 Pro終于在上周以每月200美元的身價(jià)正式上線,奧特曼號(hào)稱(chēng)其為「當(dāng)今世界上最智能的模型」。

所以,這個(gè)正式的o1 Pro究竟強(qiáng)大到了什么程度?

可以肯定的是,它遠(yuǎn)遠(yuǎn)不是一個(gè)走到AGI終點(diǎn)的滅霸,但這是scaling law之后的又一個(gè)里程碑嗎?代表著未來(lái)LLM的發(fā)展方向嗎?能像OpenAI研究院Jason Wei所說(shuō)的,足以成為一個(gè)「?jìng)髌妗箚幔?/span>

圖片

就在o1 Pro發(fā)布的當(dāng)口,沃頓商學(xué)院副教授、GenAI實(shí)驗(yàn)室聯(lián)合主任Ethan Mollick提起了這篇自己3個(gè)月前寫(xiě)就的博客,可以說(shuō)既是模型發(fā)布前的「神預(yù)言」,也是一盆有理有據(jù)、恰到好處的「冷水」。

圖片

Ethan Mollick表示,早在9月份我們第一次見(jiàn)到o1 preview時(shí),他就寫(xiě)下了這篇博客文章,詳解這個(gè)模型對(duì)當(dāng)下和未來(lái)都意味著什么。模型的質(zhì)量很重要,但更為重要的是,了解模型對(duì)人工智能未來(lái)的潛在意義。

下面,我們就把這篇文章當(dāng)成時(shí)間傳送門(mén),將3個(gè)月前橫空出世的o1 preview和處在性?xún)r(jià)比漩渦中的o1 Pro放在一起比較,或許可以給當(dāng)下提供更多啟發(fā)。

「草莓」大顯身手

圖片

一段時(shí)間之前,我已經(jīng)接觸到了傳聞沸沸揚(yáng)揚(yáng)的被稱(chēng)為「草莓」的增強(qiáng)版推理系統(tǒng),現(xiàn)在OpenAI將其發(fā)布了,我也終于可以分享一些想法。

這個(gè)模型的確讓人驚訝,但能力仍然有限,但最重要的是,它的出現(xiàn)指明了AI的發(fā)展方向。

新模型被稱(chēng)為o1-preview(此處Mollick狠狠吐槽OpenAI等一眾AI公司在命名上非常糟糕),讓AI在解決問(wèn)題之前先「思考」一個(gè)問(wèn)題,因此能夠解決需要規(guī)劃和迭代的困難問(wèn)題。

根據(jù)這張我們都熟悉的基準(zhǔn)結(jié)果圖,o1-preview在數(shù)學(xué)和科學(xué)領(lǐng)域尤為強(qiáng)悍,對(duì)于極其困難的物理問(wèn)題,甚至可以擊敗博士級(jí)別的人類(lèi)專(zhuān)家。

圖片

但需要明確的是,o1-preview并不是在所有方面都有提升,比如在寫(xiě)作方面就沒(méi)有比GPT-4o更強(qiáng);但對(duì)于需要計(jì)劃的任務(wù)來(lái)說(shuō),變化就相當(dāng)大了。

由于很難評(píng)估所有這些復(fù)雜任務(wù)的輸出,因此要展示「Strawberry」模型的提升(以及一些限制),也許最簡(jiǎn)單直觀的方法就是游戲——比如填字游戲(crossword puzzle)。

不要小瞧了填字游戲,這是一個(gè)下限很低但上限也很高的項(xiàng)目,最難的填字游戲完全可以達(dá)到地獄模式,而且非??简?yàn)邏輯推理能力。

電影《模仿游戲》中就有這樣的情節(jié):二戰(zhàn)期間,AI之父Alan Turing擔(dān)任英國(guó)密碼破譯項(xiàng)目Enigma的負(fù)責(zé)人,為了招攬全國(guó)在數(shù)學(xué)和密碼學(xué)方面的才俊,他就在報(bào)紙上登出了一個(gè)填字游戲作為報(bào)名測(cè)試,甚至最后一關(guān)的現(xiàn)場(chǎng)考核也是要求a在規(guī)定時(shí)間內(nèi)做出填字游戲題。

圖片

電影《模仿游戲》劇照

由于o1 preview還無(wú)法從圖片中讀取文字,因此Mollick只能自己手動(dòng)打出來(lái)喂給模型。如下圖所示,這是一個(gè)相當(dāng)具有挑戰(zhàn)性的難題,而且,Mollick只挑選了18條線索中的8條提供給o1。

圖片

填字游戲?qū)τ贚LM來(lái)說(shuō)尤其困難,因?yàn)樾枰鉀Q:嘗試并否決掉許多相互關(guān)聯(lián)的答案——這是之前的大模型無(wú)法做到的,因?yàn)樗麄円淮沃荒茉诖鸢钢刑砑右粋€(gè)token/單詞。

如下圖所示,如果給Claude提供相應(yīng)的線索,它首先給出序號(hào)1的答案(它猜測(cè)是STAR,但這個(gè)答案是錯(cuò)誤的),然后在此基礎(chǔ)上嘗試解答其余部分。

然而,由于第一顆扣子就扣錯(cuò)了,Claude永遠(yuǎn)都無(wú)法接近正確答案。如果沒(méi)有規(guī)劃流程,它就只能向前沖,并不知道自己前進(jìn)的方向是對(duì)是錯(cuò)。

圖片

Claude的嘗試

但面對(duì)相同的問(wèn)題時(shí),「草莓」時(shí)會(huì)怎么做呢?

首先,它會(huì)開(kāi)始「思考」,這個(gè)過(guò)程持續(xù)了整整108秒(但大多數(shù)問(wèn)題都能在更短的時(shí)間內(nèi)解決)。

而且,o1思考時(shí)并不是一聲不吭,而是會(huì)「自言自語(yǔ)」,輸出自己的「思維鏈」讓你看到它的想法。下面是其中的一個(gè)示例(還有更多內(nèi)容未展示出來(lái)),而且這些想法非常有啟發(fā)性,值得你花點(diǎn)時(shí)間閱讀。

圖片

在這個(gè)過(guò)程中,「草莓」反復(fù)迭代,不斷創(chuàng)造想法并否決其中不可行的部分,結(jié)果做得很好,令人印象深刻。

但值得注意的是,o1-preview似乎仍然基于GPT-4o,而且有時(shí)對(duì)于語(yǔ)言的理解過(guò)于拘泥于字面意思。

比如,下圖右側(cè)中1 Down的答案是「Galaxy cluster」,這顯然并不是指真正的星系,而是Samsung Galaxy手機(jī)——「APPS」。

AI并沒(méi)有猜到這層意思,因此不斷嘗試各種星系團(tuán)的名稱(chēng),然而確定Down 1是COMA(是一個(gè)真實(shí)的星系團(tuán)),可想而知,其余的結(jié)果也不正確。雖然不完全符合規(guī)則,但也相當(dāng)有創(chuàng)意。

但公平來(lái)講,Mollick本人也沒(méi)有猜到這層意思。如果把「Down 1是APPS」這個(gè)線索提供給o1,可以看到模型又開(kāi)始在接下來(lái)的1分鐘內(nèi)快速迭代想法(下圖左側(cè)),并正確推理出了Across 1的答案是「ACTS」。

圖片

這里是o1在一條線索的基礎(chǔ)上給出的最終答案,完全正確,而且解決了硬引用,盡管它幻想出了一條不存在的新線索。相比之下,身為名牌大學(xué)副教授的Ethan Mollick甚至都沒(méi)能接近這個(gè)正確答案。

圖片

至此我們可以發(fā)現(xiàn),o1-preview做了一些沒(méi)有Strawberry就不可能完成的事情,但它仍然不是完美無(wú)缺的:錯(cuò)誤和幻覺(jué)仍然會(huì)發(fā)生,而且仍然受限于底層模型GPT-4o的「智能」的限制。

雖然Claude有很多優(yōu)點(diǎn),但相比之下,o1在復(fù)雜規(guī)劃或解題方面遠(yuǎn)遠(yuǎn)勝出,代表了這些領(lǐng)域的巨大飛躍。

從協(xié)同智能到...

o1-preview意味著我們正面臨人工智能范式的改變?!敢?guī)劃」是智能體的一種表現(xiàn)形式,人工智能可以在沒(méi)有人類(lèi)幫助的情況下自行得出結(jié)論并解決問(wèn)題。

可以從上面的例子中看到,AI完成了太多繁重的思考工作,并產(chǎn)生了完整的結(jié)果,人類(lèi)作為合作伙伴的角色反而被削弱了,整個(gè)過(guò)程的主體是AI完成了自己的工作并給出答案。

當(dāng)然,我們可以篩選推理思維鏈的輸出來(lái)發(fā)現(xiàn)AI犯了哪些錯(cuò)誤,但Ethan Mollick的感覺(jué)是,他作為布置任務(wù)的人,和AI的輸出內(nèi)容之間沒(méi)有什么聯(lián)系,也沒(méi)有在引導(dǎo)解決方案的走向上發(fā)揮重要作用。這不一定是壞事,但和之前不同。

隨著這些系統(tǒng)不斷升級(jí)并逐漸接近真正的自主智能體,我們需要弄清如何與其保持人類(lèi)在保持同步——既能捕獲錯(cuò)誤,又要及時(shí)察覺(jué)到我們?cè)噲D解決的問(wèn)題。

o1-preview正在緩緩拉開(kāi)帷幕,解鎖我們尚未見(jiàn)到的AI能力,盡管它目前還存在局限性。這給我們留下了一個(gè)關(guān)鍵問(wèn)題:隨著AI的發(fā)展,我們?nèi)绾芜M(jìn)化人類(lèi)與人工智能的合作?這是o1-preview目前還無(wú)法解決的問(wèn)題。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2017-06-28 11:50:51

金融戴爾混合云

2023-02-22 14:06:38

2012-03-16 16:17:44

銳捷網(wǎng)絡(luò)沃頓商學(xué)院

2024-08-05 10:27:00

AI藝術(shù)

2013-05-13 09:22:23

云遷移云遷移案例遺留應(yīng)用

2016-08-15 15:17:47

沃頓商學(xué)院51CTO高招技術(shù)人才

2023-04-03 12:02:25

ChatGPT人工智能

2009-04-01 18:44:48

Vmware虛擬化存儲(chǔ)

2012-02-17 10:59:35

原創(chuàng)視頻

2018-10-23 10:55:07

2009-02-24 18:56:01

虛擬化存儲(chǔ)虛擬化南加州大學(xué)

2014-11-25 10:25:02

2009-01-08 17:19:28

服務(wù)器虛擬化南加州

2020-08-24 17:08:19

騰訊

2017-11-13 11:35:43

學(xué)院

2013-10-18 09:50:54

2018-01-15 14:59:07

智能制造智能化供應(yīng)鏈

2024-12-09 09:00:00

AGI智能

2024-12-30 09:30:00

OpenAIAI訓(xùn)練

2013-12-09 18:08:30

華為教育信息化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)