偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-9-13 13:59

瀏覽

0收藏

編輯 | 言征、伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

在炒作將近9個月后，OpenAI代號“草莓”的模型o1終于深夜突然亮相，一時間具備試用資格的大牛紛紛開始了測評，業(yè)內(nèi)許多AI項(xiàng)目、公司的大佬如英偉達(dá)高級研究經(jīng)理JimFan、Devin的DeepWisdom創(chuàng)始人紛紛發(fā)表了自己對于o1的使用感受。

整體上看分兩派：一派認(rèn)為o1代表著Scaling Law以外的新賽道的開啟，另一派則認(rèn)為——

“炒作大于實(shí)際”、“有坑”、“很難說”。

這里不再花篇幅去介紹這款主打“慢思考”的模型的官宣能力。僅僅長話短說地列舉開發(fā)者最關(guān)心的幾個信息。

一、開啟復(fù)雜任務(wù)推理新賽道

通用模型GPT5發(fā)布前，開啟復(fù)雜推理模型賽道OpenAI o1。o1在回答前，會反復(fù)的思考、拆解、理解、推理，然后給出最終答案。

通過Self-play RL，o1學(xué)會了回溯、打磨自己的思維鏈并完善所使用的策略，學(xué)會了將復(fù)雜步驟拆解為更簡單的子步驟，并能識別和糾正自己的錯誤。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) o1工作原理：先思考，再總結(jié)輸出圖源：賽博禪心

二、兩款：preview主打強(qiáng)推理，mini主打代碼

o1-preview：預(yù)覽版具有很強(qiáng)的推理能力和廣闊的世界知識，但還沒有達(dá)到滿血o1的性能，還會持續(xù)更新和改進(jìn)；

o1-mini：更快、更便宜（o1-mini 比 o1-preview 便宜 80%），在代碼方面特別有效，特別適合開發(fā)人員使用。

三、速率限制和價格

不過主打“慢思考”的草莓，OpenAI對外開放的相當(dāng)吝嗇：竟然以周為單位來計算對話條數(shù)：

o1-preview 的每周速率限制為 30 條消息
o1-mini 的每周速率限制為 50 條消息

而對于開發(fā)者而言，只面向Tier5級別（付費(fèi)超過1000美元）的用戶開放，每分鐘并發(fā)限制20次。

不過，價格上面卻是個令人頭疼的家伙。

API的價格上，o1預(yù)覽版每百萬輸入15美元，每百萬輸出60美元，o1-mini會便宜一些，每百萬輸入3美元，每百萬輸出12美元。

而對于這個價格，賽博禪心認(rèn)為這個模型有坑：在正常使用中，o1 的開銷，會比 4o 貴百倍！因?yàn)椋瑥?pricing table 上看，o1 的價格是 4o 的 6 倍，但這是有迷惑性的！o1 計費(fèi)并不按最終輸出，其中間思考過程所消耗的 token，并被視作 output tokens，這意味著 100 tokens 的內(nèi)容輸出，可能會被按 10000 tokens 計費(fèi)。

這一點(diǎn)也得了“NLP工作站”博主劉聰NLP的認(rèn)證：內(nèi)在思維鏈比思維鏈長的多。

o1展示的外部思維鏈：

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

但內(nèi)部隱藏的未對齊的思維鏈卻非常長：

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

四、幕后團(tuán)隊(duì)

可以看到在基礎(chǔ)貢獻(xiàn)一欄里，大佬Ilya赫然在列。完整表單見：

??https://openai.com/openai-o1-contributions/??

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

此次，OpenAI還特別發(fā)布了一支幕后團(tuán)隊(duì)的特別短片，來聊聊他們對o1的想法。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

第一個發(fā)言的男生就是華人面孔，領(lǐng)導(dǎo)了整個o1研發(fā)的Mark Chen，他解釋了o1的命名背后的原因：“與GPT-4o等以前的型號相比，您可能會感到不同。正如其他人稍后會解釋的那樣，o1是一個推理模型，因此它會思考更多?！?/p>

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū)

他從麻省理工大學(xué)畢業(yè)，已經(jīng)在OpenAI工作了6年之久，現(xiàn)任研究副總裁一職。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

五、網(wǎng)友實(shí)測

1.9.8和9.11的無限反思

小紅書網(wǎng)友@小水剛醒反饋，“一上難度就崩潰……讓模型比較9.8和9.11的大小，結(jié)果無限循環(huán)發(fā)瘋般CoT”

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

另一位網(wǎng)友@ChRlesWaa在評論區(qū)吐槽o1依舊沒主見，“很垃圾，和以前一樣一反問就改答案”。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

2.卡茲克：“中秋國慶調(diào)休”問題沒有翻車

“這是中國2024年9月9日（星期一）開始到10月13日的放假調(diào)休安排:上6休3上3休2上5休1上2休7再上5休1。

請你告訴我除了我本來該休的周末，我因?yàn)榉偶俣嘈菹⒘藥滋欤俊?/p>

在o1思考了整整30秒以后，給出了一天不差的極度精準(zhǔn)的答案。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

不過據(jù)小編觀察，卡茲克這次的提問應(yīng)該有運(yùn)氣的成分，因?yàn)橛衅渌┲鳒y試了同樣的問題，翻車了：最后的回答是多休了2天~

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

3.賽博禪心：有坑，更像是工程優(yōu)化

賽博禪心隨后進(jìn)行了與其說是模型優(yōu)化，不如說是工程優(yōu)化

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

因?yàn)樗麖挠?xùn)練數(shù)據(jù)和訓(xùn)練時間發(fā)現(xiàn)，o1的截止時間是2023年10月，而GPT-4-turbo的時間則更晚是2023年12月，新舊立見了~ GPT-4在o1之后。

此外，o1與4o的輸出語言風(fēng)格高度類似，可以猜測是草莓視4o進(jìn)行對齊之后的agent版本。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

4.預(yù)訓(xùn)練工程師：小修小補(bǔ)，很難說是突破

小紅書上的一位大模型預(yù)訓(xùn)練算法工程師，則發(fā)表了更為消極的看法，“深夜看到o1發(fā)布，感覺我的職業(yè)生涯結(jié)束了”，他認(rèn)為o1實(shí)際還在做“小修小補(bǔ)”，并且也將難以看到范式上的其他突破了。他說，未來的方向也許是“功能專精模型和多模態(tài)真正融合”。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

六、Devin：自我反思與傳統(tǒng)提示詞的革新時刻

過去幾周跟OpenAI有密切合作的Cognition團(tuán)隊(duì)也第一時間對o1的推理能力進(jìn)行了測試。

團(tuán)隊(duì)使用簡化版本的Devin進(jìn)行了測試，與4o相比，o1具有驚人的反思和分析能力。它通常會回溯并考慮不同的選擇，然后才能得出正確的答案，并且產(chǎn)生幻覺或自信的錯誤的概率也很低。

并透露：使用o1-preview時，Devin更容易正確診斷問題的根本原因，而不是解決問題的癥狀。

并舉了一個例子：Devin遇到了一個錯誤，o1就像人類一樣搜索互聯(lián)網(wǎng)，并經(jīng)過幾步后找到了與其問題相關(guān)的Github問題。

但是，o1需要的提示詞明顯更加密集，對混亂和不必要的token也會更加敏感。傳統(tǒng)的提示詞方法通常會有冗余，這會對o1的性能造成負(fù)面影響。

不過關(guān)于這一點(diǎn)，有人士發(fā)表了不同的看法，AI沃茨體驗(yàn)o1后表示：以前的提示詞模版還能繼續(xù)沿用幾個月。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

七、JimFan：o1的飛躍不再是Scaling Law，而是搜索

英偉達(dá)大佬Jim Fan透露o1的重點(diǎn)從此前的“學(xué)習(xí)”轉(zhuǎn)向了“搜索”，也就是說，此次讓o1能力飛躍的不再是scaling law了。他的完整貼文翻譯如下：

OpenAI Strawberry (o1) 發(fā)布了！我們終于看到推理時間縮放的范式在生產(chǎn)中流行并得到部署。正如Sutton在《苦澀的教訓(xùn)》中所說，只有兩種技術(shù)可以無限擴(kuò)展計算：學(xué)習(xí)和搜索?，F(xiàn)在是轉(zhuǎn)向后者的時候了。

1.你不需要一個巨大的模型來進(jìn)行推理。很多參數(shù)都專門用來記憶事實(shí)，以便在像智力問答這樣的基準(zhǔn)測試中表現(xiàn)良好?？梢詫⑼评砼c知識分開，即一個小的“推理核心”，它知道如何調(diào)用瀏覽器和代碼驗(yàn)證器等工具。預(yù)訓(xùn)練的計算量可以減少。

2.大量的計算資源轉(zhuǎn)移到了服務(wù)推理，而不是預(yù)/后訓(xùn)練。LLMs是基于文本的模擬器。通過在模擬器中推出許多可能的策略和情景，模型最終會收斂到良好的解決方案。這個過程就像AlphaGo的蒙特卡洛樹搜索(MCTS)一樣，是一個被廣泛研究的問題。

3.OpenAI 很久以前就已經(jīng)掌握了推理縮放定律，而學(xué)術(shù)界最近才剛剛發(fā)現(xiàn)。上個月Arxiv上相隔一周發(fā)表了兩篇論文：

大語言猴子：使用重復(fù)采樣擴(kuò)展推理計算。Brown等人發(fā)現(xiàn)DeepSeek-Coder在SWE-Bench上從一個樣本增加到250個樣本時，性能從15.9%提升到56%，超過了Sonnet-3.5。有關(guān)論文可以移步：

?? https://arxiv.org/abs/2407.21787v1??

在推理時最優(yōu)地擴(kuò)展LLM的計算比擴(kuò)展模型參數(shù)更有效。Snell等人發(fā)現(xiàn)，在MATH上，PaLM 2-S 在測試時搜索上擊敗了一個體積大14倍的模型。

4.將 o1 投入生產(chǎn)要比達(dá)到學(xué)術(shù)基準(zhǔn)更加困難。對于野外的推理問題，如何決定何時停止搜索？獎勵函數(shù)是什么？成功標(biāo)準(zhǔn)是什么？何時調(diào)用代碼解釋器等工具？如何考慮這些CPU進(jìn)程的計算成本？他們的研究文章中沒有分享太多相關(guān)信息。

5.Strawberry 很容易變成一個數(shù)據(jù)的飛輪。如果答案是正確的，整個搜索跟蹤就成為一個小型的訓(xùn)練樣本數(shù)據(jù)集，其中包含正面和負(fù)面的獎勵。這反過來會改進(jìn)未來版本的GPT的推理核心，就像AlphaGo的價值網(wǎng)絡(luò)——用來評估每個棋盤位置的質(zhì)量——隨著MCTS生成越來越精細(xì)的訓(xùn)練數(shù)據(jù)而改進(jìn)一樣。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

八、MetaGPT創(chuàng)始人吳承霖：沒有其他秘密，最簡單的自我博弈

DeepWisdom公司CEO吳承霖深夜發(fā)出了自己的想法：（裸推理極限）

1.self-play 可行，設(shè)計空間也不大

2.OpenAI 只做了最簡單的 self-play

3.記憶模塊仍然沒有任何突破

4.思維模式仍然難以琢磨，很難說 o1 是好的思維模式

5.沒有其他秘密，這就是現(xiàn)在的裸推理極限，所以 OpenAI 核心成員都去了其他公司

self-play是一種強(qiáng)化學(xué)習(xí)手段，可以理解為：智能體通過與自身副本或歷史版本進(jìn)行自我博弈而進(jìn)行演化的方法。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

九、寫在最后

其實(shí)，就連奧特曼自己也承認(rèn)o1并非完美之作。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

不過，當(dāng)人們實(shí)際上手o1時，巨大的落差感可能在所難免。

在OpenAI官方的演示視頻中，o1已經(jīng)在玩量子物理、奧賽數(shù)學(xué)了，但在實(shí)際的測評中，面對9.11和9.8哪個大的“經(jīng)典老題”時，o1依然自顧自的重復(fù)著“wait,9.8 is 9.80”……。不由得讓人長嘆，“理想很豐滿，現(xiàn)實(shí)很骨感”。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說-AI.x社區(qū) 圖片

這體現(xiàn)了模型能力發(fā)展中巨大的不平衡，也提醒著我們，即使AI已經(jīng)看起來如此的聰明，但通往AGI的道路仍然撲朔迷離。

然而，OpenAI找到了一個尚可前進(jìn)的方向。

在看到o1的命名法則時，有人調(diào)侃說，“原來GPT-5永遠(yuǎn)不會來了”。但是，由o1生成數(shù)據(jù)進(jìn)行訓(xùn)練的下一代模型“獵戶座”，終將會與人們見面，不是嗎？

也許，科技最有魅力的地方，也許不是當(dāng)下的成果有多么驚艷。而是告訴我們：邊界尚未抵達(dá)，這里仍有無限期待。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：言征、伊風(fēng)

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2024-9-13 14:09:11修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

剛剛，OpenAI發(fā)布史上最強(qiáng)模型-o1，推理能力超人類博士！

Aceryt ? 2852瀏覽 ? 0回復(fù)
OpenAI o1很強(qiáng)，也能被玩壞！

PaperAgent ? 2659瀏覽 ? 0回復(fù)
OpenAI發(fā)布新模型：o1系列模型，更像理科生的模型

大語言模型論文跟蹤 ? 4428瀏覽 ? 0回復(fù)
使用 OpenAI o1 的五種方法「詳細(xì)指南」

51CTO技術(shù)棧 ? 5944瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 2576瀏覽 ? 0回復(fù)
草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！

AIGC最前線 ? 2908瀏覽 ? 0回復(fù)
開源社區(qū)離Openai o1越來越近~

NLP前沿1 ? 2693瀏覽 ? 0回復(fù)
OpenAI o1：用內(nèi)部思維鏈進(jìn)行復(fù)雜推理

shizhi02 ? 2848瀏覽 ? 0回復(fù)
英偉達(dá)出手即王炸！重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術(shù)棧 ? 2311瀏覽 ? 0回復(fù)
Claude 3.5超預(yù)期炸場！編程能力超o1，像人類一樣操作電腦，開啟Agent新時代！

51CTO技術(shù)棧 ? 2867瀏覽 ? 0回復(fù)
VLM版o1超越一眾開源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 2860瀏覽 ? 0回復(fù)
阿里發(fā)布類o1模型QWQ，可自我反思糾錯，實(shí)測數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1，人人免費(fèi)

51CTO技術(shù)棧 ? 3128瀏覽 ? 0回復(fù)
OpenAI滿血o1深夜炸場！10秒搞定博士級難題！奧特曼重申：AI沒有墻！

51CTO技術(shù)棧 ? 2472瀏覽 ? 0回復(fù)
OpenAI o1 模型到來后，談?wù)勌崾驹~工程的未來

Baihai_IDP ? 2442瀏覽 ? 0回復(fù)
Kimi深夜炸場：滿血版多模態(tài)o1級推理模型！OpenAI外全球首次！Jim Fan：同天兩款國產(chǎn)o1絕對不是巧合！

51CTO技術(shù)棧 ? 2426瀏覽 ? 0回復(fù)
DeepSeek R1橫空出世，超越OpenAI o1，教你用Ollama跑起來

小虎哦哦 ? 1.5w瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 2429瀏覽 ? 0回復(fù)
OpenAI 深夜王炸！ o3 推理模型徹底顛覆認(rèn)知，AGI真的來了？

算家計算 ? 1110瀏覽 ? 0回復(fù)
OpenAI大佬：AI上半場忙著開發(fā)新訓(xùn)練方法和模型GPT-4/o1/o3，下半場呢？

PaperAgent ? 1260瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

Devin聯(lián)合創(chuàng)始人：別搞多智能體系統(tǒng)！微軟和OpenAI鼓吹的代理構(gòu)建理念大錯特錯！ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：外灘大會閉幕，王堅、王小川、閆俊杰這些大佬都釋放了哪些信號？

下一篇：李彥宏內(nèi)部講話流出！談大模型三大認(rèn)知誤區(qū)：模型能力差距只會越來越大！

社區(qū)精華內(nèi)容

目錄

<nav id="k4bdt"><label id="k4bdt"><small id="k4bdt"></small></label></nav>

<em id="k4bdt"><option id="k4bdt"><nobr id="k4bdt"></nobr></option></em>

<nav id="k4bdt"><strong id="k4bdt"><dl id="k4bdt"></dl></strong></nav>

<table id="k4bdt"></table>