偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="iyufv"></tr>

<abbr id="iyufv"><var id="iyufv"><dl id="iyufv"></dl></var></abbr>

<em id="iyufv"></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

o3-pro答高難題文字游戲引圍觀，OpenAI前員工諷刺蘋果：這都不叫推理那什么叫推理

2025-06-13 14:15:57

系統(tǒng)提示的影響極大。如今模型的可塑性超強，那些能讓模型“理解自身所處環(huán)境與目標”的LLM調教框架，能產生遠超預期的價值。

OpenAI“最新最強版”推理模型o3-pro，實際推理能力到底有多強？

全球首位全職提示工程師Riley Goodside來給它上難度：

說出歌手Sabrina Carpenter的一首歌的歌名，回答這個問題時，每個單詞最后一個字母連起來看，也能對應這首歌名。

圖片

結果，o3-pro在經過4分25秒的推理過后，成功給出正確答案。

經Sabrina Carpenter實測，o3只能做對個大概，通常只能把最后幾個字母湊對。

圖片

該測試引來OpenAI前AGI Readiness團隊負責人Miles Brundage的轉發(fā)關注。

雖然人已經不在OpenAI了，但Miles Brundage還是替老東家直接開大陰陽蘋果：如果這都不叫推理那什么叫推理。

PS：蘋果前幾天發(fā)了個新研究，用漢諾塔等四個小游戲測試大模型，稱推理模型全都沒在真正思考，只是另一種形式的“模式匹配”，所謂思考只是一種假象。

圖片

除了網(wǎng)友實測外，各大評測榜單已陸續(xù)同步更新排名。

總結來看，和官方給的測試結果略有不同。

官方測評中，o3-pro超越o3、o1-pro，成為當前最擅長編碼的OpenAI模型。

圖片

而在大模型權威榜單LiveBench上，o3-pro和o3編碼平均得分幾乎無差，o3-pro僅有0.07分的優(yōu)勢。

智能體編碼平均得分方面，o3-pro甚至大比分落后于o3（31.67 vs 36.67）。

圖片

亞馬遜云科技&谷歌前高管Bindu Reddy表示：

主要是它在智能體這塊不太行，工具使用也不咋擅長。
昨天的大新聞不是o3-pro ，而是o3降價了！！

另外，針對大模型長上下文理解的基準測試Fiction.LiveBench也放榜了。

o3-pro在較短上下文場景下表現(xiàn)很出色，較o3有所提升。

然鵝，192k超長上下文處理依然是Gemini 2.5 Pro占優(yōu)勢，Gemini 2.5 Pro得分90.6，而o3-pro僅得分65.6。

圖片

讓人困惑的是，在這個基準測試中，不管是o3-pro還是o3，在16k上下文中分數(shù)都下降了，到了32k，兩個模型得分又回到了100。

圖片

除此之外，蘋果&SpaceX前工程師Ben Hylak之前分享o1使用心得，得到不少網(wǎng)友關注，連奧特曼、Brockman都轉發(fā)了。

這次o3-pro他同樣沒放過，而且又被奧特曼翻了牌子。

圖片

蘋果&SpaceX前工程師分享使用心得

蘋果&SpaceX前工程師Ben Hylak的分享，好似恰巧解釋了o3-pro的官方測評和各大評測榜單結果有所出入的問題。

圖片

Ben Hylak曾任SpaceX軟件工程師、蘋果VisionOS人機交互設計師，目前在創(chuàng)業(yè)為AI產品提供分析服務。

此前o1 pro推出滿血$200/月版本時，Ben Hyla第一天就交了錢，整整測試了一天。

圖片

結果體驗很糟糕，很多人表示同感，但也有人強烈反對。Ben Hylak在與持不同觀點人激烈討論了一番后，意識到自己的使用方法完全錯了。

我還在把o1當聊天模型來用，但o1已經不是聊天模型了。

后來，Ben Hylak從討厭o1轉變成了每天都在用它解決最重要的問題。這件事兒的反轉，讓Ben Hylak測試o3-pro更加用心。

他透露這次自己一周前就已經提前接觸到了3-pro，o3-pro“以不同方式測試，實際體驗會有所不同”。

從經常測評大模型的經驗來看，Ben Hylak認為“模型能力的發(fā)揮高度依賴背景信息”，他表示自己目前使用o3關鍵就是：

不把它當聊天對象，而是當作報告生成器。給它背景信息、設定目標，然后讓它自由發(fā)揮。

由此，要看出o3-pro的真正實力，得給它多得多的背景信息。然鵝，Ben Hylak手頭的信息素材都快榨干了。于是，Ben Hylak換了種方法：

他和他的聯(lián)合創(chuàng)始人Alexis花時間把他們在Raindrop所有歷史會議記錄、目標全翻出來，甚至錄了語音備忘錄，一股腦塞給o3-pro，讓它做規(guī)劃。

結果，被o3-pro驚艷到了：

它輸出的計劃精準踩中我們想要的點——目標數(shù)據(jù)、時間排期、優(yōu)先級排序，連“必須砍哪些業(yè)務”都寫得明明白白。
o3給出的計劃合理、說得通；但o3-pro給出的計劃足夠具體、有依據(jù)，真真切切改變了我們對未來的思考方式。
這在評估中很難體現(xiàn)出來。

除此之外，Ben Hylak認為如今的模型在孤立環(huán)境下表現(xiàn)已然十分出色，簡單測試難不倒它，真正的挑戰(zhàn)在于將其融入社會。

這種融入主要體現(xiàn)在工具調用方面，即模型與人類、外部數(shù)據(jù)以及其它AI協(xié)作得如何。

經測試，Ben Hylak表示o3-pro在這方面有了實實在在的提升——

“它在識別自身所處環(huán)境、準確說明可使用的工具、知曉何時需詢問外部世界信息（而非假裝自己掌握相關信息或權限）以及為任務挑選合適工具等方面，表現(xiàn)都明顯更優(yōu)。”

下面是展示示例。Ben Hylak讓o3-pro和o3做一個日歷。

o3-pro顯然能更好地理解其所處環(huán)境的邊界，明確表示：

在這個聊天窗口中無法顯示實時交互的HTML預覽（我的環(huán)境僅支持純文本和代碼片段）。

并且給出了要查看渲染后日歷的詳細步驟操作，還描述了用戶將看到的視覺內容。

圖片

相比之下，o3明明做不到還裝能做，表示可以“創(chuàng)建日歷小組件的實時交互預覽”。

下面這個例子，Ben Hylak讓模型找今年關于Borges的Substack文章。

o3-pro同樣明確表示進行實時Substack查詢所需的網(wǎng)頁搜索工具在當前環(huán)境未啟用，所以無法直接獲取最新鏈接。

而o3表示搜索了，但沒有找到2025年發(fā)布的Borges的Substack文章。

圖片

Ben Hylak還發(fā)現(xiàn)，需要給o3-pro提供更多上下文，要是不提供足夠的上下文，它會出現(xiàn)過度思考的情況。

它在分析方面超強，也很擅長借助工具做事，但自己直接動手做事就沒那么在行。我覺得它會是個超棒的協(xié)調者。不過，有些ClickHouse SQL相關問題，o3處理得更好。實際效果因人而異。

o3-pro給Ben Hylak帶來的體驗與Claude Opus、Gemini 2.5 Pro相比，都不同。

Ben Hylak認為Claude Opus雖體量龐大，但沒讓他真切感受到這種“大”的獨特價值；而o3-pro的輸出更優(yōu)，仿佛兩者完全處于不同的競爭維度。

他繼續(xù)補充道，OpenAI正沿著強化學習路徑深挖（比如Deep Research、Codex項目），不只是教模型“怎么用工具”，更是教它們“思考何時該用工具”。

最后，Ben Hylak總結認為推理模型的Prompt技巧核心邏輯不變，之前他寫的o1提示指南，現(xiàn)在依然適用o3-pro。

首先，“語境”是一切，就像給“餅干怪獸”喂餅干，精準投喂才有效，它是一種引導大語言模型激活“類記憶能力”的方式，但因為足夠精準，所以效果拔群。

另外，系統(tǒng)提示的影響極大。如今模型的可塑性超強，那些能讓模型“理解自身所處環(huán)境與目標”的LLM調教框架，能產生遠超預期的價值。

參考鏈接：

[1]https://www.latent.space/p/o3-pro

[2]https://x.com/Miles_Brundage/status/1932889744306024815

[3]https://x.com/ficlive/status/1932588629768982751

[4]https://x.com/bindureddy/status/1932889892562088086

責任編輯：武曉燕來源：量子位

o3-pro OpenAI 員工

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營