剛剛!OpenAI 上線 o3-pro,性能碾壓 Gemini 與 Claude,重新定義“模型”
剛剛!OpenAI發(fā)布了它自稱“迄今為止最強(qiáng)大”的模型:o3-pro。
——這是此前發(fā)布的推理模型 o3 的“加強(qiáng)版”。
圖片
o3-pro屬于“推理模型”,它可以一步步拆解問(wèn)題、邏輯嚴(yán)密地得出結(jié)論。這種能力使它在物理、數(shù)學(xué)、編程等嚴(yán)謹(jǐn)性要求較高的領(lǐng)域表現(xiàn)更為穩(wěn)定可靠。
OpenAI宣稱,在評(píng)估中,o3-pro在所有測(cè)試領(lǐng)域都優(yōu)于基礎(chǔ)版o3,尤其在科學(xué)、教育、寫(xiě)作輔助、商業(yè)分析和編程等領(lǐng)域,獲得了評(píng)審的一致好評(píng)。它不僅在準(zhǔn)確性、清晰度、全面性上表現(xiàn)更強(qiáng),還更擅長(zhǎng)理解復(fù)雜指令。
目前,o3-pro已經(jīng)上線:
- ChatGPT Pro 和 Team 用戶已可使用(取代舊版 o1-pro);
- 企業(yè)和教育用戶將在下周獲得權(quán)限;
- 開(kāi)發(fā)者API也已經(jīng)接入,價(jià)格為每百萬(wàn)輸入tokens 20美元,輸出tokens 80美元。
順便說(shuō)一句,百萬(wàn)輸入tokens大約等于75萬(wàn)字——比《戰(zhàn)爭(zhēng)與和平》還要長(zhǎng)一點(diǎn)。
圖片
除了基礎(chǔ)對(duì)話能力,o3-pro還擁有多項(xiàng)高級(jí)功能:聯(lián)網(wǎng)搜索、視覺(jué)識(shí)別、Python工具調(diào)用、文件分析、甚至可以基于記憶進(jìn)行個(gè)性化響應(yīng)。但也并非完美無(wú)缺:
例如,暫時(shí)不支持圖片生成;Canvas 工作區(qū)功能不兼容;臨時(shí)對(duì)話功能暫時(shí)關(guān)閉;響應(yīng)速度相比o1-pro略慢。
不過(guò)在一系列專業(yè)基準(zhǔn)測(cè)試中,o3-pro打敗了Google的Gemini 2.5 Pro和Anthropic的Claude 4 Opus,尤其是在AIME 2024(高難數(shù)學(xué)測(cè)試)和GPQA Diamond(博士級(jí)科學(xué)測(cè)試)中斬獲佳績(jī)。
圖片
而這場(chǎng)替換來(lái)的悄無(wú)聲息。沒(méi)有發(fā)布會(huì),也沒(méi)有 demo 視頻。OpenAI 用慣常方式在 changelog 中寫(xiě)道:“評(píng)審一致認(rèn)為 o3-pro 在科學(xué)、教育、編程、商業(yè)和寫(xiě)作幫助等關(guān)鍵領(lǐng)域優(yōu)于 o3。”評(píng)價(jià)中,“清晰度”“全面性”“指令執(zhí)行力”“準(zhǔn)確性”成為關(guān)鍵詞。
One more thing
圖片
除了新模型,還有另一個(gè)消息:
OpenAI 原計(jì)劃在 6 月發(fā)布的開(kāi)源模型——推遲了。
6 月 10 日,Sam Altman 在 X 上發(fā)文宣布:開(kāi)源模型將延遲至“夏末”上線。他寫(xiě)道:“我們的研究團(tuán)隊(duì)做了一些意想不到又非常驚艷的事情,我們相信這非常值得等待,但還需要一點(diǎn)時(shí)間?!?/p>
這本應(yīng)是 OpenAI 多年來(lái)首個(gè)真正意義上的開(kāi)源權(quán)重模型。據(jù)稱,它將具備與 o 系列相似的“推理能力”,目標(biāo)是超越當(dāng)前最強(qiáng)開(kāi)源推理模型,如 DeepSeek 的 R1。而在這條時(shí)間線上,OpenAI 已落后一步——就在同一天,Mistral 發(fā)布了自家首個(gè)推理模型家族 Magistral;更早之前, Qwen 推出了一套支持推理與快速切換的混合模型。
據(jù) TechCrunch 報(bào)道,OpenAI 此前內(nèi)部也在討論給開(kāi)源模型接入云端能力,例如復(fù)雜問(wèn)題時(shí)自動(dòng)請(qǐng)求 OpenAI 云模型協(xié)助。但這些功能最終是否會(huì)出現(xiàn)在首發(fā)版本中,尚未可知。
Altman 曾公開(kāi)承認(rèn),OpenAI 在“開(kāi)源與封閉”的爭(zhēng)議中站到了“歷史錯(cuò)誤的一邊”。這次推遲,某種意義上,是技術(shù)節(jié)奏的調(diào)整,也可能是一次產(chǎn)品路線的重新權(quán)衡。
推理模型顯然是今年 AI 賽道的新焦點(diǎn):更像人類思維、更少幻覺(jué)、更適用于復(fù)雜任務(wù)。但當(dāng)商業(yè)化模型搶占企業(yè)市場(chǎng),開(kāi)源模型搶占開(kāi)發(fā)者生態(tài),OpenAI 是否還能兩頭通吃?
真正的問(wèn)題是:它還來(lái)得及奪回“開(kāi)源”的主動(dòng)權(quán)嗎?






































