譯者 | 李睿
審校 | 重樓
本文對(duì)OpenAI的o3-pro與谷歌的Gemini 2.5 Pro在圖像分析、邏輯推理和數(shù)字推理上的表現(xiàn)進(jìn)行了比較。o3-pro在推理和工具使用上有所增強(qiáng),但Gemini 2.5 Pro在邏輯和數(shù)學(xué)推理上更準(zhǔn)確可靠。Gemini 2.5 Pro在復(fù)雜任務(wù)中表現(xiàn)更佳,提供經(jīng)過(guò)驗(yàn)證的準(zhǔn)確響應(yīng),適合對(duì)準(zhǔn)確性要求高的任務(wù),而o3-pro雖然快速但存在關(guān)鍵錯(cuò)誤。
在人工智能推理模型領(lǐng)域的激烈競(jìng)爭(zhēng)中,OpenAI的o3-pro與谷歌的Gemini 2.5 Pro正在爭(zhēng)奪高級(jí)推理和多模態(tài)能力的最佳頭銜。o3 pro 建立在o3的基礎(chǔ)上,配備了增強(qiáng)的推理、工具使用和性能,特別是在科學(xué)、編程和可靠性方面表現(xiàn)出色。Gemini 2.5 Pro憑借其原生多模態(tài)輸入、上百萬(wàn)個(gè)令牌上下文長(zhǎng)度和卓越的基準(zhǔn)測(cè)試性能脫穎而出,特別是在編程和推理方面。本文將對(duì)這兩個(gè)人工智能推理模型在性能、功能、成本和行業(yè)用例方面的表現(xiàn)進(jìn)行比較。
什么是OpenAI o3 pro?
OpenAI o3-pro是OpenAI公司最新推出的功能強(qiáng)大的人工智能推理模型,建立在“反思性”o3架構(gòu)上,但運(yùn)行在高計(jì)算量、擴(kuò)展思維模式下。它是專為在科學(xué)、數(shù)學(xué)、編程、商業(yè)和寫作等最復(fù)雜領(lǐng)域?qū)崿F(xiàn)最高性能而設(shè)計(jì)的。
OpenAI o3 pro的關(guān)鍵特性
以下討論o3-pro模型中的增強(qiáng)之處:
- 提高推理能力:專家評(píng)審表明,o3 pro在每個(gè)類別中的評(píng)分都優(yōu)于常規(guī)o3,尤其是在科學(xué)、編程和商業(yè)任務(wù)方面。
- 工具集成:o3 pro可以查詢網(wǎng)絡(luò)、瀏覽文件、執(zhí)行Python代碼,并回憶過(guò)去的對(duì)話。與早期的推理模型不同,使用這些工具將需要更長(zhǎng)的時(shí)間來(lái)生成響應(yīng)。
- 深度逐步推理:利用內(nèi)部“私有思維鏈”,以逐步的方式實(shí)現(xiàn)推理來(lái)設(shè)計(jì)和評(píng)估答案,這可以為與數(shù)學(xué)、編碼和科學(xué)問(wèn)題相關(guān)的更復(fù)雜的任務(wù)提供一定程度的準(zhǔn)確性。
- 多模態(tài)推理:它們可以直接處理視覺信息并將其整合到推理鏈中,這使它們能夠解釋和分析圖像以及文本數(shù)據(jù)。
OpenAI o3 pro vs Gemini 2.5 pro
以下將評(píng)估OpenAI o3 pro和Gemini 2.5 pro的三個(gè)主要功能:
- 圖像分析
- 邏輯推理
- 數(shù)字推理
評(píng)估的目的是查看每個(gè)模型執(zhí)行其任務(wù)的情況,這樣就可以了解它們?cè)诂F(xiàn)實(shí)世界中的優(yōu)缺點(diǎn)和有效性。這一細(xì)分將幫助開發(fā)人員、研究人員或業(yè)務(wù)用戶更好地理解哪種模型更適合。
任務(wù)1:圖像分析
提示:“采用100個(gè)單詞解釋上傳的圖像,并提供簡(jiǎn)潔而全面的描述?!?/span>
輸入圖像:
o3 pro輸出:
Gemini 2.5 Pro輸出:
輸出比較
OpenAI o3 pro提供了更完整、更直觀的解釋,引用了標(biāo)簽和觀察者視角等關(guān)鍵圖像元素。Gemini 2.5 Pro的描述準(zhǔn)確清晰,但細(xì)節(jié)較少。
方面 | o3 pro | Gemini 2.5 Pro |
清晰度 | 精確解釋折射和圖解元素 | 強(qiáng)調(diào)感知的一般性描述 |
技術(shù)細(xì)節(jié) | 包括折射率、光線彎曲和路徑曲率 | 只聚焦于表面位置信息,對(duì)背后的細(xì)節(jié)機(jī)制有所忽視 |
圖表焦點(diǎn) | 描述了帶標(biāo)簽的部分和箭頭 | 主要描述整體概念,與圖表具體功能之間的關(guān)聯(lián)性較弱 |
得分:OpenAI 3 pro:1 | Gemini 2.5 pro:0
任務(wù)2:邏輯推理
提示:“一家公司發(fā)生了數(shù)據(jù)泄露事件,涉及以下4名員工中的3名:Alex、Beth、Carl和Dana。
訪問(wèn)要求:
- 數(shù)據(jù)泄露需要同時(shí)具備的條件:有技術(shù)訪問(wèn)權(quán)限的人和有物理訪問(wèn)權(quán)限的人
- Alex:只有技術(shù)訪問(wèn)權(quán)限| Beth:只有物理訪問(wèn)權(quán)限|Carl:兩者都有|Dana:兩者都有
聲明:
- Alex:“如果Beth是泄露者,那么Carl不是?!?/span>
- Beth:“要么Dana是無(wú)辜的,要么共有兩個(gè)人參與。”
- Carl:“Alex在撒謊。另外,如果我有罪,那么Dana是無(wú)辜的。”
- Dana:“如果Carl認(rèn)為Alex撒謊的說(shuō)法是正確的,那么Beth說(shuō)我是無(wú)辜的就是錯(cuò)的?!?/span>
規(guī)則:
- 至少有一人說(shuō)出了全部真相
- 泄露者不會(huì)直接暴露自己
- 每個(gè)人不能對(duì)別人的罪行撒謊,也不能與他們合謀。
問(wèn)題:數(shù)據(jù)泄露者是哪三個(gè)人?展示完整的邏輯推理和證據(jù)。”
o3 pro輸出:
Gemini 2.5 Pro輸出:
輸出比較
Gemini 2.5 Pro模型通過(guò)系統(tǒng)地分解每個(gè)前提、仔細(xì)分析邏輯命題的正確使用以及全面考慮每種結(jié)果,展現(xiàn)了卓越的邏輯推理能力。其考慮還包括對(duì)任何可能出現(xiàn)的矛盾進(jìn)行深思熟慮的處理。雖然o3 pro能夠得出正確的結(jié)論,但當(dāng)關(guān)鍵理由未被納入考量,其邏輯推理往往缺乏充分依據(jù)。而且在開展邏輯推理工作時(shí),明顯缺乏深度思考。
方面 | o3 pro | Gemini 2.5 Pro |
邏輯方法 | 存在缺陷:在缺乏充分依據(jù)的情況下進(jìn)行邏輯推導(dǎo),存在邏輯跳躍的現(xiàn)象 | 嚴(yán)謹(jǐn)規(guī)范:將陳述轉(zhuǎn)換為形式邏輯命題 |
系統(tǒng)分析 | 不夠完善:沒有系統(tǒng)地評(píng)估所有可能的情況 | 細(xì)致全面:評(píng)估了所有4種可能的犯罪組合 |
應(yīng)用程序規(guī)則 | 淺嘗輒止:運(yùn)用規(guī)則,但沒有深入分析矛盾 | 深入透徹:從規(guī)則中確定了關(guān)鍵推論,例如Carl一定在撒謊,Beth/Dana不能都有罪等 |
矛盾處理 | 視而不見:對(duì)謎題中潛在的邏輯矛盾未予重視,缺乏有效的解決措施 | 坦誠(chéng)面對(duì):承認(rèn)所有場(chǎng)景在初步分析時(shí)似乎都存在不可能性,并針對(duì)謎題中可能存在的歧義展開了深入討論 |
邏輯嚴(yán)謹(jǐn) | 不足之處:推理過(guò)程中存在多個(gè)步驟不夠合理,邏輯鏈條不夠緊密 | 表現(xiàn)出色:每一個(gè)推論都有充分的依據(jù)和合理的支撐,邏輯嚴(yán)謹(jǐn)性極高 |
得分:OpenAI 3- Pro:1 | Gemini 2.5 Pro:1
任務(wù)3:數(shù)值推理
提示:“考慮這個(gè)序列,其中每個(gè)項(xiàng)都遵循特定的數(shù)學(xué)規(guī)則:
序列:2,12,36,80,150,?
A:找出序列中的下一個(gè)數(shù)字并解釋其基本規(guī)律。
B:現(xiàn)在考慮這個(gè)修改:如果應(yīng)用相同的模式規(guī)則,但從3開始而不是2,這個(gè)新序列的第7項(xiàng)是什么?
C:這是具有挑戰(zhàn)性的部分:對(duì)原始序列(2,12,36,80,150)有第二個(gè)有效的數(shù)學(xué)解釋,它遵循完全不同的模式規(guī)則。找到這種替代模式,并確定在這種解釋下接下來(lái)的兩項(xiàng)是什么。
D:考慮到發(fā)現(xiàn)的兩種解釋,如果有人告訴第6項(xiàng)實(shí)際上是252,那么哪種解釋是正確的,第8項(xiàng)是什么?
問(wèn)題:解決所有部分,展示數(shù)學(xué)推理、使用的公式和模式的驗(yàn)證。解釋為什么在C部分的替代解釋在數(shù)學(xué)上是有效的,并且與第一個(gè)解決方案不同。”
o3 pro輸出:
Gemini 2.5 Pro輸出:
輸出比較
結(jié)果表明,Gemini 2.5 Pro在整個(gè)過(guò)程中對(duì)正確數(shù)學(xué)推理的陳述更為準(zhǔn)確,從而優(yōu)于o3 Pro。Gemini分配了正確的模式識(shí)別元素,并對(duì)其預(yù)測(cè)結(jié)果進(jìn)行了系統(tǒng)性的驗(yàn)證,以產(chǎn)生更清晰、正確的解決方案。盡管o3Pro在運(yùn)用有限差分法處理復(fù)雜數(shù)學(xué)問(wèn)題時(shí)展現(xiàn)出了令人矚目的能力,然而在B部分和D部分,其出現(xiàn)的關(guān)鍵性錯(cuò)誤嚴(yán)重影響了最終結(jié)論的可靠性??傮w而言,由于o3Pro的推理過(guò)程更為復(fù)雜,對(duì)其進(jìn)行全面且深入的分析是必要的。不過(guò),在四個(gè)子部分的具體表現(xiàn)中,o3 Pro在分析、決策以及結(jié)論制定環(huán)節(jié)確實(shí)展現(xiàn)出了更為出色的能力。但在準(zhǔn)確性、數(shù)學(xué)運(yùn)算的精準(zhǔn)度以及最終的價(jià)值評(píng)估方面,o3Pro僅獲得了3-1的評(píng)分,明顯處于劣勢(shì)。
方面 | o3 pro | Gemini 2.5 Pro |
模式識(shí)別 | 使用有限差分法(第一、第二、第三差分)識(shí)別二次模式 | 通過(guò)位置-關(guān)系直接識(shí)別公式Tn=n3+n2 |
數(shù)學(xué)嚴(yán)謹(jǐn)性 | 分析復(fù)雜,但執(zhí)行有缺陷,存在基本概念錯(cuò)誤 | 始終保持一致的準(zhǔn)確性,并進(jìn)行適當(dāng)?shù)墓津?yàn)證 |
呈現(xiàn)方式 | 詳細(xì)的分步分解,明確差異計(jì)算 | 基于公式推理的干凈、直接的方法,便于快速理解核心邏輯 |
總體可靠性 | 盡管采用了先進(jìn)的技術(shù),但有兩個(gè)主要錯(cuò)誤影響了解決方案的質(zhì)量 | 憑借無(wú)誤差的數(shù)學(xué)推理得出正確最終答案,展現(xiàn)出極高的總體可靠性 |
得分:OpenAI o3 pro:1 | Gemini 2.5 pro:2
最終決定
如果始終如一的良好推理對(duì)用戶來(lái)說(shuō)很重要,特別是對(duì)于由多步驟推理、編碼或多模態(tài)輸入組成的復(fù)雜任務(wù),可以使用Gemini 2.5 Pro,因?yàn)樵谶@個(gè)使用場(chǎng)景中,它已證明具有非??煽康男阅?,以更有利的成本產(chǎn)生更準(zhǔn)確的響應(yīng)。O3 pro非常適合快速生成響應(yīng),并利用先進(jìn)的分析技術(shù),但它包含關(guān)鍵錯(cuò)誤,使其在準(zhǔn)確性至關(guān)重要的關(guān)鍵任務(wù)中不可靠。
Gemini 2.5 Pro提供經(jīng)過(guò)系統(tǒng)批判性分析驗(yàn)證的、經(jīng)過(guò)驗(yàn)證的準(zhǔn)確響應(yīng)。如果用戶正在為一般任務(wù)尋找一個(gè)很好的解決方案,甚至是獲得正確響應(yīng)最重要的特殊任務(wù)(即使速度稍慢),強(qiáng)烈建議使用Gemini 2.5 Pro。
方面 | OpenAI o3 pro | Gemini 2.5 Pro |
推理能力 | 技術(shù)復(fù)雜,但在執(zhí)行過(guò)程中容易出現(xiàn)嚴(yán)重錯(cuò)誤 | 通過(guò)嚴(yán)格的驗(yàn)證和系統(tǒng)的方法,始終保持準(zhǔn)確 |
方法質(zhì)量 | 詳細(xì)分析,但由于計(jì)算錯(cuò)誤需要進(jìn)行錯(cuò)誤檢查 | 徹底、有條不紊的推理,并內(nèi)置適當(dāng)?shù)尿?yàn)證 |
可靠性 | 包含基本錯(cuò)誤(4項(xiàng)任務(wù)中有2項(xiàng)出現(xiàn)關(guān)鍵錯(cuò)誤) | 在復(fù)雜邏輯和數(shù)學(xué)任務(wù)中表現(xiàn)無(wú)錯(cuò)誤 |
速度 | 更快的響應(yīng)生成 | 處理速度較慢,但分析更徹底 |
定價(jià) | 20美元/100萬(wàn)輸入令牌,80美元/100萬(wàn)輸出令牌(成本高,可靠性可疑) | 約1.25美元~15美元/100萬(wàn)令牌(成本更低,準(zhǔn)確性更高) |
最適合 | 需要詳細(xì)分析并能夠獨(dú)立驗(yàn)證結(jié)果的用戶 | 需要可靠、準(zhǔn)確的結(jié)果來(lái)完成一般任務(wù)和關(guān)鍵任務(wù)的用戶 |
基準(zhǔn)測(cè)試:OpenAI o3 pro vs Gemini 2.5 pro
以下柱狀圖比較了OpenAI o3 pro和谷歌的Gemini 2.5 pro在兩個(gè)重要指標(biāo)上的表現(xiàn)。
- AIME 2024——這是一項(xiàng)難度較大數(shù)學(xué)競(jìng)賽測(cè)試,旨在評(píng)估數(shù)學(xué)推理和解決問(wèn)題的能力。
- GPQA Diamond——這是一項(xiàng)針對(duì)研究生學(xué)習(xí)的專業(yè)問(wèn)答基準(zhǔn),旨在評(píng)估理性推理和學(xué)科掌握能力。
性能總結(jié):
在AIME 2024上,OpenAI o3 pro的得分為93%,而Gemini 2.5 pro的得分為92%,這是一個(gè)非常小的差距,使OpenAI在數(shù)學(xué)和邏輯推理任務(wù)上略占優(yōu)勢(shì)。
在GPQA Diamond上,兩種模型的表現(xiàn)得分相同,均為84%,并且在研究生水平的常識(shí)和批判性思維方面表現(xiàn)非常出色。
結(jié)論
OpenAI o3 pro和Gemini 2.5 pro都是令人驚嘆的人工智能模型,在不同的環(huán)境中的表現(xiàn)都很出色。基于對(duì)比分析,Gemini 2.5 Pro在更復(fù)雜的情況下提高了準(zhǔn)確性和系統(tǒng)分析推理,例如有組織的邏輯謎題和數(shù)學(xué)分析,允許更好地驗(yàn)證標(biāo)準(zhǔn)和系統(tǒng)推理的應(yīng)用。OpenAI o3 pro表現(xiàn)出良好和復(fù)雜的分析推理能力,但犯了嚴(yán)重的錯(cuò)誤,這些錯(cuò)誤是不可接受的,并破壞了其在關(guān)鍵任務(wù)應(yīng)用中的可靠性。
在分析細(xì)節(jié)方面,Gemini 2.5 Pro表現(xiàn)良好,使用了更寬泛的上下文窗口、卓越的多模態(tài)功能,并且定價(jià)合理,非常適合通用任務(wù)和次要任務(wù)。在最終決策階段,用戶面臨著權(quán)衡。他們可以選擇Gemini 2.5 Pro,該產(chǎn)品在實(shí)際應(yīng)用中已以證明其準(zhǔn)確性和成本效益。他們也可以選擇提供更詳盡分析方法的OpenAI o3 pro,盡管準(zhǔn)確性可能稍低一些。
原文標(biāo)題:OpenAI o3 pro vs Gemini 2.5 pro,作者:Soumil Jain