偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<p id="e1tpl"><form id="e1tpl"><pre id="e1tpl"></pre></form></p>

<cite id="e1tpl"><rp id="e1tpl"><form id="e1tpl"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

中杯o3成OpenAI“性價(jià)比之王”？ARC-AGI測試結(jié)果出爐：得分翻倍、成本僅1/20

作者：量子位 2025-04-23 11:19:31

人工智能新聞

ARC-AGI是一項(xiàng)旨在評判大模型的“智力”，或者說“AGI能力”的基準(zhǔn)測試。

得分比第二名翻倍，成本卻僅為1/20？！

o3中杯在超難推理任務(wù)ARC-AGI上的新成績，屬實(shí)又給眾人帶來了億點(diǎn)點(diǎn)震撼。

根據(jù)ARC Prize官方介紹，本輪測試得出的關(guān)鍵結(jié)論如下：

o3 (Medium) 在ARC-AGI-1上得分為57%，成本為1.5美元/任務(wù)，優(yōu)于目前所有已知COT推理模型；
o4-mini（Medium）在ARC-AGI-1上得分為42%，成本為0.23美元/任務(wù)，準(zhǔn)確率不足但成本優(yōu)勢明顯；
在難度升級的ARC-AGI-2上，兩種型號模型的準(zhǔn)確率均未超過3%。

按照最新ARC測試，中杯o3堪稱目前OpenAI所有模型中的“性價(jià)比之王”。

不過值得注意的是，相比2024年12月OpenAI在“雙十二”直播活動(dòng)中發(fā)布的o3模型，最新成績可謂“大幅縮水”。

當(dāng)時(shí)o3在低推理能力設(shè)置下（Low）得分高達(dá)75.7%，并且讓模型推理更長時(shí)間后，其得分更是首次超越人類（85%）飆升至87.5%。

那么問題來了，為何短短幾個(gè)月過去，o3模型在ARC測試上的得分差異明顯呢？

原來前后兩個(gè)模型雖然名稱一樣，但實(shí)際并非相同的模型。

OpenAI當(dāng)下最新的o3，已針對聊天和產(chǎn)品應(yīng)用進(jìn)行了微調(diào)。

△圖源：ARC Prize官網(wǎng)

甚至，OpenAI研究員們也強(qiáng)調(diào)，最新發(fā)布的o3并未專門針對ARC-AGI測試進(jìn)行訓(xùn)練。

也就是說，中杯o3第一次挑戰(zhàn)ARC難題就取得了好成績。

賓大沃頓商學(xué)院教授Ethan Mollick更是直言：

現(xiàn)在有更多的證據(jù)表明， o3代表著一次重大進(jìn)步。

與此同時(shí)，時(shí)代雜志發(fā)表的一篇獨(dú)家文章表示，o3優(yōu)于94%的專業(yè)病毒學(xué)家。其在這一專業(yè)領(lǐng)域的準(zhǔn)確率達(dá)到了43.8%，相比之下博士級人類專家的準(zhǔn)確率僅為22.1%。

中杯o3 ARC-AGI測試成績出爐

ARC-AGI是一項(xiàng)旨在評判大模型的“智力”，或者說“AGI能力”的基準(zhǔn)測試。

里面包含了一系列拼圖問題，要求AI從不同顏色的方塊中識別出視覺模式，并生成正確的 “答案” 網(wǎng)格。這些問題主要是為了迫使AI適應(yīng)未曾見過的新問題。

正如開頭所言，在ARC-AGI-1中，o3模型曾以75.7%的得分“稱王稱霸”。而在看到這一成績后，ARC官方感受到了進(jìn)一步更新的緊迫性。

于是在2024年3月，他們上新了ARC-AGI-2版本，核心目標(biāo)是測試模型能否高效地獲取超出其訓(xùn)練數(shù)據(jù)的新技能。

具體而言，在ARC-AGI-1基礎(chǔ)之上，官方引入了更多符號解釋、多組合規(guī)則以及需要更深層次抽象的任務(wù)，難度再次大升級。

正是基于以上兩個(gè)測試基準(zhǔn)，在OpenAI最新上線了o3和o4-mini之后，ARC又重新進(jìn)行了測試。

除了中杯o3取得的好成績，更多測試結(jié)果如下：

首先是o3 (high)，ARC官方自稱耗費(fèi)超過5萬美元，最終仍未獲得o3 (high)的完整測試結(jié)論。

理由是，在高推理能力設(shè)置下，模型在大多數(shù)情況下均無法響應(yīng)或超時(shí)，最后只有不到一半的任務(wù)返回了結(jié)果。

不過參與審查的Mike Knoop表示，建議默認(rèn)使用o3 (high)設(shè)置，除非遇到超時(shí)才切換到Medium選項(xiàng)。

同時(shí)他認(rèn)為，雖然中杯o3的準(zhǔn)確率遠(yuǎn)低于o3-preview（去年12月的版本），但毫無疑問o3整體在準(zhǔn)確率和成本優(yōu)化方面做得非常出色。

如今，你在其他任何地方都買不到o3級別的AI推理能力。

一言以蔽之，本輪測試結(jié)果表明，中杯o3在繼承o3-preview大部分新功能的前提下，成本有了大幅下降。

除此之外，ARC官方還得出了三個(gè)關(guān)鍵發(fā)現(xiàn)：

1、早期響應(yīng)準(zhǔn)確率更高：模型越早返回的任務(wù)，準(zhǔn)確率越高。而那些耗時(shí)更長（無論是運(yùn)行時(shí)間還是token使用量）的任務(wù)，失敗的可能性更大。

2、高級推理可能效率低下：在相同任務(wù)上比較中杯o3和o3 (high)時(shí)，發(fā)現(xiàn)后者始終使用更多token來得出相同的答案。

3、每秒token數(shù)的最小變化：在o系列模型中，不同任務(wù)的每秒token數(shù)差異較小。特別是o3-mini-low和o4-mini-low的吞吐量（tok/s）高于中高版本。

One More Thing

順帶一提，ARC官方早前還測試過DeepSeek-R1。

最終結(jié)果是，在ARC-AGI-1基準(zhǔn)上，DeepSeek-R1得分為15.8%，遠(yuǎn)低于o3模型。

你怎么看o3的新測試？

責(zé)任編輯：張燕妮來源：量子位

AI 模型測試

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營