偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

中杯o3成OpenAI“性價比之王”?ARC-AGI測試結(jié)果出爐:得分翻倍、成本僅1/20

人工智能 新聞
ARC-AGI是一項旨在評判大模型的“智力”,或者說“AGI能力”的基準測試。

得分比第二名翻倍,成本卻僅為1/20?!

o3中杯在超難推理任務(wù)ARC-AGI上的新成績,屬實又給眾人帶來了億點點震撼。

圖片

根據(jù)ARC Prize官方介紹,本輪測試得出的關(guān)鍵結(jié)論如下:

  • o3 (Medium) 在ARC-AGI-1上得分為57%,成本為1.5美元/任務(wù),優(yōu)于目前所有已知COT推理模型;
  • o4-mini(Medium)在ARC-AGI-1上得分為42%,成本為0.23美元/任務(wù),準確率不足但成本優(yōu)勢明顯;
  • 在難度升級的ARC-AGI-2上,兩種型號模型的準確率均未超過3%

圖片

按照最新ARC測試,中杯o3堪稱目前OpenAI所有模型中的“性價比之王”。

不過值得注意的是,相比2024年12月OpenAI在“雙十二”直播活動中發(fā)布的o3模型,最新成績可謂“大幅縮水”。

當時o3在低推理能力設(shè)置下(Low)得分高達75.7%,并且讓模型推理更長時間后,其得分更是首次超越人類(85%)飆升至87.5%。

圖片

那么問題來了,為何短短幾個月過去,o3模型在ARC測試上的得分差異明顯呢?

原來前后兩個模型雖然名稱一樣,但實際并非相同的模型。

OpenAI當下最新的o3,已針對聊天和產(chǎn)品應(yīng)用進行了微調(diào)。

圖片△圖源:ARC Prize官網(wǎng)

甚至,OpenAI研究員們也強調(diào),最新發(fā)布的o3并未專門針對ARC-AGI測試進行訓(xùn)練。

也就是說,中杯o3第一次挑戰(zhàn)ARC難題就取得了好成績。

圖片圖片

賓大沃頓商學(xué)院教授Ethan Mollick更是直言:

現(xiàn)在有更多的證據(jù)表明, o3代表著一次重大進步。

圖片

與此同時,時代雜志發(fā)表的一篇獨家文章表示,o3優(yōu)于94%的專業(yè)病毒學(xué)家。其在這一專業(yè)領(lǐng)域的準確率達到了43.8%,相比之下博士級人類專家的準確率僅為22.1%。

圖片

中杯o3 ARC-AGI測試成績出爐

ARC-AGI是一項旨在評判大模型的“智力”,或者說“AGI能力”的基準測試。

里面包含了一系列拼圖問題,要求AI從不同顏色的方塊中識別出視覺模式,并生成正確的 “答案” 網(wǎng)格。這些問題主要是為了迫使AI適應(yīng)未曾見過的新問題。

圖片

正如開頭所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“稱王稱霸”。而在看到這一成績后,ARC官方感受到了進一步更新的緊迫性。

于是在2024年3月,他們上新了ARC-AGI-2版本,核心目標是測試模型能否高效地獲取超出其訓(xùn)練數(shù)據(jù)的新技能。

具體而言,在ARC-AGI-1基礎(chǔ)之上,官方引入了更多符號解釋、多組合規(guī)則以及需要更深層次抽象的任務(wù),難度再次大升級。

正是基于以上兩個測試基準,在OpenAI最新上線了o3和o4-mini之后,ARC又重新進行了測試。

除了中杯o3取得的好成績,更多測試結(jié)果如下:

首先是o3 (high),ARC官方自稱耗費超過5萬美元,最終仍未獲得o3 (high)的完整測試結(jié)論。

理由是,在高推理能力設(shè)置下,模型在大多數(shù)情況下均無法響應(yīng)或超時,最后只有不到一半的任務(wù)返回了結(jié)果。

不過參與審查的Mike Knoop表示,建議默認使用o3 (high)設(shè)置,除非遇到超時才切換到Medium選項。

同時他認為,雖然中杯o3的準確率遠低于o3-preview(去年12月的版本),但毫無疑問o3整體在準確率和成本優(yōu)化方面做得非常出色。

如今,你在其他任何地方都買不到o3級別的AI推理能力。

一言以蔽之,本輪測試結(jié)果表明,中杯o3在繼承o3-preview大部分新功能的前提下,成本有了大幅下降。

圖片

除此之外,ARC官方還得出了三個關(guān)鍵發(fā)現(xiàn):

1、早期響應(yīng)準確率更高:模型越早返回的任務(wù),準確率越高。而那些耗時更長(無論是運行時間還是token使用量)的任務(wù),失敗的可能性更大。

2、高級推理可能效率低下:在相同任務(wù)上比較中杯o3和o3 (high)時,發(fā)現(xiàn)后者始終使用更多token來得出相同的答案。

3、每秒token數(shù)的最小變化:在o系列模型中,不同任務(wù)的每秒token數(shù)差異較小。特別是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。

圖片

One More Thing

順帶一提,ARC官方早前還測試過DeepSeek-R1。

最終結(jié)果是,在ARC-AGI-1基準上,DeepSeek-R1得分為15.8%,遠低于o3模型。

圖片

你怎么看o3的新測試?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-26 11:42:56

ARC-AGI大模型人工智能

2025-05-14 10:09:12

2024-12-23 07:40:00

AI模型數(shù)學(xué)

2024-06-20 10:43:15

2025-04-22 09:18:57

2025-03-25 13:07:36

2025-06-17 08:40:44

2024-12-24 16:15:04

2025-04-21 08:22:25

2025-05-28 11:43:48

多模態(tài)大模型RBench-V

2025-03-10 08:10:00

AI研究安全

2025-04-23 08:30:05

2025-02-07 09:05:36

2025-05-28 00:00:00

2025-04-17 14:09:52

OpenAI模型編程

2025-02-18 08:15:03

2025-03-18 13:14:13

2024-12-23 10:20:00

數(shù)據(jù)訓(xùn)練模型

2024-12-30 09:30:00

OpenAIAI訓(xùn)練

2024-12-24 14:30:00

模型AI訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號