谷歌發(fā)布BIG-Bench超難基準(zhǔn):DeepSeek-R1得分6.8,只有o3-mini超過(guò)10分
隨著 AI 能力的提升,一個(gè)常見(jiàn)的話題便是基準(zhǔn)不夠用了——一個(gè)新出現(xiàn)的基準(zhǔn)用不了多久時(shí)間就會(huì)飽和,比如 Replit CEO Amjad Masad 就預(yù)計(jì) 2023 年 10 月提出的編程基準(zhǔn) SWE-bench 將在 2027 年飽和。
也因此,為了更加準(zhǔn)確地評(píng)估 AI 模型的能力,不斷有研究團(tuán)隊(duì)構(gòu)建出新的數(shù)據(jù)集和基準(zhǔn),比如我們前段時(shí)間報(bào)道過(guò)的 ZeroBench 和 HLE(人類的最后考試),它們都帶有大量當(dāng)前的 AI 模型難以解決的難題。
近日,谷歌也發(fā)布了一個(gè)高難度基準(zhǔn):BIG-Bench Extra Hard,簡(jiǎn)稱 BBEH。從名字也能看出來(lái),這個(gè)基準(zhǔn)非常難(Extra Hard)并且與久負(fù)盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)關(guān)系密切。

- 論文標(biāo)題:BIG-Bench Extra Hard
- 論文地址:https://arxiv.org/pdf/2502.19187
- 數(shù)據(jù)地址:https://github.com/google-deepmind/bbeh
正如其論文一作 Mehran Kazemi 指出的那樣,相比于 BIG-Bench Hard,BBEH 中每個(gè)任務(wù)都更加困難,給當(dāng)前所有模型都創(chuàng)造了進(jìn)步空間。

另一位作者、DeepMind 著名研究科學(xué)家 Yi Tay 也建議 AI 研究者在自己的下一篇論文中使用該基準(zhǔn)。

那么,BBEH 究竟有多難呢?當(dāng)前能力最強(qiáng)的 o3-mini (high) 得分也僅有 44.8 分,不及格。而其它被測(cè)模型的得分均不超過(guò) 10 分!DeepSeek-R1 僅有 6.8,谷歌自家的 Gemini-2.0-Flash 也只有 9.8。遺憾的是,該團(tuán)隊(duì)并沒(méi)有給出近期發(fā)布的 Grok-3 與 Claude 3.7 Sonnet 的表現(xiàn)。

該團(tuán)隊(duì)在論文中解釋了構(gòu)建 BBEH 基準(zhǔn)的動(dòng)機(jī),其中指出目前對(duì)推理模型的評(píng)估大都依賴數(shù)學(xué)、科學(xué)和編程基準(zhǔn),而涉及到更多方面的 BIG-Bench 及其更難的子集 BIG-Bench Hard(BBH)基準(zhǔn)則正趨向飽和 —— 當(dāng)前領(lǐng)先的模型在 BBH 上的準(zhǔn)確度都已經(jīng)超過(guò) 90%。因此,BBH 已經(jīng)無(wú)力評(píng)估前沿模型的推理能力。
BBEH 便應(yīng)運(yùn)而生,其設(shè)計(jì)目標(biāo)是「評(píng)估高階推理能力」。
BIG-Bench Extra Hard
BBEH 是基于 BBH 構(gòu)建的——將 BBH 中的 23 個(gè)任務(wù)中的每一個(gè)都替換成了另一個(gè)在類似推理領(lǐng)域中并測(cè)試類似(或更多)技能的任務(wù),當(dāng)然,新任務(wù)的難度要大得多。這種替換方法可以確保新數(shù)據(jù)集保留了原始 BBH 數(shù)據(jù)集的高度多樣性。
表 1 給出了 BBEH 中新任務(wù)的高層級(jí)描述,包括它們是如何構(gòu)建的以及它們替換了 BBH 中的哪個(gè)任務(wù),以及它們針對(duì)哪些推理技能。

該基準(zhǔn)中,每個(gè)任務(wù)包含 200 個(gè)問(wèn)題,但 Disambiguation QA 任務(wù)例外,有 120 個(gè)問(wèn)題。
下圖展示了一些具體任務(wù)示例:

該論文的詳細(xì)創(chuàng)建過(guò)程以及對(duì) BBEH 數(shù)據(jù)集的分析請(qǐng)參閱原論文,下面我們重點(diǎn)來(lái)看看前沿模型在該基準(zhǔn)上的表現(xiàn)以及相關(guān)分析結(jié)果。
模型表現(xiàn)及分析
首先來(lái)看各家前沿模型的表現(xiàn)如何,下表是準(zhǔn)確度分?jǐn)?shù)詳情。

根據(jù)此結(jié)果,該團(tuán)隊(duì)得出了幾個(gè)有趣的觀察:
- 模型在各個(gè)任務(wù)上都有很大的進(jìn)步空間,在 BBEH 整體上也是如此。
- 通用模型的最佳性能為 9.8% 的調(diào)和平均準(zhǔn)確率。推理專用模型在該基準(zhǔn)上的表現(xiàn)優(yōu)于通用模型(符合預(yù)期),但這些模型在 BBEH 上的最佳性能仍只有 44.8%。
- 盡管采用了對(duì)抗性結(jié)構(gòu),但參考 Thinking 模型在 BBEH 上的調(diào)和平均準(zhǔn)確率仍只有 20.2%。
- 一些模型的準(zhǔn)確率甚至低于隨機(jī)性能。經(jīng)檢查,他們發(fā)現(xiàn)原因大多是模型無(wú)法在有效輸出 token 長(zhǎng)度內(nèi)解決問(wèn)題并在某個(gè)點(diǎn)之后開(kāi)始退化,因此無(wú)法從其解答中提取出最終答案。
另外,還能看到不同模型擅長(zhǎng)不同類型的推理。例如,DeepSeek R1 在 BoardgameQA 上的表現(xiàn)明顯優(yōu)于其他模型,o3-mini (high) 在 Temporal Sequences 和 Object Properties 上的表現(xiàn)明顯優(yōu)于其他模型,GPT4o 在 NYCC 上的表現(xiàn)明顯優(yōu)于其他模型,GPT4o 和 Gemini 2.0 Flash 在 SARC Triples 上的表現(xiàn)明顯優(yōu)于其他模型。
該團(tuán)隊(duì)還進(jìn)行了進(jìn)一步的結(jié)果分析。
通用模型與推理模型
推理模型可以利用更多測(cè)試時(shí)間計(jì)算進(jìn)行思考,因此在涉及數(shù)學(xué)和編碼的推理任務(wù)上實(shí)現(xiàn)了巨大的性能飛躍。例如,在 AIME2024 數(shù)據(jù)集上,GPT4o 的性能為 13.4%,但 o1 模型將其提高到 83.3%,o3-mini (high) 將其進(jìn)一步提高到 87.3%。
在這里,該團(tuán)隊(duì)檢查了不同類型的一般推理是否也是如此。
如圖 5 所示,該團(tuán)隊(duì)分別將 o3-mini (high) 和 GPT4o 作為推理和一般模型的模范,在 BBEH 的每個(gè)任務(wù)上進(jìn)行了比較,并根據(jù) o3-mini (high) 相對(duì)于 GPT4o 的增益程度對(duì)任務(wù)進(jìn)行升序排序。

可以觀察到,增益最大的任務(wù)是那些涉及計(jì)數(shù)、規(guī)劃、算術(shù)以及數(shù)據(jù)結(jié)構(gòu)和算法的任務(wù)。而增益最少(有時(shí)為負(fù)值)的任務(wù)大多涉及常識(shí)、幽默、諷刺和因果關(guān)系。
結(jié)果表明,推理模型在解決形式化問(wèn)題時(shí)會(huì)取得最顯著的收益,而在處理復(fù)雜的現(xiàn)實(shí)場(chǎng)景時(shí)(通常需要軟推理技能)則收益有限。
模型大小的影響
該團(tuán)隊(duì)還探討了模型大小對(duì)模型性能的影響。
如圖 6 所示,他們?cè)?BBEH 的不同任務(wù)上比較了 Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite,并根據(jù) Flash 相對(duì)于 Flash-Lite 的收益按升序方式對(duì)任務(wù)進(jìn)行排序。

雖然信號(hào)不如將一般模型與推理模型進(jìn)行比較時(shí)那么清晰,但仍然可以觀察到與幽默、常識(shí)和因果推理相關(guān)的任務(wù)收益最少,而需要多跳推理或應(yīng)用算法的任務(wù)收益最大。
一個(gè)特殊的例外是 SARC Triples 任務(wù),這是一個(gè)諷刺理解任務(wù),并且收益很大。這可能部分是由于 SARC Triples 中的每個(gè)樣本都是三個(gè)子問(wèn)題的組合,而較大的模型可能更擅長(zhǎng)處理這種復(fù)合問(wèn)題。
上下文長(zhǎng)度和所需思考的影響
BBEH 中的任務(wù)具有不同的平均上下文長(zhǎng)度,并且可能需要不同的思考量?;诖?,可以了解上下文長(zhǎng)度和所需思考對(duì)推理與一般模型以及較大模型與較小模型的影響。
圖 7 比較了 o3-mini (high) 與 GPT4o 以及 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite 的性能,這里使用了任務(wù)平均上下文長(zhǎng)度和平均輸出長(zhǎng)度作為所需思考的代理。

可以觀察到,無(wú)論是在上下文長(zhǎng)度增加時(shí),還是在所需思考增加時(shí),o3-mini 的收益都比 GPT4o 更高;這表明與一般模型相比,推理模型在兩個(gè)方向上都可能有所改進(jìn)。對(duì)于 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite,可以看到當(dāng)上下文長(zhǎng)度增加時(shí),收益也有類似的增長(zhǎng),但思考增加時(shí),曲線基本保持平坦。





































