偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多元推理刷新「人類的最后考試」記錄,o3-mini(high)準(zhǔn)確率最高飆升到37%

人工智能 新聞
近日,波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中,提出了一種在測試時(shí)結(jié)合多種模型和方法的多元推理方法。

近段時(shí)間,DeepSeek R1 推理模型引爆了國內(nèi)外社交媒體,讓人們見識(shí)到了大語言模型類人的深度思考能力。

雖然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在數(shù)學(xué)和編程領(lǐng)域取得了重大進(jìn)展,但在面對(duì)一些測試基準(zhǔn)時(shí)仍然力不從心,比如國際數(shù)學(xué)奧林匹克競賽(IMO)組合問題、抽象和推理語料庫(ARC)謎題和人類的最后考試(HLE)問題。以 HLE 為例,主流的推理模型集體翻車,結(jié)果顯示 DeepSeekR1、o1 的準(zhǔn)確率都低于 10%。

如何提升推理模型在這些較難基準(zhǔn)上的準(zhǔn)確率呢?近日,波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中,提出了一種在測試時(shí)結(jié)合多種模型和方法的多元推理方法。結(jié)果顯示,該推理方法在驗(yàn)證數(shù)學(xué)和編碼問題以及其他問題的拒絕采樣時(shí)簡單而高效。

具體來講,研究者通過交互式定理證明器 Lean 來自動(dòng)驗(yàn)證 IMO 問題答案的正確性,通過代碼自動(dòng)驗(yàn)證 ARC 謎題,以及通過 best-of-N 算法有效地回答 HLE 問題。

  • 論文標(biāo)題:Diverse Inference and Verification for Advanced Reasoning
  • 論文地址:https://arxiv.org/pdf/2502.09955

從實(shí)驗(yàn)結(jié)果來看,研究者將 IMO 組合問題答案的準(zhǔn)確率從 33.3% 提升到 77.8%將 HLE 問題的準(zhǔn)確率從 8% 提升到 37%,并解決了 948 名人類無法攻克的 80%的 ARC 謎題和 o3 high 無法解決的 26.5 % 的 ARC 謎題

研究者表示,通過調(diào)整代理圖表示和不同的提示詞、代碼和數(shù)據(jù)集,測試時(shí)模擬、強(qiáng)化學(xué)習(xí)和具有推理反饋的元學(xué)習(xí)等可以提高推理模型的泛化能力。

此外,研究者還發(fā)現(xiàn)了基礎(chǔ)語言模型的第三個(gè)實(shí)證性 scaling law,即多種模型、方法的數(shù)量與可驗(yàn)證問題性能之間的關(guān)系,它們呈正向關(guān)系。前兩個(gè) scaling law 分別如下:

  • 模型大小、數(shù)據(jù)大小和損失之間的關(guān)系,即更多參數(shù)、訓(xùn)練數(shù)據(jù)和訓(xùn)練時(shí)的語言模型表現(xiàn)更好。
  • 模型性能和測試時(shí)算力之間的關(guān)系,早期棋盤游戲中驗(yàn)證了訓(xùn)練時(shí)和測試時(shí)算力之間的權(quán)衡,增加其中任何一項(xiàng)都會(huì)帶來更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了測試時(shí)算力擴(kuò)展對(duì)推理型 LLM 的助益。

方法概覽

研究者在方法部分主要有以下三項(xiàng)成果:

一是多元推理(diverse inference)。研究者在測試時(shí)聚合了多個(gè)模型、方法和代理,而不是依賴單個(gè)模型和方法。任何一個(gè)正確的解決方案都會(huì)對(duì) IMO 組合題和 ARC 謎題的可驗(yàn)證任務(wù)進(jìn)行自動(dòng)驗(yàn)證。具體如下:

  • IMO:研究者使用 8 種不同的方法,分別是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV,可以顯著提高推理模型準(zhǔn)確率。其中將英語題目自動(dòng)形式化為 Lean,從而完成了完美驗(yàn)證。
  • ARC:合成代碼解決方案在訓(xùn)練示例上作為單元測試(unit test)進(jìn)行驗(yàn)證。
  • HLE:使用 best-of-N 作為不完美驗(yàn)證器,隨著示例增加而解決率提升。

二是測試時(shí)模擬和強(qiáng)化學(xué)習(xí)。研究者在推理時(shí)生成了額外的特定于問題的信息,其中:

  • IMO:將組合題轉(zhuǎn)化為了可交互游戲環(huán)境,并使用組合搜索或深度強(qiáng)化學(xué)習(xí)來得出部分結(jié)果或邊界。
  • ARC:通過合成代碼來探索謎題轉(zhuǎn)換,從而刪除不正確的解決方案并優(yōu)化候選解決方案。

另外,研究者表示,在給定相同數(shù)據(jù)集的情況下,使用訓(xùn)練過的驗(yàn)證器進(jìn)行搜索往往比監(jiān)督微調(diào)效果要好,這激發(fā)了強(qiáng)化學(xué)習(xí)微調(diào)。他們通過運(yùn)行測試時(shí)模擬和強(qiáng)化學(xué)習(xí)來生成額外數(shù)據(jù),從而能夠正確證明 2024 IMO 組合題并求解困難的 ARC 謎題。

下圖 1 展示了研究者求解 IMO 組合題所用方法的高級(jí)架構(gòu),其流程包含了幾個(gè)組件,分別是編碼、模擬以及深度強(qiáng)化學(xué)習(xí)和解碼。

在編碼階段,研究者通過將問題形式化為狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)來找到答案,然后提示 LLM 將問題轉(zhuǎn)化為一個(gè)游戲環(huán)境。研究者將問題表示為 Gymnasium 開源項(xiàng)目中的 Python 代碼,其中包括代理和策略,并使用模擬和深度強(qiáng)化學(xué)習(xí)來找到最優(yōu)策略。他們重復(fù)此過程,為每個(gè)問題生成具有不同維的多個(gè)游戲,并為每個(gè)游戲的不同情節(jié)生成對(duì)應(yīng)的數(shù)據(jù)和視頻。

在解碼階段,研究者提取數(shù)據(jù)和幀并通過轉(zhuǎn)換對(duì)它們進(jìn)行擴(kuò)充,并使用 LLM 以摘要的形式為每個(gè)序列的圖像和策略解釋編寫文本表示。最后,研究者利用這些信息以及附錄 M 和 N 中的問題陳述、答案、書籍和指南,通過上下文學(xué)習(xí)來自動(dòng)形式化證明。

三是代碼圖的元學(xué)習(xí)。研究者使用 LLM 和其他工具來追蹤 pipeline 運(yùn)行,并生成超參數(shù)、提示詞、代碼標(biāo)題和數(shù)據(jù)的 A/B 測試,并自適應(yīng)地修改代理圖。

實(shí)驗(yàn)結(jié)果

研究者使用了不同的模型和方法對(duì) IMO 組合問題進(jìn)行了廣泛的評(píng)估,他們測試了來自未污染(non-contaminated)考試中的所有組合問題。

結(jié)果顯示,零樣本 o1 回答對(duì)了 1/9(準(zhǔn)確率約 11%)的問題,使用 o3-mini 的最佳方法回答對(duì)了 3/9(準(zhǔn)確率約 33.3%)的問題,而使用了 o3-mini high 的 8 種多元方法回答對(duì)了 7/9(準(zhǔn)確率約 77.8%)的問題,并進(jìn)行了自動(dòng)驗(yàn)證。

類似地,使用 o1 的最佳方法回答對(duì)了 3/9(準(zhǔn)確率約 33.3%)的問題,而使用了 o1 的多元方法回答對(duì)了 6/9(準(zhǔn)確率約 66.7%)的問題,也進(jìn)行了自動(dòng)驗(yàn)證。

其次,研究者使用了 400 個(gè) ARC 評(píng)估謎題,對(duì) 16 個(gè)模型和方法進(jìn)行了廣泛的評(píng)估,結(jié)果如下圖 4 和圖 5 所示,共有以下幾項(xiàng)發(fā)現(xiàn)

  • 沒有 o3,16 個(gè)多元模型和方法將模型性能從 53%提升到了 69.5%。
  • 有了 o3,16 個(gè)多元模型和方法將模型性能從 91.5% 提升到了 93.75%。
  • 16 個(gè)多元模型和方法解決了 948 名人類無法解決的 80% 的謎題。
  • 16 個(gè)多元模型和方法解決了 o3 high 失敗的 26.5% 的謎題。

最后對(duì)于 HLE 問題,由于計(jì)算成本的原因,研究者隨機(jī)抽取了 100 個(gè)問題進(jìn)行測試。不同模型和方法的準(zhǔn)確率如下表 1 所示,其中 o3-mini high 非多模態(tài),取得了 13.0%的準(zhǔn)確率;Deep Research 使用了網(wǎng)絡(luò)搜索和代碼,取得了最高 26.6%的準(zhǔn)確率。

此外,使用 o3-mini high 對(duì)這 100 個(gè)隨機(jī)采樣問題進(jìn)行 best-of-N 拒絕采樣(N=3),所有類別的準(zhǔn)確率為 37%,數(shù)學(xué)問題的準(zhǔn)確率為 33.3%;使用 o1 時(shí)所有類別的準(zhǔn)確率為 21%,數(shù)學(xué)問題的準(zhǔn)確率為 29.6%,具體如下圖 6 和圖 7 所示。


更多方法細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱論文附錄。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-08 17:00:11

2024-12-24 16:15:04

2025-01-20 19:52:50

2025-02-03 14:06:32

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2025-02-08 11:44:03

2023-10-26 08:40:15

模型隱私推理

2023-12-12 13:51:00

AI訓(xùn)練

2025-02-10 00:00:01

2025-02-18 09:00:00

2025-02-25 12:30:00

2025-05-13 08:24:14

2025-03-11 08:50:00

2023-11-20 21:56:04

AI推理

2025-04-27 09:15:40

2025-02-07 11:20:50

2020-10-29 15:58:43

阿里AI雙11

2025-04-23 08:30:05

2024-01-29 12:49:00

AI模型

2024-07-08 08:39:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)