偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="fv2nt"></table>

<em id="fv2nt"><tfoot id="fv2nt"></tfoot></em><ol id="fv2nt"><code id="fv2nt"></code></ol>

<del id="fv2nt"><option id="fv2nt"></option></del>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

多元推理刷新「人類的最后考試」記錄，o3-mini(high)準(zhǔn)確率最高飆升到37％

作者：機(jī)器之心 2025-03-04 10:15:00

人工智能新聞

近日，波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中，提出了一種在測試時(shí)結(jié)合多種模型和方法的多元推理方法。

近段時(shí)間，DeepSeek R1 推理模型引爆了國內(nèi)外社交媒體，讓人們見識(shí)到了大語言模型類人的深度思考能力。

雖然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在數(shù)學(xué)和編程領(lǐng)域取得了重大進(jìn)展，但在面對(duì)一些測試基準(zhǔn)時(shí)仍然力不從心，比如國際數(shù)學(xué)奧林匹克競賽（IMO）組合問題、抽象和推理語料庫（ARC）謎題和人類的最后考試（HLE）問題。以 HLE 為例，主流的推理模型集體翻車，結(jié)果顯示 DeepSeekR1、o1 的準(zhǔn)確率都低于 10%。

如何提升推理模型在這些較難基準(zhǔn)上的準(zhǔn)確率呢？近日，波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中，提出了一種在測試時(shí)結(jié)合多種模型和方法的多元推理方法。結(jié)果顯示，該推理方法在驗(yàn)證數(shù)學(xué)和編碼問題以及其他問題的拒絕采樣時(shí)簡單而高效。

具體來講，研究者通過交互式定理證明器 Lean 來自動(dòng)驗(yàn)證 IMO 問題答案的正確性，通過代碼自動(dòng)驗(yàn)證 ARC 謎題，以及通過 best-of-N 算法有效地回答 HLE 問題。

論文標(biāo)題：Diverse Inference and Verification for Advanced Reasoning
論文地址：https://arxiv.org/pdf/2502.09955

從實(shí)驗(yàn)結(jié)果來看，研究者將 IMO 組合問題答案的準(zhǔn)確率從 33.3% 提升到 77.8%，將 HLE 問題的準(zhǔn)確率從 8% 提升到 37%，并解決了 948 名人類無法攻克的 80％的 ARC 謎題和 o3 high 無法解決的 26.5 % 的 ARC 謎題。

研究者表示，通過調(diào)整代理圖表示和不同的提示詞、代碼和數(shù)據(jù)集，測試時(shí)模擬、強(qiáng)化學(xué)習(xí)和具有推理反饋的元學(xué)習(xí)等可以提高推理模型的泛化能力。

此外，研究者還發(fā)現(xiàn)了基礎(chǔ)語言模型的第三個(gè)實(shí)證性 scaling law，即多種模型、方法的數(shù)量與可驗(yàn)證問題性能之間的關(guān)系，它們呈正向關(guān)系。前兩個(gè) scaling law 分別如下：

模型大小、數(shù)據(jù)大小和損失之間的關(guān)系，即更多參數(shù)、訓(xùn)練數(shù)據(jù)和訓(xùn)練時(shí)的語言模型表現(xiàn)更好。
模型性能和測試時(shí)算力之間的關(guān)系，早期棋盤游戲中驗(yàn)證了訓(xùn)練時(shí)和測試時(shí)算力之間的權(quán)衡，增加其中任何一項(xiàng)都會(huì)帶來更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了測試時(shí)算力擴(kuò)展對(duì)推理型 LLM 的助益。

方法概覽

研究者在方法部分主要有以下三項(xiàng)成果：

一是多元推理（diverse inference）。研究者在測試時(shí)聚合了多個(gè)模型、方法和代理，而不是依賴單個(gè)模型和方法。任何一個(gè)正確的解決方案都會(huì)對(duì) IMO 組合題和 ARC 謎題的可驗(yàn)證任務(wù)進(jìn)行自動(dòng)驗(yàn)證。具體如下：

IMO：研究者使用 8 種不同的方法，分別是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV，可以顯著提高推理模型準(zhǔn)確率。其中將英語題目自動(dòng)形式化為 Lean，從而完成了完美驗(yàn)證。
ARC：合成代碼解決方案在訓(xùn)練示例上作為單元測試（unit test）進(jìn)行驗(yàn)證。
HLE：使用 best-of-N 作為不完美驗(yàn)證器，隨著示例增加而解決率提升。

二是測試時(shí)模擬和強(qiáng)化學(xué)習(xí)。研究者在推理時(shí)生成了額外的特定于問題的信息，其中：

IMO：將組合題轉(zhuǎn)化為了可交互游戲環(huán)境，并使用組合搜索或深度強(qiáng)化學(xué)習(xí)來得出部分結(jié)果或邊界。
ARC：通過合成代碼來探索謎題轉(zhuǎn)換，從而刪除不正確的解決方案并優(yōu)化候選解決方案。

另外，研究者表示，在給定相同數(shù)據(jù)集的情況下，使用訓(xùn)練過的驗(yàn)證器進(jìn)行搜索往往比監(jiān)督微調(diào)效果要好，這激發(fā)了強(qiáng)化學(xué)習(xí)微調(diào)。他們通過運(yùn)行測試時(shí)模擬和強(qiáng)化學(xué)習(xí)來生成額外數(shù)據(jù)，從而能夠正確證明 2024 IMO 組合題并求解困難的 ARC 謎題。

下圖 1 展示了研究者求解 IMO 組合題所用方法的高級(jí)架構(gòu)，其流程包含了幾個(gè)組件，分別是編碼、模擬以及深度強(qiáng)化學(xué)習(xí)和解碼。

在編碼階段，研究者通過將問題形式化為狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)來找到答案，然后提示 LLM 將問題轉(zhuǎn)化為一個(gè)游戲環(huán)境。研究者將問題表示為 Gymnasium 開源項(xiàng)目中的 Python 代碼，其中包括代理和策略，并使用模擬和深度強(qiáng)化學(xué)習(xí)來找到最優(yōu)策略。他們重復(fù)此過程，為每個(gè)問題生成具有不同維的多個(gè)游戲，并為每個(gè)游戲的不同情節(jié)生成對(duì)應(yīng)的數(shù)據(jù)和視頻。

在解碼階段，研究者提取數(shù)據(jù)和幀并通過轉(zhuǎn)換對(duì)它們進(jìn)行擴(kuò)充，并使用 LLM 以摘要的形式為每個(gè)序列的圖像和策略解釋編寫文本表示。最后，研究者利用這些信息以及附錄 M 和 N 中的問題陳述、答案、書籍和指南，通過上下文學(xué)習(xí)來自動(dòng)形式化證明。

三是代碼圖的元學(xué)習(xí)。研究者使用 LLM 和其他工具來追蹤 pipeline 運(yùn)行，并生成超參數(shù)、提示詞、代碼標(biāo)題和數(shù)據(jù)的 A/B 測試，并自適應(yīng)地修改代理圖。

實(shí)驗(yàn)結(jié)果

研究者使用了不同的模型和方法對(duì) IMO 組合問題進(jìn)行了廣泛的評(píng)估，他們測試了來自未污染（non-contaminated）考試中的所有組合問題。

結(jié)果顯示，零樣本 o1 回答對(duì)了 1/9（準(zhǔn)確率約 11％）的問題，使用 o3-mini 的最佳方法回答對(duì)了 3/9（準(zhǔn)確率約 33.3％）的問題，而使用了 o3-mini high 的 8 種多元方法回答對(duì)了 7/9（準(zhǔn)確率約 77.8％）的問題，并進(jìn)行了自動(dòng)驗(yàn)證。

類似地，使用 o1 的最佳方法回答對(duì)了 3/9（準(zhǔn)確率約 33.3％）的問題，而使用了 o1 的多元方法回答對(duì)了 6/9（準(zhǔn)確率約 66.7％）的問題，也進(jìn)行了自動(dòng)驗(yàn)證。

其次，研究者使用了 400 個(gè) ARC 評(píng)估謎題，對(duì) 16 個(gè)模型和方法進(jìn)行了廣泛的評(píng)估，結(jié)果如下圖 4 和圖 5 所示，共有以下幾項(xiàng)發(fā)現(xiàn)

沒有 o3，16 個(gè)多元模型和方法將模型性能從 53％提升到了 69.5%。
有了 o3，16 個(gè)多元模型和方法將模型性能從 91.5% 提升到了 93.75%。
16 個(gè)多元模型和方法解決了 948 名人類無法解決的 80% 的謎題。
16 個(gè)多元模型和方法解決了 o3 high 失敗的 26.5% 的謎題。

最后對(duì)于 HLE 問題，由于計(jì)算成本的原因，研究者隨機(jī)抽取了 100 個(gè)問題進(jìn)行測試。不同模型和方法的準(zhǔn)確率如下表 1 所示，其中 o3-mini high 非多模態(tài)，取得了 13.0％的準(zhǔn)確率；Deep Research 使用了網(wǎng)絡(luò)搜索和代碼，取得了最高 26.6％的準(zhǔn)確率。

此外，使用 o3-mini high 對(duì)這 100 個(gè)隨機(jī)采樣問題進(jìn)行 best-of-N 拒絕采樣（N=3），所有類別的準(zhǔn)確率為 37％，數(shù)學(xué)問題的準(zhǔn)確率為 33.3%；使用 o1 時(shí)所有類別的準(zhǔn)確率為 21%，數(shù)學(xué)問題的準(zhǔn)確率為 29.6%，具體如下圖 6 和圖 7 所示。

更多方法細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱論文附錄。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型訓(xùn)練推理

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="wnxp0"><video id="wnxp0"></video></center><var id="wnxp0"></var>