偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="c9ppf"></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型碰到真難題了，測了500道，o3 Pro僅通過15%

2025-09-15 09:12:00

人工智能新聞

來自斯坦福大學(xué)、華盛頓大學(xué)等機構(gòu)的研究者探索了一種截然不同的方式：在未解決的問題上評估模型的能力。

基準(zhǔn)測試是檢驗大模型能力的一種方式，一般而言，一個有用的基準(zhǔn)既要足夠難，又要貼近現(xiàn)實：問題既能挑戰(zhàn)前沿模型，又要反映真實世界的使用場景。

然而，現(xiàn)有測試面臨著「難度–真實性」的矛盾：側(cè)重于考試的基準(zhǔn)往往被人為設(shè)置得很難，但實際價值有限；而基于真實用戶交互的基準(zhǔn)又往往偏向于簡單的高頻問題。

在此背景下，來自斯坦福大學(xué)、華盛頓大學(xué)等機構(gòu)的研究者探索了一種截然不同的方式：在未解決的問題上評估模型的能力。

與一次性打分的靜態(tài)基準(zhǔn)不同，該研究不斷收集未解決的問題，然后通過驗證器輔助篩選與社區(qū)驗證機制，實現(xiàn)對模型的持續(xù)異步評估。

具體而言，本文提出了 UQ（Unsolved Questions），這是一個由 500 道題組成的測試集，涵蓋計算機理論、數(shù)學(xué)、科幻、歷史等主題，用于考察模型在推理、事實準(zhǔn)確性以及瀏覽等方面的能力。UQ 在設(shè)計上兼具難度大與貼近真實兩大特點：這些問題大多是人類遇到但尚未解決的難題，因此攻克它們可直接產(chǎn)生現(xiàn)實價值。

論文標(biāo)題：UQ: Assessing Language Models on Unsolved Questions
論文地址：https://arxiv.org/pdf/2508.17580v1
項目地址：https://uq.stanford.edu/

總結(jié)而言，本文貢獻如下：

提出了 UQ 數(shù)據(jù)集及其收集流程：結(jié)合規(guī)則過濾器、大語言模型評審以及人工審核，以確保最終問題的質(zhì)量；
UQ-Validators：復(fù)合驗證策略，利用生成器–驗證器之間的能力差距來構(gòu)建無真值驗證系統(tǒng)（一般而言模型驗證能力優(yōu)于生成能力），并對候選答案進行預(yù)篩選，以便后續(xù)人工審核；
UQ-Platform：一個開放平臺，讓專家能夠共同驗證問題與答案，從而實現(xiàn)持續(xù)的、異步的、社區(qū)驅(qū)動的評估。

實驗中，表現(xiàn)最好的模型僅在 15% 的問題上通過了 UQ 驗證，而初步人工核查已經(jīng)在這些通過驗證的答案中識別出一些正確解答。

數(shù)據(jù)集介紹

UQ 數(shù)據(jù)集由 500 道具有挑戰(zhàn)性的未解決問題組成，問題來源問答社區(qū) Stack Exchange，并且是經(jīng)過三輪篩選得到的。

在篩選流程上，本文首先人工選擇了 80 個 Stack Exchange 社區(qū)（例如 Math Overflow、Physics），并抓取其中未解答的問題，得到大約 300 萬個原始候選問題。

隨后，進入多階段篩選流程。篩選的每一階段都會逐步縮小問題池：基于規(guī)則的篩選將問題縮減至 33,916 個（占原始問題池的 1.13%）；基于大語言模型的篩選進一步縮減至 7,685 個（占原始的 0.26%）；最終通過人工審核（如剔除殘留的重復(fù)、過于簡單、偏題或違反規(guī)則的問題），得到一個精心整理的 500 道題集（占原始的 0.02%）。

隨著問題在篩選流程中逐步推進，它們的難度和質(zhì)量也在逐漸提升。尤其是基于大語言模型的篩選，顯著提高了問題的難度。

數(shù)據(jù)集組成如下所示，主要包含科學(xué)類問題，其次是技術(shù)類與生活藝術(shù)類。本文還發(fā)現(xiàn)不同領(lǐng)域的問題能探測模型的不同能力：例如數(shù)學(xué)問題通常需要開放式證明，而科幻奇幻類問題則偏重瀏覽檢索能力（如根據(jù)片段情節(jié)識別書籍名稱）。

一旦某個問題被判定為已解決，研究者就會在后續(xù)版本中將該問題移除，并用新的未解決問題替換。

UQ 驗證器

雖然 UQ 數(shù)據(jù)集非常具有價值，但要將其用作模型性能的基準(zhǔn)，仍需配套的評分指標(biāo)。然而，由于缺乏標(biāo)準(zhǔn)答案，無法像考試基準(zhǔn)那樣進行自動驗證。

因此，本文轉(zhuǎn)向無監(jiān)督驗證器，即無需標(biāo)準(zhǔn)答案。由于未解問題往往極具挑戰(zhàn)性，這些驗證器的主要目標(biāo)并非證明某個候選答案正確，而是排除錯誤的候選答案；因此，本文刻意使用 validator（驗證器）一詞，而非 judge 或 verifier。

需要特別指出的是，由于缺少標(biāo)準(zhǔn)答案，這類驗證器本身可能經(jīng)常出錯，但它們?nèi)阅茉诤罄m(xù)人工審核中發(fā)揮輔助作用。

據(jù)了解，本文之所以開發(fā)無需標(biāo)準(zhǔn)答案的驗證器，核心動機在于這樣一個假設(shè)：對難題候選答案進行驗證可能比生成這些答案更容易。實驗中采用了這樣的流程，讓一系列能力遞增的模型（例如 o3-mini → o4-mini → o3）回答這 500 道題，記錄它們的答題準(zhǔn)確率；接著，讓每個模型在不接觸標(biāo)準(zhǔn)答案的情況下，驗證其他所有模型給出的答案；最后，用真實答案對這些驗證結(jié)論進行打分，計算驗證準(zhǔn)確率。

圖 5 左顯示：隨著模型能力的提升，它們在驗證準(zhǔn)確率上的進步速度明顯快于答題準(zhǔn)確率。

實驗中使用的驗證器 pipeline：

實驗及結(jié)果

實驗評估了 5 個模型，包括 o3、o4-mini、o3-mini、Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

表 1 結(jié)果顯示，與原始基線相比，驗證策略能夠?qū)嵸|(zhì)性地提高驗證的準(zhǔn)確率和精度。例如，對 Claude 3.7 Sonnet 而言，準(zhǔn)確率從 21.6% 提升到 73.2%，精度從 13.26% 提升到 20%，但往往是以召回率下降為代價。

為了確認(rèn)最終得到的最佳 UQ 驗證器對人類評審者有幫助，該研究邀請若干評審員對 25 個驗證問題進行評分，判斷其給出的判斷理由鏈?zhǔn)欠裨谶壿嬌铣闪?。?2 顯示，人類評審與驗證器的一致率及理由鏈的準(zhǔn)確性都很高，表明該驗證器能為人類評審者提供有效支持。

將大語言模型用于答案驗證時，另一個挑戰(zhàn)是它們常常表現(xiàn)出明顯的評估偏見。當(dāng)研究者把前沿模型直接應(yīng)用于本場景時，發(fā)現(xiàn)所有模型在評估自身或同系模型（即同一開發(fā)者的模型）時，都出現(xiàn)了過度樂觀現(xiàn)象：預(yù)測出的模型性能遠(yuǎn)高于實際性能，如圖 7 所示。

Gemini 明顯偏向自身，相對于其他模型給出顯著更高的評分；
Claude 對所有答案模型（不僅僅是自身）都表現(xiàn)出過度樂觀；
OpenAI 的 o 系列模型則對其他 o 系列同門模型給出過高評價。

隨著模型能力遞增（o3-mini → o3），這種偏見雖有所降低，但并未徹底消除。

本文進一步發(fā)現(xiàn)，采用復(fù)合驗證器能夠顯著削弱答案驗證中的自我偏見與過度樂觀。

最后，本文還發(fā)現(xiàn)，一個更強的答案生成模型并不一定就是更強的答案驗證模型。

本文通過基線提示法和 3 輪迭代驗證流程繪制了模型在 500 個 HLE 問題上的驗證準(zhǔn)確率與答案準(zhǔn)確率關(guān)系圖。雖然更好的答案性能通常預(yù)示著更好的驗證性能（整體呈上升趨勢），但并非絕對。

例如：在沒有流程驗證時，o3 作為答案模型弱于 Gemini 2.5 Pro，但作為驗證模型卻更強；采用流程驗證后，o3-mini 與 Claude 3.7 Sonnet 之間觀察到同樣的逆轉(zhuǎn)趨勢。此外，盡管 Claude 3.7 Sonnet 在答案準(zhǔn)確率上顯著落后于 Gemini 2.5 Pro，但其基于流程驗證的表現(xiàn)卻超越了 Gemini 2.5 Pro 的基線驗證性能。

了解更多內(nèi)容，請參考原論文。

責(zé)任編輯：張燕妮來源：機器之心

AI 大模型測試

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<output id="rkcnp"><blockquote id="rkcnp"><tbody id="rkcnp"></tbody></blockquote></output>