偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="0ojrh"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

EvaLearn：AI下半場的全新評測范式！

2025-07-29 09:05:00

人工智能新聞

來自復(fù)旦大學(xué)自然語言處理實驗室和字節(jié)跳動 Seed 等單位的研究人員，共同提出了一種全新的大模型評測范式：EvaLearn —— 一個評估大模型學(xué)習(xí)能力與學(xué)習(xí)效率的開創(chuàng)性基準(zhǔn)，為理解模型的類人學(xué)習(xí)潛力提供了全新視角。

在三個月前，OpenAI 研究員 Shunyu Yao 發(fā)表了一篇關(guān)于 AI 的下半場的博客引起了廣泛討論。他在博客中指出，AI 研究正在從 “能不能做” 轉(zhuǎn)向 “學(xué)得是否有效”，傳統(tǒng)的基準(zhǔn)測試已經(jīng)難以衡量 AI 的實際效用，他指出現(xiàn)有的評估方式中，模型被要求獨立完成每個任務(wù)，然后取平均得分。這種方式忽略了任務(wù)之間的連貫性，無法評估模型長期適應(yīng)能力和更類人的動態(tài)學(xué)習(xí)能力。

圖出自 Shunyu Yao Blog：The second half

什么是更類人的動態(tài)學(xué)習(xí)能力？不妨想象一下，一位學(xué)生在做數(shù)學(xué)題時，通過前面題目的解答經(jīng)驗，逐漸掌握更高效的解題方法，在后續(xù)題目中表現(xiàn)越來越好。這種在實踐中不斷優(yōu)化策略、提升能力的過程，正是人類智能靈活性與適應(yīng)性的體現(xiàn)。

而對于 LLM 而言，能否具備類似的 “成長” 能力，關(guān)乎其能否真正邁向通用人工智能的殿堂。但長期以來，由于缺乏有效的評估手段，這一重要維度始終隱藏在迷霧之中。

來自復(fù)旦大學(xué)自然語言處理實驗室和字節(jié)跳動 Seed 等單位的研究人員，共同提出了一種全新的大模型評測范式：EvaLearn —— 一個評估大模型學(xué)習(xí)能力與學(xué)習(xí)效率的開創(chuàng)性基準(zhǔn)，為理解模型的類人學(xué)習(xí)潛力提供了全新視角。

作為首個專注于量化 LLM 學(xué)習(xí)能力與效率的基準(zhǔn)，EvaLearn 以「連續(xù)問題求解」為核心，重新定義了大語言模型的評估邏輯。目前該項目開源僅一個月，官方倉庫的星標(biāo)數(shù)便突破 400+，讓我們來看看這個工作為何廣受關(guān)注。

論文鏈接：https://arxiv.org/pdf/2506.02672
項目鏈接：https://github.com/ByteDance-Seed/EvaLearn

傳統(tǒng)基準(zhǔn)的局限顯而易見：它們將問題視為孤立樣本，模型無法從之前的解答中積累經(jīng)驗，自然也無從評估其「學(xué)習(xí)效率」與「適應(yīng)能力」。

EvaLearn 從零構(gòu)建了 648 個具有挑戰(zhàn)性的問題，將這些問題組織為 182 個序列，每個序列包含來自同一任務(wù)類型的 7 個問題，要求模型按順序求解 —— 前序問題的經(jīng)驗，將直接影響后續(xù)表現(xiàn)的評估。

圖 1 EvaLearn 的評估流程

在評測方面，如上圖所示，EvaLearn 不采用并行評估方式，而是要求模型按順序解決問題，從而系統(tǒng)地評估大語言模型（LLM）的學(xué)習(xí)能力和效率。

這 648 個高難度問題覆蓋六大核心任務(wù)：

摘要（Sum）：評估模型能否通過利用先前經(jīng)驗提高總結(jié)的準(zhǔn)確性和覆蓋范圍；
分類（Cla）：評估模型從解決一系列分類問題中提升其分類技能的能力；
信息抽?。‥x）：衡量模型能否逐步提高關(guān)鍵信息提取的準(zhǔn)確性和完整性；
邏輯推理（LR）：測試模型能否從先前錯誤中學(xué)習(xí)并提高邏輯推理能力；
數(shù)學(xué)推理（MR）：檢驗?zāi)Ｐ湍芊裢ㄟ^利用早期問題的反饋快速掌握數(shù)學(xué)解題方法；
序列推理（SR）：評估模型能否通過從歷史經(jīng)驗中學(xué)習(xí)來增強其解決基于序列問題的能力，包括理清事件步驟和推理邏輯。

每個問題都配有一個由專業(yè)標(biāo)注員編寫的細致評分標(biāo)準(zhǔn)（rubric），結(jié)合 GPT-4o 作為「驗證器」，來判斷模型生成的答案的正確性。經(jīng)過大量實驗，基于 rubric 的驗證器，在評價各種水平的模型時，評估準(zhǔn)確率均超過 95%。這實現(xiàn)了高效的自動化評測。

研究團隊 EvaLearn 上對九個前沿大語言模型進行了全面研究，總結(jié)了幾個關(guān)鍵發(fā)現(xiàn)：

(1) 模型在不同任務(wù)類型中展現(xiàn)出多樣的學(xué)習(xí)能力。大部分模型通常更擅長利用先前經(jīng)驗來解決涉及數(shù)學(xué)和邏輯推理的任務(wù)，而諸如總結(jié)之類的任務(wù)則更傾向于依賴在預(yù)訓(xùn)練期間獲取的知識以及模型的固有能力。此外，不同任務(wù)的學(xué)習(xí)效率也有顯著差異。

(2) 基于思維鏈的大語言模型在學(xué)習(xí)能力和學(xué)習(xí)效率上通常優(yōu)于非基于思維鏈的大語言模型。它們能更好地利用經(jīng)驗解決新問題，并且表現(xiàn)出更高的學(xué)習(xí)穩(wěn)定性，更有可能在一系列任務(wù)中連續(xù)解決多個問題。

(3) 反饋學(xué)習(xí)（即將來自驗證器的評價和反饋作為上下文提供）能讓模型借助對先前解決方案的反饋及基于評分標(biāo)準(zhǔn)的評估來優(yōu)化問題解決，顯著提升學(xué)習(xí)能力與效率。相較于示例學(xué)習(xí)（指將先前的問題和規(guī)范解決方案作為上下文提供），反饋學(xué)習(xí)的效果更為顯著。

(4) 學(xué)習(xí)能力和學(xué)習(xí)效率的指標(biāo)共同提供了對模型學(xué)習(xí)潛力的全面評估，兩種動態(tài)能力與靜態(tài)模型能力沒有很強的相關(guān)性。即使是靜態(tài)性能較高的大語言模型，也并非在所有任務(wù)的學(xué)習(xí)能力上都具有明顯優(yōu)勢。

評估指標(biāo)

為了評價模型的學(xué)習(xí)能力和學(xué)習(xí)潛力，EvaLearn 設(shè)計了一套全面的評估指標(biāo)體系，從多個維度刻畫模型的動態(tài)學(xué)習(xí)能力：

整體序列準(zhǔn)確率（Acc）：連續(xù)任務(wù)中，模型答對的總題數(shù)占總題數(shù)的比例，直接反映整體表現(xiàn)，值越高越好。
準(zhǔn)確率曲線斜率（k）：通過擬合各位置的準(zhǔn)確率變化曲線，斜率 k 體現(xiàn)學(xué)習(xí)速度，k 越大，說明模型從前期問題中學(xué)習(xí)越快，后續(xù)準(zhǔn)確率提升越明顯。
首次正確位置（P_first）：模型第一次答對問題的位置，P_first 值越小，說明越快找到解題思路。
連續(xù)正確次數(shù)（N_consec）：用于評估模型學(xué)習(xí)的穩(wěn)定性與經(jīng)驗復(fù)用能力。模型連續(xù)答對的題數(shù)，值越高，說明學(xué)習(xí)穩(wěn)定性越強，能更好復(fù)用已有經(jīng)驗。
熱身后準(zhǔn)確率（Acc_pw-K）：該指標(biāo)重點關(guān)注模型在經(jīng)過一定數(shù)量問題的 “熱身” 后，積累了一定經(jīng)驗時的準(zhǔn)確率表現(xiàn)。它體現(xiàn)了模型在適應(yīng)任務(wù)、積累經(jīng)驗后的實際適應(yīng)與提升水平，排除了模型初始狀態(tài)對整體評估的干擾。

大模型在 EvaLearn 上的表現(xiàn)

研究人員們比較兩種問題求解范式：并行求解和順序求解，以研究大語言模型的學(xué)習(xí)能力和效率。

并行求解（Parallel Solving）

零樣本（Zero-shot）：模型獨立地解決每個問題，無法訪問之前問題的任何經(jīng)驗。這種設(shè)置與多數(shù)現(xiàn)有基準(zhǔn)測試方法一致，評估模型在無學(xué)習(xí)機會下解決復(fù)雜問題的固有能力。

少樣本（Few-shot）：針對每個問題，模型會獲得三個來自同一任務(wù)的示例（即 3-shot），以指導(dǎo)輸出格式和解題方法。每類任務(wù)內(nèi)的問題共享相同的示例。

順序求解（Sequential Solving）

示例學(xué)習(xí)（Demonstration Learning）：在解決當(dāng)前問題之前，模型會獲得同一序列中之前所有問題及其標(biāo)準(zhǔn)答案，類似于上下文學(xué)習(xí)。

反饋學(xué)習(xí)（Feedback Learning）：在解決當(dāng)前問題時，模型可以訪問之前所有問題、它們的解答以及針對模型自身前次解答的詳細反饋。這些反饋是由評審使用實例級評分標(biāo)準(zhǔn)生成的。本設(shè)置評估模型是否能利用自身經(jīng)驗改善隨后的表現(xiàn)。系統(tǒng)提示如圖 22 所示。

研究者在所有實驗中評估了九個最前沿的 LLMs，包括 “思維型” 和 “非思維型” 模型，結(jié)果如表 1。

表 1: 反饋學(xué)習(xí)與零樣本并行求解之間的整體準(zhǔn)確率差異

研究問題一：

LLMs 能否通過問題序列進行學(xué)習(xí)？

發(fā)現(xiàn)一：

LLMs 在從問題序列中學(xué)習(xí)的能力存在差異，且這種差異不僅體現(xiàn)在模型之間，也體現(xiàn)在任務(wù)類型之間。此外，大多數(shù)模型在 “熱身階段” 后表現(xiàn)更佳。

表 1 總結(jié)了反饋學(xué)習(xí)與零樣本并行求解之間的整體準(zhǔn)確率差異。研究者觀察到，有五個模型從順序?qū)W習(xí)中獲益，有四個模型表現(xiàn)略有下降，思維型模型在表現(xiàn)上變化更顯著，例如 OpenAI-o3-mini 在整體上提升了 +10.5%，為提升幅度最大者。這說明某些模型可以有效利用先前的經(jīng)驗來解決同一任務(wù)中的問題。

在任務(wù)類型方面，大多數(shù) LLMs 在數(shù)學(xué)推理和分類任務(wù)中通過學(xué)習(xí)獲得了提升。但在摘要任務(wù)中，大多數(shù)模型表現(xiàn)下降（9 個模型中有 7 個下降），這可能是因為摘要任務(wù)更依賴模型預(yù)訓(xùn)練時獲得的知識和指令遵循能力，額外引入的經(jīng)驗反而會干擾模型完成任務(wù)。

此外，研究人員還對 “熱身后準(zhǔn)確率（Acc_pw-K）” 進行了分析，結(jié)果發(fā)現(xiàn)多數(shù)模型在序列后期表現(xiàn)更為出色，特別是思維型模型。這意味著它們能夠?qū)⒃缙趩栴}當(dāng)作練習(xí)，不斷優(yōu)化自身，進而提升后續(xù)任務(wù)的表現(xiàn)，圖 3 左側(cè)清晰地展現(xiàn)了這一現(xiàn)象。

圖 2 左側(cè)為 Claude-3.7-Sonnet-Thinking 的熱身后準(zhǔn)確率結(jié)果，右側(cè)為 DeepSeek-R1 的逐位置準(zhǔn)確率結(jié)果

發(fā)現(xiàn)二：

學(xué)習(xí)穩(wěn)定性在不同任務(wù)和模型之間差異顯著。對于某些任務(wù)（如摘要），當(dāng)前的模型更擅長利用其固有知識來解決問題，而不是依賴從先前問題中獲得的經(jīng)驗。

圖 3 左側(cè)為連續(xù)正確解的平均數(shù)量（N_consec），右側(cè)為首次正確解的平均位置（P_first）。結(jié)果以 OpenAI-o3-mini 為例展示，每個節(jié)點代表一個序列。

研究者通過分析 N_consec 指標(biāo)來進一步研究 LLMs 的學(xué)習(xí)穩(wěn)定性。圖 2 左側(cè)顯示了 o3-mini 的結(jié)果。圖中每個彩色節(jié)點代表數(shù)據(jù)集中的一個問題序列，節(jié)點位置越高表示模型在該序列中連續(xù)解答正確的問題越多。

結(jié)果表明，這一指標(biāo)在不同任務(wù)之間差異明顯，對于大多數(shù)模型來說，邏輯推理任務(wù)上更難連續(xù)做對題目。

在思維型模型與非思維型模型之間，這一指標(biāo)的表現(xiàn)也存在顯著差異。結(jié)果發(fā)現(xiàn)思維型模型相比非思維型模型通常具有更高的連續(xù)正確解答數(shù)。這說明思維型模型不僅更能從先前經(jīng)驗中受益提升表現(xiàn)，還能保持更高的穩(wěn)定性，更有可能連續(xù)解答多個相關(guān)問題。

有趣的是，在摘要任務(wù)中，模型的 N_consec 值較高，但 Acc_pw-K 卻明顯下降，這表明其在序列后期的問題上表現(xiàn)反而不如前期問題。這意味著在此類任務(wù)中，連續(xù)解題能力可能更多依賴模型固有的知識和靜態(tài)能力，而不是從序列中學(xué)習(xí)到的經(jīng)驗。

發(fā)現(xiàn)三：

學(xué)習(xí)能力為評估模型提供了一個獨立于靜態(tài)性能的新視角，揭示了其潛在的學(xué)習(xí)能力。

表 2 結(jié)果進一步表明，并行解題的高表現(xiàn)不代表學(xué)習(xí)能力優(yōu)異。邏輯推理任務(wù)中，Claude-3.7-Sonnet-Thinking 的并行表現(xiàn)不及 DeepSeek-R1 與 Doubao-1.5-Thinking-Pro，但通過反饋學(xué)習(xí)范式大幅提升；o3-mini 則在兩種設(shè)置下均表現(xiàn)最佳。再如數(shù)學(xué)推理任務(wù)，DeepSeek-R1 零樣本表現(xiàn)優(yōu)于 o3-mini，卻未能從經(jīng)驗中有效學(xué)習(xí)，反而在反饋學(xué)習(xí)中性能下降。

值得注意的是，靜態(tài)能力相近的模型可能學(xué)習(xí)能力迥異：Claude-3.7-Sonnet-Thinking 與 GPT-4o 在序列推理任務(wù)中零樣本準(zhǔn)確率均為 31.7%，但前者提升 14.5%，后者僅提升 0.5%；而在數(shù)學(xué)推理中，GPT-4o 的學(xué)習(xí)能力反超前者。這說明學(xué)習(xí)能力不僅因模型而異，也因任務(wù)而變。

這些發(fā)現(xiàn)表明，學(xué)習(xí)能力是評估模型的重要獨立維度，與靜態(tài)性能無關(guān)且具有任務(wù)差異性。研究者在問題三中進一步分析不同學(xué)習(xí)范式下的模型表現(xiàn)，為該結(jié)論提供了更多佐證。

研究問題二：

大語言模型在從一系列問題中

學(xué)習(xí)的效率如何？

圖 4 所有模型和任務(wù)在反饋學(xué)習(xí)中擬合的逐位置準(zhǔn)確率曲線斜率（k）結(jié)果

發(fā)現(xiàn)四：

不同模型和任務(wù)類型之間的學(xué)習(xí)效率存在顯著差異。

總體而言，多數(shù)非思維型模型在經(jīng)驗積累中進步更快，思維型模型則表現(xiàn)出更穩(wěn)定的收益。

圖 2 右側(cè)呈現(xiàn)了 DeepSeek-R1 的逐位準(zhǔn)確率曲線，圖 4 熱圖則匯總了這些曲線的斜率（k），直接反映模型學(xué)習(xí)效率。研究發(fā)現(xiàn)，多數(shù)非思維型模型的逐位準(zhǔn)確率曲線斜率更陡峭，這可能與其起始性能較低、更易抓住 “低垂的果實” 有關(guān)。相比之下，思維型模型的學(xué)習(xí)過程更穩(wěn)定。這表明思維型模型更擅長利用先前問題的信息（包括評判模型反饋），從而實現(xiàn)更高效的推理與更穩(wěn)定的性能提升。

此外，多數(shù)模型在數(shù)學(xué)推理任務(wù)中展現(xiàn)正向?qū)W習(xí)效率，但在順序推理任務(wù)上普遍出現(xiàn)性能下降，這說明即便在有明確解題路徑與反饋的推理任務(wù)中，學(xué)習(xí)效率也會因任務(wù)特性產(chǎn)生顯著差異，受多重因素影響。

因此，我們可以得出結(jié)論：模型的學(xué)習(xí)效率受靜態(tài)能力、任務(wù)類型與推理方法共同影響：非思維型模型借助經(jīng)驗實現(xiàn)快速提升，思維型模型則以更穩(wěn)定的方式持續(xù)進步。

研究問題三：

不同的學(xué)習(xí)方式

是否會帶來性能差異？

發(fā)現(xiàn)五：

不同的解題方式會顯著影響模型性能。

模型可通過示例學(xué)習(xí)積累經(jīng)驗，反饋學(xué)習(xí)則能進一步強化其學(xué)習(xí)能力。值得注意的是，學(xué)習(xí)能力與模型的靜態(tài)能力并無強相關(guān)性。

圖 5 呈現(xiàn)了模型在四種解題方法下的表現(xiàn)。研究者發(fā)現(xiàn)，對多數(shù)模型而言，示例學(xué)習(xí)的效果通常優(yōu)于并行的少樣本學(xué)習(xí)。以 Claude-3.7-Sonnet-Thinking 為例，其在五個任務(wù)中相較于少樣本設(shè)置均實現(xiàn)持續(xù)提升。這背后的關(guān)鍵原因在于，示例學(xué)習(xí)讓模型能夠訪問序列中所有先前問題及標(biāo)準(zhǔn)答案，進而從過往經(jīng)驗中有效學(xué)習(xí)。

圖 5 四種求解方法的整體準(zhǔn)確率對比，包括兩種并行方法（即零樣本和少樣本）與兩種序列方法（即示例學(xué)習(xí)和反饋學(xué)習(xí)）

此外，圖 6、7、8 比較了模型采用反饋學(xué)習(xí)與示例學(xué)習(xí)兩種學(xué)習(xí)范式后在熱身后準(zhǔn)確率（Acc_pw-K）和斜率 k 方面的差異。結(jié)果表明，對于大多數(shù)模型，反饋學(xué)習(xí)比示例學(xué)習(xí)能獲得更高的平均總體準(zhǔn)確率和更大的學(xué)習(xí)效率。

圖 6 所有模型和任務(wù)中，反饋學(xué)習(xí)與示例學(xué)習(xí)的斜率差異（Δk）熱圖

圖 7 反饋學(xué)習(xí)（上）和示范學(xué)習(xí)（下）的熱身后準(zhǔn)確率（Acc_pw-K）結(jié)果

值得注意的是，每個大模型在某些任務(wù)中都表現(xiàn)出較強的學(xué)習(xí)能力，但沒有任何模型能在所有任務(wù)中始終實現(xiàn)穩(wěn)定的學(xué)習(xí)提升。這些結(jié)果表明，每個模型都有其優(yōu)勢，學(xué)習(xí)能力與靜態(tài)表現(xiàn)之間并不強相關(guān)。因此，學(xué)習(xí)能力和效率提供了一個評估模型表現(xiàn)的新視角，有助于理解當(dāng)前模型與人類能力之間的差距。

發(fā)現(xiàn)六：

首個正確解答的位置平均值（P_first）在不同模型和任務(wù)之間存在差異，這一指標(biāo)揭示了模型的學(xué)習(xí)潛力。

研究人員們還分析了首個正確解答的位置平均值 P_first，發(fā)現(xiàn)這一指標(biāo)對于不同任務(wù)之間的模型表現(xiàn)差異很大。例如，在邏輯推理序列中，大多數(shù)模型都難以早期解出首個問題，只有 o3-mini 和 Doubao-1.5-Thinking-Pro 能持續(xù)取得早期成功。九個模型中有七個在有反饋的情況下，能更早解出問題。

這表明，與僅提供標(biāo)準(zhǔn)答案相比，反饋更能促進模型學(xué)習(xí)和掌握任務(wù)。例如，在邏輯推理任務(wù)中，o3-mini 有時在只使用示例學(xué)習(xí)時無法解出任何問題，但在使用反饋學(xué)習(xí)后，能在每個序列中至少解出一個問題。因此，P_first 能綜合反映模型的靜態(tài)能力、學(xué)習(xí)能力和學(xué)習(xí)速度，從而揭示其學(xué)習(xí)潛力。

結(jié)語

研究人員們提出了 EvaLearn，這是一個新穎的基準(zhǔn)測試框架，用于在特定任務(wù)中對模型的學(xué)習(xí)能力和效率進行序列化評估。

EvaLearn 配備了一套全面的評估指標(biāo)，揭示了在多種任務(wù)中，包括依賴思維過程和不依賴思維過程的任務(wù)，前沿模型之間顯著的性能差異，這些指標(biāo)從多個角度全面評估了模型的學(xué)習(xí)表現(xiàn)。EvaLearn 提供了更現(xiàn)實、動態(tài)的評估方式，幫助研究人員更好地理解模型與人類之間的差距，推動更強大模型的發(fā)展。

此外，研究者發(fā)現(xiàn)，盡管某些模型能夠有效利用教師模型對先前解答的反饋來提升學(xué)習(xí)效果，但另一些模型卻難以從這類反饋中獲益。EvaLearn 為評估大型語言模型的潛力提供了新的視角，是邁向動態(tài)評估的重要開創(chuàng)性一步。

責(zé)任編輯：張燕妮來源：機器之心

大模型 AI 測評

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="g9hjj"></sub>

<style id="g9hjj"></style>

<sub id="g9hjj"></sub>