偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

EvaLearn:AI下半場的全新評測范式!

人工智能 新聞
來自復(fù)旦大學(xué)自然語言處理實驗室和字節(jié)跳動 Seed 等單位的研究人員,共同提出了一種全新的大模型評測范式:EvaLearn —— 一個評估大模型學(xué)習(xí)能力與學(xué)習(xí)效率的開創(chuàng)性基準(zhǔn),為理解模型的類人學(xué)習(xí)潛力提供了全新視角。

在三個月前,OpenAI 研究員 Shunyu Yao 發(fā)表了一篇關(guān)于 AI 的下半場的博客引起了廣泛討論。他在博客中指出,AI 研究正在從 “能不能做” 轉(zhuǎn)向 “學(xué)得是否有效”,傳統(tǒng)的基準(zhǔn)測試已經(jīng)難以衡量 AI 的實際效用,他指出現(xiàn)有的評估方式中,模型被要求獨立完成每個任務(wù),然后取平均得分。這種方式忽略了任務(wù)之間的連貫性,無法評估模型長期適應(yīng)能力和更類人的動態(tài)學(xué)習(xí)能力。

圖片

圖出自 Shunyu Yao Blog:The second half 

什么是更類人的動態(tài)學(xué)習(xí)能力?不妨想象一下,一位學(xué)生在做數(shù)學(xué)題時,通過前面題目的解答經(jīng)驗,逐漸掌握更高效的解題方法,在后續(xù)題目中表現(xiàn)越來越好。這種在實踐中不斷優(yōu)化策略、提升能力的過程,正是人類智能靈活性與適應(yīng)性的體現(xiàn)。

而對于 LLM 而言,能否具備類似的 “成長” 能力,關(guān)乎其能否真正邁向通用人工智能的殿堂。但長期以來,由于缺乏有效的評估手段,這一重要維度始終隱藏在迷霧之中。

來自復(fù)旦大學(xué)自然語言處理實驗室和字節(jié)跳動 Seed 等單位的研究人員,共同提出了一種全新的大模型評測范式:EvaLearn —— 一個評估大模型學(xué)習(xí)能力與學(xué)習(xí)效率的開創(chuàng)性基準(zhǔn),為理解模型的類人學(xué)習(xí)潛力提供了全新視角。

作為首個專注于量化 LLM 學(xué)習(xí)能力與效率的基準(zhǔn),EvaLearn 以「連續(xù)問題求解」為核心,重新定義了大語言模型的評估邏輯。目前該項目開源僅一個月,官方倉庫的星標(biāo)數(shù)便突破 400+,讓我們來看看這個工作為何廣受關(guān)注。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2506.02672
  • 項目鏈接:https://github.com/ByteDance-Seed/EvaLearn

傳統(tǒng)基準(zhǔn)的局限顯而易見:它們將問題視為孤立樣本,模型無法從之前的解答中積累經(jīng)驗,自然也無從評估其「學(xué)習(xí)效率」與「適應(yīng)能力」。

EvaLearn 從零構(gòu)建了 648 個具有挑戰(zhàn)性的問題,將這些問題組織為 182 個序列,每個序列包含來自同一任務(wù)類型的 7 個問題,要求模型按順序求解 —— 前序問題的經(jīng)驗,將直接影響后續(xù)表現(xiàn)的評估。

圖片

圖 1 EvaLearn 的評估流程

在評測方面,如上圖所示 ,EvaLearn 不采用并行評估方式,而是要求模型按順序解決問題,從而系統(tǒng)地評估大語言模型(LLM)的學(xué)習(xí)能力和效率。

這 648 個高難度問題覆蓋六大核心任務(wù):

  • 摘要(Sum):評估模型能否通過利用先前經(jīng)驗提高總結(jié)的準(zhǔn)確性和覆蓋范圍;
  • 分類(Cla):評估模型從解決一系列分類問題中提升其分類技能的能力;
  • 信息抽?。‥x):衡量模型能否逐步提高關(guān)鍵信息提取的準(zhǔn)確性和完整性;
  • 邏輯推理(LR):測試模型能否從先前錯誤中學(xué)習(xí)并提高邏輯推理能力;
  • 數(shù)學(xué)推理(MR):檢驗?zāi)P湍芊裢ㄟ^利用早期問題的反饋快速掌握數(shù)學(xué)解題方法;
  • 序列推理(SR):評估模型能否通過從歷史經(jīng)驗中學(xué)習(xí)來增強其解決基于序列問題的能力,包括理清事件步驟和推理邏輯。

每個問題都配有一個由專業(yè)標(biāo)注員編寫的細致評分標(biāo)準(zhǔn)(rubric),結(jié)合 GPT-4o 作為「驗證器」,來判斷模型生成的答案的正確性。經(jīng)過大量實驗,基于 rubric 的驗證器,在評價各種水平的模型時,評估準(zhǔn)確率均超過 95%。這實現(xiàn)了高效的自動化評測。

研究團隊 EvaLearn 上對九個前沿大語言模型進行了全面研究,總結(jié)了幾個關(guān)鍵發(fā)現(xiàn):

(1) 模型在不同任務(wù)類型中展現(xiàn)出多樣的學(xué)習(xí)能力。大部分模型通常更擅長利用先前經(jīng)驗來解決涉及數(shù)學(xué)和邏輯推理的任務(wù),而諸如總結(jié)之類的任務(wù)則更傾向于依賴在預(yù)訓(xùn)練期間獲取的知識以及模型的固有能力。此外,不同任務(wù)的學(xué)習(xí)效率也有顯著差異。

(2) 基于思維鏈的大語言模型在學(xué)習(xí)能力和學(xué)習(xí)效率上通常優(yōu)于非基于思維鏈的大語言模型。它們能更好地利用經(jīng)驗解決新問題,并且表現(xiàn)出更高的學(xué)習(xí)穩(wěn)定性,更有可能在一系列任務(wù)中連續(xù)解決多個問題。

(3) 反饋學(xué)習(xí)(即將來自驗證器的評價和反饋作為上下文提供)能讓模型借助對先前解決方案的反饋及基于評分標(biāo)準(zhǔn)的評估來優(yōu)化問題解決,顯著提升學(xué)習(xí)能力與效率。相較于示例學(xué)習(xí)(指將先前的問題和規(guī)范解決方案作為上下文提供),反饋學(xué)習(xí)的效果更為顯著。

(4) 學(xué)習(xí)能力和學(xué)習(xí)效率的指標(biāo)共同提供了對模型學(xué)習(xí)潛力的全面評估,兩種動態(tài)能力與靜態(tài)模型能力沒有很強的相關(guān)性。即使是靜態(tài)性能較高的大語言模型,也并非在所有任務(wù)的學(xué)習(xí)能力上都具有明顯優(yōu)勢。

評估指標(biāo)

為了評價模型的學(xué)習(xí)能力和學(xué)習(xí)潛力,EvaLearn 設(shè)計了一套全面的評估指標(biāo)體系,從多個維度刻畫模型的動態(tài)學(xué)習(xí)能力:

  • 整體序列準(zhǔn)確率(Acc):連續(xù)任務(wù)中,模型答對的總題數(shù)占總題數(shù)的比例,直接反映整體表現(xiàn),值越高越好。
  • 準(zhǔn)確率曲線斜率(k):通過擬合各位置的準(zhǔn)確率變化曲線,斜率 k 體現(xiàn)學(xué)習(xí)速度 ,k 越大,說明模型從前期問題中學(xué)習(xí)越快,后續(xù)準(zhǔn)確率提升越明顯。
  • 首次正確位置(P_first):模型第一次答對問題的位置,P_first 值越小,說明越快找到解題思路。
  • 連續(xù)正確次數(shù)(N_consec):用于評估模型學(xué)習(xí)的穩(wěn)定性與經(jīng)驗復(fù)用能力。模型連續(xù)答對的題數(shù),值越高,說明學(xué)習(xí)穩(wěn)定性越強,能更好復(fù)用已有經(jīng)驗。
  • 熱身后準(zhǔn)確率(Acc_pw-K):該指標(biāo)重點關(guān)注模型在經(jīng)過一定數(shù)量問題的 “熱身” 后,積累了一定經(jīng)驗時的準(zhǔn)確率表現(xiàn)。它體現(xiàn)了模型在適應(yīng)任務(wù)、積累經(jīng)驗后的實際適應(yīng)與提升水平,排除了模型初始狀態(tài)對整體評估的干擾。

大模型在 EvaLearn 上的表現(xiàn)

研究人員們比較兩種問題求解范式:并行求解和順序求解,以研究大語言模型的學(xué)習(xí)能力和效率。

并行求解(Parallel Solving)

零樣本(Zero-shot):模型獨立地解決每個問題,無法訪問之前問題的任何經(jīng)驗。這種設(shè)置與多數(shù)現(xiàn)有基準(zhǔn)測試方法一致,評估模型在無學(xué)習(xí)機會下解決復(fù)雜問題的固有能力。

少樣本(Few-shot):針對每個問題,模型會獲得三個來自同一任務(wù)的示例(即 3-shot),以指導(dǎo)輸出格式和解題方法。每類任務(wù)內(nèi)的問題共享相同的示例。

順序求解(Sequential Solving)

示例學(xué)習(xí)(Demonstration Learning):在解決當(dāng)前問題之前,模型會獲得同一序列中之前所有問題及其標(biāo)準(zhǔn)答案,類似于上下文學(xué)習(xí)。

反饋學(xué)習(xí)(Feedback Learning):在解決當(dāng)前問題時,模型可以訪問之前所有問題、它們的解答以及針對模型自身前次解答的詳細反饋。這些反饋是由評審使用實例級評分標(biāo)準(zhǔn)生成的。本設(shè)置評估模型是否能利用自身經(jīng)驗改善隨后的表現(xiàn)。系統(tǒng)提示如圖 22 所示。

研究者在所有實驗中評估了九個最前沿的 LLMs,包括 “思維型” 和 “非思維型” 模型,結(jié)果如表 1。

圖片

表 1: 反饋學(xué)習(xí)與零樣本并行求解之間的整體準(zhǔn)確率差異

研究問題一:

LLMs 能否通過問題序列進行學(xué)習(xí)?

發(fā)現(xiàn)一:

LLMs 在從問題序列中學(xué)習(xí)的能力存在差異,且這種差異不僅體現(xiàn)在模型之間,也體現(xiàn)在任務(wù)類型之間。此外,大多數(shù)模型在 “熱身階段” 后表現(xiàn)更佳。

表 1 總結(jié)了反饋學(xué)習(xí)與零樣本并行求解之間的整體準(zhǔn)確率差異。研究者觀察到,有五個模型從順序?qū)W習(xí)中獲益,有四個模型表現(xiàn)略有下降,思維型模型在表現(xiàn)上變化更顯著,例如 OpenAI-o3-mini 在整體上提升了 +10.5%,為提升幅度最大者。這說明某些模型可以有效利用先前的經(jīng)驗來解決同一任務(wù)中的問題。

在任務(wù)類型方面,大多數(shù) LLMs 在數(shù)學(xué)推理和分類任務(wù)中通過學(xué)習(xí)獲得了提升。但在摘要任務(wù)中,大多數(shù)模型表現(xiàn)下降(9 個模型中有 7 個下降),這可能是因為摘要任務(wù)更依賴模型預(yù)訓(xùn)練時獲得的知識和指令遵循能力,額外引入的經(jīng)驗反而會干擾模型完成任務(wù)。

此外,研究人員還對 “熱身后準(zhǔn)確率(Acc_pw-K)” 進行了分析,結(jié)果發(fā)現(xiàn)多數(shù)模型在序列后期表現(xiàn)更為出色,特別是思維型模型。這意味著它們能夠?qū)⒃缙趩栴}當(dāng)作練習(xí),不斷優(yōu)化自身,進而提升后續(xù)任務(wù)的表現(xiàn),圖 3 左側(cè)清晰地展現(xiàn)了這一現(xiàn)象。

圖片

圖 2 左側(cè)為 Claude-3.7-Sonnet-Thinking 的熱身后準(zhǔn)確率結(jié)果,右側(cè)為 DeepSeek-R1 的逐位置準(zhǔn)確率結(jié)果

發(fā)現(xiàn)二:

學(xué)習(xí)穩(wěn)定性在不同任務(wù)和模型之間差異顯著。 對于某些任務(wù)(如摘要),當(dāng)前的模型更擅長利用其固有知識來解決問題,而不是依賴從先前問題中獲得的經(jīng)驗。

圖片

圖 3 左側(cè)為連續(xù)正確解的平均數(shù)量(N_consec),右側(cè)為首次正確解的平均位置(P_first)。結(jié)果以 OpenAI-o3-mini 為例展示,每個節(jié)點代表一個序列。

研究者通過分析 N_consec 指標(biāo)來進一步研究 LLMs 的學(xué)習(xí)穩(wěn)定性。圖 2 左側(cè)顯示了 o3-mini 的結(jié)果。圖中每個彩色節(jié)點代表數(shù)據(jù)集中的一個問題序列,節(jié)點位置越高表示模型在該序列中連續(xù)解答正確的問題越多。

結(jié)果表明,這一指標(biāo)在不同任務(wù)之間差異明顯,對于大多數(shù)模型來說,邏輯推理任務(wù)上更難連續(xù)做對題目。

在思維型模型與非思維型模型之間,這一指標(biāo)的表現(xiàn)也存在顯著差異。結(jié)果發(fā)現(xiàn)思維型模型相比非思維型模型通常具有更高的連續(xù)正確解答數(shù)。這說明思維型模型不僅更能從先前經(jīng)驗中受益提升表現(xiàn),還能保持更高的穩(wěn)定性,更有可能連續(xù)解答多個相關(guān)問題。

有趣的是,在摘要任務(wù)中,模型的 N_consec 值較高,但 Acc_pw-K 卻明顯下降,這表明其在序列后期的問題上表現(xiàn)反而不如前期問題。這意味著在此類任務(wù)中,連續(xù)解題能力可能更多依賴模型固有的知識和靜態(tài)能力,而不是從序列中學(xué)習(xí)到的經(jīng)驗。

發(fā)現(xiàn)三:

學(xué)習(xí)能力為評估模型提供了一個獨立于靜態(tài)性能的新視角,揭示了其潛在的學(xué)習(xí)能力。

表 2 結(jié)果進一步表明,并行解題的高表現(xiàn)不代表學(xué)習(xí)能力優(yōu)異。邏輯推理任務(wù)中,Claude-3.7-Sonnet-Thinking 的并行表現(xiàn)不及 DeepSeek-R1 與 Doubao-1.5-Thinking-Pro,但通過反饋學(xué)習(xí)范式大幅提升;o3-mini 則在兩種設(shè)置下均表現(xiàn)最佳。再如數(shù)學(xué)推理任務(wù),DeepSeek-R1 零樣本表現(xiàn)優(yōu)于 o3-mini,卻未能從經(jīng)驗中有效學(xué)習(xí),反而在反饋學(xué)習(xí)中性能下降。

值得注意的是,靜態(tài)能力相近的模型可能學(xué)習(xí)能力迥異:Claude-3.7-Sonnet-Thinking 與 GPT-4o 在序列推理任務(wù)中零樣本準(zhǔn)確率均為 31.7%,但前者提升 14.5%,后者僅提升 0.5%;而在數(shù)學(xué)推理中,GPT-4o 的學(xué)習(xí)能力反超前者。這說明學(xué)習(xí)能力不僅因模型而異,也因任務(wù)而變。

這些發(fā)現(xiàn)表明,學(xué)習(xí)能力是評估模型的重要獨立維度,與靜態(tài)性能無關(guān)且具有任務(wù)差異性。研究者在問題三中進一步分析不同學(xué)習(xí)范式下的模型表現(xiàn),為該結(jié)論提供了更多佐證。

研究問題二:

大語言模型在從一系列問題中

學(xué)習(xí)的效率如何?

圖片

圖 4 所有模型和任務(wù)在反饋學(xué)習(xí)中擬合的逐位置準(zhǔn)確率曲線斜率(k)結(jié)果

發(fā)現(xiàn)四:

不同模型和任務(wù)類型之間的學(xué)習(xí)效率存在顯著差異。

總體而言,多數(shù)非思維型模型在經(jīng)驗積累中進步更快,思維型模型則表現(xiàn)出更穩(wěn)定的收益。

圖 2 右側(cè)呈現(xiàn)了 DeepSeek-R1 的逐位準(zhǔn)確率曲線,圖 4 熱圖則匯總了這些曲線的斜率(k),直接反映模型學(xué)習(xí)效率。研究發(fā)現(xiàn),多數(shù)非思維型模型的逐位準(zhǔn)確率曲線斜率更陡峭,這可能與其起始性能較低、更易抓住 “低垂的果實” 有關(guān)。相比之下,思維型模型的學(xué)習(xí)過程更穩(wěn)定。這表明思維型模型更擅長利用先前問題的信息(包括評判模型反饋),從而實現(xiàn)更高效的推理與更穩(wěn)定的性能提升。

此外,多數(shù)模型在數(shù)學(xué)推理任務(wù)中展現(xiàn)正向?qū)W習(xí)效率,但在順序推理任務(wù)上普遍出現(xiàn)性能下降,這說明即便在有明確解題路徑與反饋的推理任務(wù)中,學(xué)習(xí)效率也會因任務(wù)特性產(chǎn)生顯著差異,受多重因素影響。

因此,我們可以得出結(jié)論:模型的學(xué)習(xí)效率受靜態(tài)能力、任務(wù)類型與推理方法共同影響:非思維型模型借助經(jīng)驗實現(xiàn)快速提升,思維型模型則以更穩(wěn)定的方式持續(xù)進步。

研究問題三:

不同的學(xué)習(xí)方式

是否會帶來性能差異?

發(fā)現(xiàn)五:

不同的解題方式會顯著影響模型性能。

模型可通過示例學(xué)習(xí)積累經(jīng)驗,反饋學(xué)習(xí)則能進一步強化其學(xué)習(xí)能力。值得注意的是,學(xué)習(xí)能力與模型的靜態(tài)能力并無強相關(guān)性。

圖 5 呈現(xiàn)了模型在四種解題方法下的表現(xiàn)。研究者發(fā)現(xiàn),對多數(shù)模型而言,示例學(xué)習(xí)的效果通常優(yōu)于并行的少樣本學(xué)習(xí)。以 Claude-3.7-Sonnet-Thinking 為例,其在五個任務(wù)中相較于少樣本設(shè)置均實現(xiàn)持續(xù)提升。這背后的關(guān)鍵原因在于,示例學(xué)習(xí)讓模型能夠訪問序列中所有先前問題及標(biāo)準(zhǔn)答案,進而從過往經(jīng)驗中有效學(xué)習(xí)。

圖片

圖 5 四種求解方法的整體準(zhǔn)確率對比,包括兩種并行方法(即零樣本和少樣本)與兩種序列方法(即示例學(xué)習(xí)和反饋學(xué)習(xí))

此外,圖 6、7、8 比較了模型采用反饋學(xué)習(xí)與示例學(xué)習(xí)兩種學(xué)習(xí)范式后在熱身后準(zhǔn)確率(Acc_pw-K)和斜率 k 方面的差異。結(jié)果表明,對于大多數(shù)模型,反饋學(xué)習(xí)比示例學(xué)習(xí)能獲得更高的平均總體準(zhǔn)確率和更大的學(xué)習(xí)效率。

圖片

圖 6 所有模型和任務(wù)中,反饋學(xué)習(xí)與示例學(xué)習(xí)的斜率差異(Δk)熱圖

圖片

圖片

圖 7  反饋學(xué)習(xí)(上)和示范學(xué)習(xí)(下)的熱身后準(zhǔn)確率(Acc_pw-K)結(jié)果

值得注意的是,每個大模型在某些任務(wù)中都表現(xiàn)出較強的學(xué)習(xí)能力,但沒有任何模型能在所有任務(wù)中始終實現(xiàn)穩(wěn)定的學(xué)習(xí)提升。這些結(jié)果表明,每個模型都有其優(yōu)勢,學(xué)習(xí)能力與靜態(tài)表現(xiàn)之間并不強相關(guān)。因此,學(xué)習(xí)能力和效率提供了一個評估模型表現(xiàn)的新視角,有助于理解當(dāng)前模型與人類能力之間的差距。

發(fā)現(xiàn)六:

首個正確解答的位置平均值(P_first)在不同模型和任務(wù)之間存在差異,這一指標(biāo)揭示了模型的學(xué)習(xí)潛力。

研究人員們還分析了首個正確解答的位置平均值 P_first,發(fā)現(xiàn)這一指標(biāo)對于不同任務(wù)之間的模型表現(xiàn)差異很大。例如,在邏輯推理序列中,大多數(shù)模型都難以早期解出首個問題,只有 o3-mini 和 Doubao-1.5-Thinking-Pro 能持續(xù)取得早期成功。九個模型中有七個在有反饋的情況下,能更早解出問題。

這表明,與僅提供標(biāo)準(zhǔn)答案相比,反饋更能促進模型學(xué)習(xí)和掌握任務(wù)。例如,在邏輯推理任務(wù)中,o3-mini 有時在只使用示例學(xué)習(xí)時無法解出任何問題,但在使用反饋學(xué)習(xí)后,能在每個序列中至少解出一個問題。因此,P_first 能綜合反映模型的靜態(tài)能力、學(xué)習(xí)能力和學(xué)習(xí)速度,從而揭示其學(xué)習(xí)潛力。

結(jié)語

研究人員們提出了 EvaLearn,這是一個新穎的基準(zhǔn)測試框架,用于在特定任務(wù)中對模型的學(xué)習(xí)能力和效率進行序列化評估。

EvaLearn 配備了一套全面的評估指標(biāo),揭示了在多種任務(wù)中,包括依賴思維過程和不依賴思維過程的任務(wù),前沿模型之間顯著的性能差異,這些指標(biāo)從多個角度全面評估了模型的學(xué)習(xí)表現(xiàn)。EvaLearn 提供了更現(xiàn)實、動態(tài)的評估方式,幫助研究人員更好地理解模型與人類之間的差距,推動更強大模型的發(fā)展。

此外,研究者發(fā)現(xiàn),盡管某些模型能夠有效利用教師模型對先前解答的反饋來提升學(xué)習(xí)效果,但另一些模型卻難以從這類反饋中獲益。EvaLearn 為評估大型語言模型的潛力提供了新的視角,是邁向動態(tài)評估的重要開創(chuàng)性一步。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2019-03-21 10:57:58

技術(shù)開源數(shù)據(jù)

2020-12-30 14:25:08

人工智能云異構(gòu)

2018-10-29 13:50:40

2018-11-22 09:07:45

NFV網(wǎng)絡(luò)功能虛擬化網(wǎng)絡(luò)

2025-09-09 09:09:00

2016-12-21 16:53:51

大數(shù)據(jù)互聯(lián)網(wǎng)阿里

2020-07-13 07:00:03

微服務(wù)服務(wù)網(wǎng)格架構(gòu)

2021-03-04 09:37:40

云計算云原生計算云安全

2022-08-09 08:40:51

運營商互聯(lián)網(wǎng)云云計算

2025-05-21 09:14:38

2024-09-23 08:42:11

2016-12-13 12:34:23

寬帶電信移動

2020-03-23 11:39:25

在線教育疫情市場

2018-09-13 11:37:55

微信小程序騰訊

2019-05-20 11:00:54

云計算AIoT開發(fā)

2017-08-03 19:02:30

直播CDN金山云

2018-04-25 09:37:41

AI

2018-08-12 11:54:41

BlackHat

2021-01-27 09:12:30

微信搜索騰訊

2018-12-06 09:55:38

區(qū)塊鏈數(shù)字貨幣互聯(lián)網(wǎng)
點贊
收藏

51CTO技術(shù)棧公眾號