偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

合成數(shù)據(jù)>人工數(shù)據(jù),絕對性能暴漲超10個點!僅需任務(wù)定義,高效微調(diào)大模型

人工智能 新聞
基礎(chǔ)模型嚴(yán)重依賴大規(guī)模、高質(zhì)量人工標(biāo)注數(shù)據(jù)來學(xué)習(xí)適應(yīng)新任務(wù)、領(lǐng)域。為解決這一難題,來自北京大學(xué)、MIT等機構(gòu)的研究者們提出了一種名為「合成數(shù)據(jù)強化學(xué)習(xí)」(Synthetic Data RL)的通用框架。

盡管如GPT-4和Gemini等基礎(chǔ)模型已在通用語言理解方面設(shè)立了新的行業(yè)標(biāo)桿 ,但它們在需要深度領(lǐng)域知識的專業(yè)領(lǐng)域中,其表現(xiàn)常常不盡如人意。

當(dāng)面臨數(shù)學(xué)、醫(yī)學(xué)、法律及金融等專門任務(wù)時,這些模型時常表現(xiàn)不佳,因為這些領(lǐng)域高度依賴特定的專業(yè)知識。

傳統(tǒng)上,為了讓這些模型適應(yīng)特定領(lǐng)域,最直接的方法是使用大規(guī)模的人類標(biāo)注數(shù)據(jù)進行微調(diào)。然而,這一過程不僅成本高昂、耗時漫長,而且在許多實際應(yīng)用場景中并不可行。

為了解決上述挑戰(zhàn),北京大學(xué)、MIT等機構(gòu)的研究人員提出了「合成數(shù)據(jù)強化學(xué)習(xí)」(Synthetic Data RL)框架。這是一個簡單而通用的框架,僅從一個任務(wù)定義出發(fā),合成大量多樣的領(lǐng)域特定樣本,然后利用強化學(xué)習(xí)(RL)對模型進行微調(diào)。

圖片

論文鏈接:https://arxiv.org/pdf/2505.17063

代碼倉庫:https://github.com/gydpku/Data_Synthesis_RL

這種方式實現(xiàn)了參數(shù)化的自適應(yīng),將領(lǐng)域知識直接嵌入到模型的參數(shù)中,并且完全無需任何人類標(biāo)注的數(shù)據(jù)。

三步走實現(xiàn)高效自適應(yīng)學(xué)習(xí)

研究人員提出的合成數(shù)據(jù)強化學(xué)習(xí)框架由三個主要環(huán)節(jié)構(gòu)成。

圖片

圖1:三階段方法框架圖

如圖1所示,首先,系統(tǒng)通過知識引導(dǎo)的合成環(huán)節(jié)結(jié)合檢索到的外部知識和任務(wù)特定模式,生成既有事實依據(jù)又與目標(biāo)任務(wù)對齊的合成數(shù)據(jù)。

隨后,在難度自適應(yīng)環(huán)節(jié),系統(tǒng)會根據(jù)模型的反饋來調(diào)整這些生成樣本的復(fù)雜度,目的是創(chuàng)建一個難度均衡、避免過于簡單或困難的數(shù)據(jù)集。

最后,在高潛力樣本選擇與強化學(xué)習(xí)環(huán)節(jié),框架會精心挑選出高學(xué)習(xí)潛力的樣本,并利用強化學(xué)習(xí)在這些樣本上進行微調(diào)。

知識引導(dǎo)的數(shù)據(jù)合成

該環(huán)節(jié)的目標(biāo)是生成高質(zhì)量、多樣化,并與任務(wù)高度相關(guān)的任務(wù)數(shù)據(jù)。

該過程主要分為兩個核心步驟:關(guān)鍵詞提取與相關(guān)段落檢索:為了讓生成的內(nèi)容能緊密圍繞相關(guān)領(lǐng)域的知識,該環(huán)節(jié)首先會使用大模型從任務(wù)描述中提取一組領(lǐng)域特定的關(guān)鍵詞。

這些關(guān)鍵詞可以看作是一種中間摘要,精確地概括了任務(wù)的核心領(lǐng)域與要求。

接下來,一個「段落檢索器」會使用這些關(guān)鍵詞,在一個大型的高質(zhì)量文本庫(例如維基百科)中進行搜索,從而找到一系列與任務(wù)高度相關(guān)的知識段落。

圖片

圖2:GPQA的任務(wù)定義,包括任務(wù)描述,輸入和輸出的形式。

在獲取了相關(guān)的知識段落后,LLM生成器便開始合成初始的任務(wù)樣本集。LLM生成器會綜合利用所有信息,包括之前檢索到的相關(guān)段落、抽象模式與具體示例的組合(可不提供),以及原始的任務(wù)指令(如圖所示),來生成初始合成數(shù)據(jù)集。并通過大多數(shù)投票方法確保任務(wù)輸出的正確性。

通過這種方式,系統(tǒng)確保了合成出來的數(shù)據(jù)不僅在事實上有所依據(jù),而且在形式和內(nèi)容上也更加豐富多樣。

難度自適應(yīng)過程

本環(huán)節(jié)旨在解決訓(xùn)練樣本難度不均衡的問題。核心思想是,通過自動評估和改寫樣本,生成一個難度分布更合理的數(shù)據(jù)集,從而提升模型的學(xué)習(xí)效率和最終效果。

整個過程可以分為三個主要步驟:

(1)首先,使用一個基礎(chǔ)模型初始數(shù)據(jù)集進行全面評估。根據(jù)模型能否正確解答,樣本被分為兩類:已解決樣本集:這個集合包含了所有基礎(chǔ)模型能夠正確解答的樣本。未解決樣本集:這個集合包含了所有基礎(chǔ)模型未能正確解答的樣本。

(2)接下來,利用一個大語言模型改寫器對已分類的樣本進行難度調(diào)整,以擴充數(shù)據(jù)集。改寫器會分析已解決樣本集中的內(nèi)容,并在此基礎(chǔ)上創(chuàng)造出更具挑戰(zhàn)性的新樣本,形成一個更難的樣本集。同樣地,改寫器會分析未解決樣本集的內(nèi)容,并創(chuàng)造出難度更低的新樣本,形成一個「更容易的樣本集」。

最后,將三個部分的數(shù)據(jù)合并在一起,包括原始的初始樣本集、新生成的更難樣本集、新生成的更容易樣本集。

通過這個動態(tài)調(diào)整過程,如下圖所示,最終的數(shù)據(jù)集在難度上更加多樣和均衡,更貼合人類真實數(shù)據(jù)的分布特征,能夠為模型提供一個平滑的學(xué)習(xí)曲線,從而實現(xiàn)更優(yōu)的訓(xùn)練效果。

圖片

圖3:合成與人工數(shù)據(jù)難度分布,合成數(shù)據(jù)調(diào)整后更貼合人工數(shù)據(jù)。

篩選高潛力樣本并強化微調(diào)

在通過難度自適應(yīng)策略生成了包含多樣化難度的大規(guī)模合成數(shù)據(jù)集后,研究人員并不會直接將所有數(shù)據(jù)用于訓(xùn)練,因為許多合成樣本可能對模型來說過于簡單或過于困難,無法提供有效的學(xué)習(xí)信號。

為了最大化訓(xùn)練效率和效果,研究人員設(shè)計了第三個環(huán)節(jié),旨在識別并利用那些最具學(xué)習(xí)價值的「高潛力」樣本。

為了精準(zhǔn)地識別出這些高潛力樣本,框架設(shè)計了一套基于模型實際表現(xiàn)的評分系統(tǒng)。具體來說,它會利用基礎(chǔ)模型,對每個樣本進行多次解答嘗試。

接著,系統(tǒng)會計算模型在多次嘗試中成功解答的次數(shù)比例。這個評分系統(tǒng)有一個巧妙的設(shè)計:對于那些模型在所有嘗試中都失敗的「極難」樣本(即通過率為0),系統(tǒng)會故意給它們一個最高分(比如1)。

這樣做的目的是為了在后續(xù)排序時,能夠輕易地將這些過于困難/存在合成錯誤的樣本沉底。評分完成后,所有樣本會按照它們的「通過率得分」從低到高進行排序。

根據(jù)這個排序結(jié)果,得分最低(但大于0)的樣本,正是我們尋找的「高潛力」目標(biāo)—模型偶爾能答對,但磕磕絆絆,充滿了不確定性。框架會從排序列表的頂端選取一定數(shù)量的樣本,構(gòu)成訓(xùn)練集。

最后,這個精挑細選出的高潛力訓(xùn)練集將被用于對基礎(chǔ)模型進行一輪的強化學(xué)習(xí)訓(xùn)練。

最終步驟旨在將模型在這些「臨界區(qū)」樣本上的不確定性轉(zhuǎn)化為穩(wěn)定的正確解答能力,從而產(chǎn)出一個性能得到顯著提升的最終模型。

全面超越SFT,媲美人工數(shù)據(jù)RL

實驗設(shè)定:在數(shù)據(jù)合成過程中,GPT-4o被用作指導(dǎo)者模型,而Qwen2.5-7B-base則作為基礎(chǔ)模型,整個流程的訓(xùn)練集大小也維持在500個數(shù)據(jù),RL訓(xùn)練采用了GRPO算法 。

研究人員在數(shù)學(xué)、科學(xué)、醫(yī)學(xué)、法律和金融等多個領(lǐng)域的8個公開基準(zhǔn)數(shù)據(jù)集上,對提出方法進行了全面評估,并該方法與多個基線進行了比較,包括像Qwen-2.5-7B和GPT-4o這樣的預(yù)訓(xùn)練和指令調(diào)優(yōu)模型,像Self-Instruct和SynthLLM這樣的其他合成數(shù)據(jù)生成方法,以及像使用人類標(biāo)注數(shù)據(jù)進行監(jiān)督式微調(diào)(SFT)和強化學(xué)習(xí)(RL)這樣的標(biāo)準(zhǔn)訓(xùn)練策略。

實驗結(jié)果如表1所示。

圖片

表1:該方法和基線在8個任務(wù)上的的表現(xiàn)。

具體來看,該框架帶來全方位的性能提升,不僅顯著超越了模型自身的基礎(chǔ)版本,也優(yōu)于官方的指令微調(diào)模型和其他主流的合成數(shù)據(jù)方法:

  • 在數(shù)學(xué)推理領(lǐng)域:在廣泛關(guān)注的 GSM8K基準(zhǔn)測試上,該方法取得了91.7%的準(zhǔn)確率,相較于Qwen-2.5-7B基礎(chǔ)模型的62.5%,實現(xiàn)了29.2%的絕對性能提升。

這一成績不僅顯著優(yōu)于官方指令微調(diào)模型Qwen-2.5-7B-Instruct的88.8%,也超越了包括Self-Instruct (85.1%) 和SynthLLM (90.1%) 在內(nèi)的其他合成數(shù)據(jù)生成方法,在更具挑戰(zhàn)性的MATH數(shù)據(jù)集上,也獲得了8.7%的絕對提升。

  • 在專業(yè)知識領(lǐng)域:該方法的優(yōu)勢同樣延伸到了需要高度專業(yè)知識的領(lǐng)域。在MedQA(醫(yī)學(xué))、CQA(法律)和 CFA(金融)等基準(zhǔn)測試中,分別取得了8.9%、17.7%和13.7%的絕對性能提升。
  • 在科學(xué)領(lǐng)域:在GPQA(研究生水平科學(xué)問答)這一高難度任務(wù)上,其性能提升同樣顯著,達到了13.1%

同等數(shù)據(jù)預(yù)算下的效率優(yōu)勢

該框架最引人注目的優(yōu)勢之一在于其極高的數(shù)據(jù)效率。在與使用「真實」人工標(biāo)注數(shù)據(jù)進行訓(xùn)練的方法進行同等數(shù)據(jù)預(yù)算的公平比較時,Synthetic Data RL表現(xiàn)出了顯著的優(yōu)勢。

  • 完勝監(jiān)督微調(diào)(SFT):當(dāng)訓(xùn)練預(yù)算被限制在相同數(shù)量(例如500個樣本)時,「合成數(shù)據(jù)強化學(xué)習(xí)」方法的效果遠超傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法 。例如,在GSM8K任務(wù)上,SFT使用500個人類樣本僅能達到74.5%的準(zhǔn)確率,而該框架則達到了91.7%。這突顯了在數(shù)據(jù)稀缺的情況下,RL相較于SFT的普遍優(yōu)越性。
  • 媲美甚至超越人類數(shù)據(jù)RL:更令人印象深刻的是,該方法不僅效果好,而且效率極高。在使用同等數(shù)量(500個樣本)的訓(xùn)練數(shù)據(jù)時,它的表現(xiàn)能夠持平甚至略微超過使用「真實」人類標(biāo)注數(shù)據(jù)進行訓(xùn)練的強化學(xué)習(xí)(RL)方法。

在GSM8K任務(wù)上,使用500個合成樣本的準(zhǔn)確率(91.7%)甚至略高于使用500個人類樣本的RL(91.2%)。這一趨勢在不同數(shù)據(jù)預(yù)算(100、300、1000個樣本)的消融研究中也得到了證實(詳情見原文),表明該方法始終能與使用人類數(shù)據(jù)的RL基線相媲美或更優(yōu)。

人工數(shù)據(jù)指導(dǎo)的邊際效益遞減

表1的研究結(jié)果進一步揭示了一個重要現(xiàn)象:對模型合成數(shù)據(jù)而言,掌握任務(wù)的正確「形式」比學(xué)習(xí)大量具體「實例」更為關(guān)鍵,這一點體現(xiàn)在人類標(biāo)注數(shù)據(jù)呈現(xiàn)出的邊際效益遞減上:

當(dāng)模型通過「合成數(shù)據(jù)強化學(xué)習(xí)」框架,僅從任務(wù)定義中學(xué)習(xí)并掌握了任務(wù)的底層結(jié)構(gòu)后,其性能已經(jīng)達到了一個非常高的水平。

此時,額外增加由人類標(biāo)注的演示示例,所帶來的性能提升變得非常有限。例如,在GSM8K基準(zhǔn)測試上的表現(xiàn):

僅使用任務(wù)定義進行訓(xùn)練的模型,其準(zhǔn)確率已經(jīng)可以達到91.7%;在此基礎(chǔ)上,即便再增加100個高質(zhì)量的人類演示樣本來指導(dǎo)合成數(shù)據(jù),最終的準(zhǔn)確率也僅僅微升至92.1%

這種微小的、漸進式的改進并非孤例,在其他多個數(shù)據(jù)集上也觀察到了相似的趨勢,例如在MATH、LogiQA、MedQA和MedNLI等任務(wù)上,隨著人類演示樣本的增加,性能也只是略有提高 。

弱者教出強者

另一個有趣的發(fā)現(xiàn)是,「合成數(shù)據(jù)強化學(xué)習(xí)」框架能夠讓一個相對較弱的指導(dǎo)模型(「老師」)訓(xùn)練出一個在性能上超越其自身的、更強大的模型(「學(xué)生」)。

在相關(guān)的驗證實驗中,研究者將原本作為指導(dǎo)模型、性能頂尖的 GPT-4o 替換為能力相對較弱的Qwen-2.5-7B-Instruct模型,并由這個「弱老師」來完成生成合成數(shù)據(jù)和調(diào)整難度分布的全部任務(wù)。

從表1的最后一行結(jié)果顯示,最終訓(xùn)練出的基礎(chǔ)模型(即「學(xué)生模型」)在包括GSM8K、GPQA、LogiQA、MedNLI、CQA和CFA在內(nèi)的六個基準(zhǔn)測試中,其表現(xiàn)均超越了它的「老師」Qwen-2.5-7B-Instruct模型,并在其余兩個任務(wù)上達到了與之相當(dāng)?shù)乃健?/span>

開啟模型適應(yīng)的新范式

Synthetic Data RL框架的提出,為大模型在專業(yè)領(lǐng)域的低成本、高效率適配提供了全新的解決方案。它通過將自動化數(shù)據(jù)合成與強化學(xué)習(xí)相結(jié)合,將模型微調(diào)的門檻從昂貴的人工數(shù)據(jù)標(biāo)注,降低到了一個簡單的任務(wù)描述,無需任何后續(xù)的人工標(biāo)注或反饋。

這項工作證明了在無需大量人力投入的情況下,依然可以實現(xiàn)高質(zhì)量、高效率的領(lǐng)域模型定制化,使得強大的AI能力適配變得更加規(guī)模化和成本可控,為未來更廣泛的應(yīng)用(如多模態(tài)任務(wù))奠定了堅實的基礎(chǔ)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-04 03:00:00

人工智能AI智能訓(xùn)練

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉庫

2024-01-16 14:23:32

大數(shù)據(jù)人工智能AI

2020-10-20 08:19:21

Web性能網(wǎng)絡(luò)

2022-06-13 15:28:42

人工智能機器學(xué)習(xí)數(shù)據(jù)

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2022-11-08 07:40:55

2025-01-23 09:15:00

數(shù)據(jù)技術(shù)模型

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2024-10-14 09:25:00

2024-07-22 08:17:00

模型性能

2025-05-28 11:42:14

模型框架AI

2022-08-11 08:00:00

機器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2024-08-19 13:18:12

2023-08-01 14:59:35

人工智能合成數(shù)據(jù)

2022-04-17 23:13:02

人工智能元宇宙數(shù)據(jù)

2025-07-24 08:40:00

2025-10-23 16:45:09

2024-04-18 08:38:15

LLM數(shù)據(jù)訓(xùn)練模型

2024-12-27 10:00:00

數(shù)據(jù)自動駕駛
點贊
收藏

51CTO技術(shù)棧公眾號