偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

不用千億參數(shù)也能合成高質(zhì)量數(shù)據(jù)!這個(gè)開源框架讓小模型“組團(tuán)逆襲”,7B性能直追72B

人工智能 新聞
上海人工智能實(shí)驗(yàn)室聯(lián)合中國(guó)人民大學(xué)提出GRA框架(Generator–Reviewer–Adjudicator) 。

無(wú)需蒸餾任何大規(guī)模語(yǔ)言模型,小模型也能自給自足、聯(lián)合提升?

上海人工智能實(shí)驗(yàn)室聯(lián)合中國(guó)人民大學(xué)提出的GRA框架(Generator–Reviewer–Adjudicator) 正是這樣一種新范式:

該方法以“多人協(xié)作”、“角色分工”的理念為核心,系統(tǒng)性探索了多開源小模型如何通過(guò)協(xié)同機(jī)制生成高質(zhì)量訓(xùn)練數(shù)據(jù)。

圖片

實(shí)驗(yàn)結(jié)果顯示,在涵蓋數(shù)學(xué)、代碼、邏輯推理、通識(shí)問(wèn)答等10個(gè)主流數(shù)據(jù)集上,GRA生成的數(shù)據(jù)質(zhì)量與單個(gè)大型語(yǔ)言模型(如Qwen-2.5-72B-Instruct)輸出相當(dāng)或更高,并在多數(shù)任務(wù)中取得了顯著領(lǐng)先。

圖片

該項(xiàng)目已開源,詳細(xì)可見文末鏈接。

GRA框架:“模擬論文投稿”

圖片

如果說(shuō)傳統(tǒng)方法是單槍匹馬生成數(shù)據(jù),那GRA更像是一次“模擬頂會(huì)審稿流程”——作者、審稿人、AC各就各位,小模型分工合作、打分評(píng)審,確保數(shù)據(jù)內(nèi)容質(zhì)量穩(wěn)定、標(biāo)準(zhǔn)統(tǒng)一。

1.Generator:像“作者”一樣創(chuàng)作新樣本

GRA會(huì)先將任務(wù)劃分為多個(gè)領(lǐng)域(如數(shù)學(xué)、編程、邏輯推理等),每個(gè)Generator小模型負(fù)責(zé)在對(duì)應(yīng)領(lǐng)域生成新指令與響應(yīng)。它們從種子數(shù)據(jù)中提取關(guān)鍵詞與摘要,結(jié)合領(lǐng)域知識(shí)生成高質(zhì)量樣本,確保內(nèi)容豐富、主題聚焦、語(yǔ)義清晰。

2.Reviewer:像“審稿人”一樣嚴(yán)格評(píng)審

每條數(shù)據(jù)生成后,會(huì)交由多個(gè)Reviewer小模型進(jìn)行兩輪審查:

  • 首先檢查指令是否合理、清晰;
  • 然后全面評(píng)估響應(yīng)的正確性、相關(guān)性與語(yǔ)言質(zhì)量,并打分附評(píng)語(yǔ)。

系統(tǒng)會(huì)根據(jù)平均評(píng)分與評(píng)分一致性篩選樣本——分?jǐn)?shù)偏低的直接淘汰,意見分歧的則送入下一環(huán)節(jié)。

3.Adjudicator:像“AC”一樣做出最終裁決

當(dāng)Reviewer之間出現(xiàn)評(píng)分沖突時(shí),Adjudicator小模型將登場(chǎng),獨(dú)立復(fù)審并做出最終判斷。它如同學(xué)術(shù)審稿中的AreaChair,有效避免“多數(shù)誤判”,確保留下來(lái)的數(shù)據(jù)客觀、可靠。

4.后處理模塊:讓好數(shù)據(jù)更“精致”

通過(guò)評(píng)審后,系統(tǒng)還將進(jìn)行語(yǔ)義去重、摘要補(bǔ)全與格式統(tǒng)一,進(jìn)一步提升樣本的一致性與表達(dá)質(zhì)量。

總的來(lái)說(shuō),GRA構(gòu)建了一個(gè)“模擬頂會(huì)審稿”的自動(dòng)化系統(tǒng):小模型們輪流扮演創(chuàng)作、審閱、仲裁等角色,在多輪協(xié)作中生成高質(zhì)量訓(xùn)練數(shù)據(jù)。

這種機(jī)制不僅提升了數(shù)據(jù)生成的多樣性與公正性,也打破了以往對(duì)大模型蒸餾的依賴——實(shí)現(xiàn)了真正屬于小模型的“集體智能”路徑。

實(shí)驗(yàn)驗(yàn)證:“三個(gè)臭皮匠賽過(guò)諸葛亮”

GRA團(tuán)隊(duì)選取了覆蓋數(shù)學(xué)推理(如Math、GSM8K)、代碼生成(HumanEval、MBPP)、推理問(wèn)答(HellaSwag、ARC-C、GPQA、BBH)和通識(shí)問(wèn)答(MMLU、IFEval)四個(gè)領(lǐng)域的10個(gè)公開數(shù)據(jù)集,以全面評(píng)GRA框架的性能。

GRA框架集成了5個(gè)參數(shù)量在7–8B之間的開源小型語(yǔ)言模型,包括LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、InternLM3-8B-Instruct、Mistral-7B-Instruct-v0.3和Tulu-3-8B。

將GRA生成的數(shù)據(jù)用于訓(xùn)練兩個(gè)基礎(chǔ)模型(LLaMA-3.1-8B-Base和Qwen-2.5-7B-Base),并與原始種子數(shù)據(jù)以及Qwen-2.5-32B、Qwen-2.5-72B-Instruct蒸餾生成的數(shù)據(jù)進(jìn)行了系統(tǒng)對(duì)比。

圖片

實(shí)驗(yàn)核心結(jié)果表明:

1.明顯優(yōu)于原始數(shù)據(jù):GRA生成的數(shù)據(jù)在LLaMA-3.1上平均提升了6.18%,在Qwen-2.5上平均提升了11.81%,說(shuō)明即便在小模型之間協(xié)作,GRA也能顯著提升數(shù)據(jù)質(zhì)量和訓(xùn)練效果。

2.能和大模型蒸餾正面硬剛:GRA在LLaMA-3.1生成數(shù)據(jù)訓(xùn)練的模型性能,僅比Qwen-72B蒸餾版低0.59%;在Qwen-2.5生成數(shù)據(jù)訓(xùn)練的模型性能,平均領(lǐng)先Qwen-72B蒸餾版達(dá)8.83%。表明小模型協(xié)同機(jī)制有望成為更低成本、更高性價(jià)比的大模型替代方案。

3.大模型“更大”≠更好:實(shí)驗(yàn)還發(fā)現(xiàn),Qwen-72B相比32B的性能增幅有限,反映出傳統(tǒng)蒸餾范式在進(jìn)一步擴(kuò)大參數(shù)規(guī)模時(shí),收益正逐漸遞減。相比之下,GRA的“群體智慧”路徑更具擴(kuò)展?jié)摿Α?/span>

一句話總結(jié):多個(gè)小模型合理分工,也能“卷”出媲美甚至超越大模型的訓(xùn)練效果。這不僅節(jié)省算力,更可能重塑我們對(duì)“什么才是有效數(shù)據(jù)合成”的認(rèn)知。

要素分析:“1+1+1>3”

從數(shù)據(jù)多樣性、質(zhì)量、難度控制等維度對(duì)GRA的優(yōu)勢(shì)進(jìn)行分析,發(fā)現(xiàn)以下關(guān)鍵因素:

1.數(shù)據(jù)多樣,補(bǔ)充盲區(qū)

通過(guò)t-SNE可視化對(duì)比發(fā)現(xiàn),GRA生成的數(shù)據(jù)分布明顯比原始種子數(shù)據(jù)和大模型蒸餾數(shù)據(jù)更廣、更均勻,尤其在原始數(shù)據(jù)未覆蓋的語(yǔ)義空間中表現(xiàn)出良好的補(bǔ)充能力。這表明GRA所產(chǎn)數(shù)據(jù)具備更強(qiáng)的覆蓋面和多樣性。

圖片

2.數(shù)據(jù)質(zhì)量靠譜,審得細(xì)也審得穩(wěn)

GRA生成的數(shù)據(jù)不僅通過(guò)多個(gè)小模型評(píng)審,還在對(duì)比實(shí)驗(yàn)中獲得了來(lái)自Qwen-2.5-72B的高分認(rèn)可——其中超過(guò)87.3%的樣本評(píng)分高度一致。

同時(shí),GRA的評(píng)分體系呈現(xiàn)出更平滑、細(xì)膩的分布,表明其在數(shù)據(jù)質(zhì)量評(píng)估中具備更強(qiáng)的分辨力和一致性,驗(yàn)證了其數(shù)據(jù)篩選機(jī)制的可靠性。

圖片

3.數(shù)據(jù)更“難啃”,訓(xùn)練更有效

通過(guò)Instruction-Following Difficulty(IFD)指標(biāo)分析,GRA生成數(shù)據(jù)的任務(wù)難度比種子數(shù)據(jù)高出14.58%,并且與大模型蒸餾數(shù)據(jù)基本持平(GRA:75.82%,Qwen-72B蒸餾:75.49%)。這意味著GRA能夠構(gòu)建具挑戰(zhàn)性、高知識(shí)密度的數(shù)據(jù),為小模型提供更具張力的訓(xùn)練樣本。

圖片

論文地址:https://arxiv.org/abs/2504.12322

項(xiàng)目地址:https://github.com/GX-XinGao/GRA

模型地址:https://huggingface.co/collections/GX-XinGao/gra-6801cba58ceb0074566cdb4e

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-11-29 13:52:00

模型訓(xùn)練

2024-06-03 10:43:34

2025-06-17 09:07:24

2025-04-27 09:16:00

模型AI數(shù)據(jù)

2024-02-07 12:39:00

AI數(shù)據(jù)

2025-02-11 16:11:12

2025-06-23 09:14:00

2025-03-25 12:11:08

2025-03-17 09:40:00

2024-02-04 08:00:00

Zephyr 7B大語(yǔ)言模型算法

2024-07-22 09:00:00

2023-10-30 09:15:00

AI智能

2024-03-18 07:01:42

2010-07-06 11:52:59

數(shù)據(jù)庫(kù)RationalJazz

2024-01-12 13:51:00

數(shù)據(jù)訓(xùn)練

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2024-07-18 12:53:13

2025-06-25 08:54:03

模型訓(xùn)練AI

2024-03-25 08:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)