偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

告別“煉丹玄學”:上海AI實驗室推出首個大模型數(shù)據(jù)競技場OpenDataArena

人工智能 新聞
上海人工智能實驗室OpenDataLab團隊在數(shù)據(jù)領(lǐng)域持續(xù)深耕,正式推出了開放數(shù)據(jù)競技場OpenDataArena。

數(shù)據(jù)在AI時代的重要性已經(jīng)不言而喻,但懸而未決的是——

如何精確量化這些數(shù)據(jù)的價值、辨別其優(yōu)劣?

為此,上海人工智能實驗室OpenDataLab團隊在數(shù)據(jù)領(lǐng)域持續(xù)深耕,正式推出了開放數(shù)據(jù)競技場OpenDataArena

展開來說,在海量的SFT(監(jiān)督式微調(diào))后訓(xùn)練數(shù)據(jù)面前,研究者們常常陷入“黑盒式”的困境:不清楚哪些數(shù)據(jù)真正有用,也難以系統(tǒng)性地評估和比較不同的數(shù)據(jù)集。

而OpenDataArena,正是一個為數(shù)據(jù)價值而生的“競技場”,致力于將數(shù)據(jù)質(zhì)量的評估從“玄學”變?yōu)椤翱茖W”。

團隊希望通過一個公平、公開、透明的平臺,首次正式嘗試回答“如何驗證數(shù)據(jù)價值”這一核心問題。

它不僅提供了一個直觀的數(shù)據(jù)評測榜單,更構(gòu)建了一套完整可復(fù)現(xiàn)的數(shù)據(jù)價值驗證體系——

通過一套訓(xùn)評一體化的開源工具,讓不同數(shù)據(jù)集在同等條件下公平“競技”,用模型效果作為衡量數(shù)據(jù)價值的最終標準。

同時,通過開發(fā)多維度評分工具,對數(shù)據(jù)進行精細化“體檢”,讓數(shù)據(jù)價值不再是模糊的“黑盒”。

下面詳細來看。

OpenDataArena:數(shù)據(jù)價值的首次全面驗證

OpenDataArena首次系統(tǒng)性地探究“如何評價數(shù)據(jù)質(zhì)量”這個難題。

為此,該項目構(gòu)建了“開放數(shù)據(jù)競技場”,并配套開發(fā)了一整套數(shù)據(jù)價值驗證工具。

該平臺的核心成果包括:

  • OpenDataArena平臺:一個公平、公開、透明的SFT后訓(xùn)練數(shù)據(jù)價值評測平臺,涵蓋一個多領(lǐng)域、可視化的數(shù)據(jù)競技榜單。
  • 多維度數(shù)據(jù)打分:平臺從幾十種維度對已有數(shù)據(jù)進行精細化打分,并已開源了部分評分數(shù)據(jù),便于研究員們后續(xù)直接下載使用,避免重復(fù)API調(diào)用。
  • 訓(xùn)評一體化工具:團隊開源了整套數(shù)據(jù)訓(xùn)練、評估以及數(shù)據(jù)打分工具,讓價值驗證過程可復(fù)現(xiàn)、可擴展。

OpenDataArena為以下幾類核心需求提供了實際的解決方案:

1、對數(shù)據(jù)質(zhì)量的評估與篩選:幫助模型訓(xùn)練者數(shù)據(jù)研究者快速識別并篩選出高質(zhì)量數(shù)據(jù)集,擺脫盲目試錯,高效賦能模型訓(xùn)練與應(yīng)用。

2、對數(shù)據(jù)生成的指導(dǎo)與優(yōu)化:數(shù)據(jù)合成的研究者提供多維度的評分數(shù)據(jù)和工具,助力他們尋找高價值的“種子數(shù)據(jù)”,為生成更優(yōu)質(zhì)的合成數(shù)據(jù)提供指導(dǎo)。

3、對數(shù)據(jù)價值的深入洞察:賦能學術(shù)研究人員探索數(shù)據(jù)特征與模型效果的內(nèi)在關(guān)聯(lián),為數(shù)據(jù)選擇、數(shù)據(jù)生成等前沿研究提供堅實的數(shù)據(jù)支持和客觀的評估依據(jù)。

平臺目前已覆蓋4+領(lǐng)域、20+基準測試、20+數(shù)據(jù)評分維度,處理了100+數(shù)據(jù)集,超過20M+數(shù)據(jù)樣本,并完成了600+次模型訓(xùn)練、10K+次模型評估,這些指標都在不斷增長。

數(shù)據(jù)競技場:讓數(shù)據(jù)在實戰(zhàn)中一較高下

OpenDataArena的核心理念,就是讓數(shù)據(jù)價值在實戰(zhàn)中得到驗證。

該平臺通過一套公平、公開、可復(fù)現(xiàn)的大模型訓(xùn)練與評測機制,來比較不同訓(xùn)練數(shù)據(jù)集的優(yōu)劣。

那么,OpenDataArena具體是如何運作的呢?

1、數(shù)據(jù)集選擇

平臺覆蓋了來自通用、數(shù)學、代碼、科學等多個領(lǐng)域的后訓(xùn)練數(shù)據(jù)集。這些數(shù)據(jù)來自于HuggingFace并且有一定的下載和關(guān)注度,不僅具有代表性,而且具備時效性,確保了評測的現(xiàn)實意義。

2、模型選擇

平臺采用了社區(qū)中最常用、最具代表性的Llama3.1Qwen 2.57B版本作為基準模型,它們代表了真實的學術(shù)和工業(yè)應(yīng)用場景,同時盡可能反映了最多場景中實際使用的模型大小的數(shù)據(jù)性能。

3、訓(xùn)練與評估

平臺采用標準化訓(xùn)練配置,訓(xùn)練環(huán)節(jié)采用廣受認可的LLaMA-Factory框架,并且嚴格采用最常見的訓(xùn)練參數(shù)。

測試環(huán)節(jié)使用OpenCompass進行全面評估,在測試環(huán)節(jié)的參數(shù)設(shè)置上,團隊進行了大量預(yù)實驗,確保推理模板和評估器等細節(jié)都經(jīng)過了精心的優(yōu)化,排除外部干擾,讓測試結(jié)果能更公平、公正地反映訓(xùn)練數(shù)據(jù)集的真實質(zhì)量。

4、評測集全面覆蓋

平臺選擇了通用、數(shù)學、代碼、長鏈推理等多維度基準測試集,力求全面、客觀地反映單領(lǐng)域數(shù)據(jù)質(zhì)量,以及混合領(lǐng)域的數(shù)據(jù)綜合質(zhì)量。

最終,OpenDataArena數(shù)據(jù)競技場誕生,通過數(shù)據(jù)評測榜單直觀的給出數(shù)據(jù)“優(yōu)秀”程度。

平臺希望能夠幫助模型訓(xùn)練者和數(shù)據(jù)研究者快速識別并挑選高質(zhì)量數(shù)據(jù)集,降低試錯成本,賦能模型訓(xùn)練與應(yīng)用。

數(shù)據(jù)多維度評價:打開數(shù)據(jù)質(zhì)量的“黑匣子”

除了通過訓(xùn)練模型得到下游任務(wù)的表現(xiàn)來直接反應(yīng)數(shù)據(jù)的質(zhì)量之外,OpenDataArena還通過多維度的客觀評分工具,來對數(shù)據(jù)本身進行細致的“體檢”,這些客觀評分指標得到了學界和業(yè)界的廣泛認可。

1、20+維度,精準畫像

平臺對代表性的數(shù)據(jù)集整體,以及數(shù)據(jù)集中的每一條數(shù)據(jù),都進行了細致的多維度打分。

不論是直接選用整個數(shù)據(jù)集,還是用于挑選優(yōu)質(zhì)子數(shù)據(jù),都方便操作。同時,無論是指令數(shù)據(jù),還是指令-響應(yīng)對數(shù)據(jù),平臺都從不同方面提供了相應(yīng)的評分。

2、多源評分,深度剖析

平臺的評分工具整合了多種維度評估方法,包括基于模型的評估(Model-based Evaluation,如IFD)、大模型作為評委(LLM-as-a-Judge,如準確性、復(fù)雜度)和啟發(fā)式方法(Heuristic,如回復(fù)響應(yīng)長度)。

這些維度涵蓋了數(shù)據(jù)的常見評價指標,為數(shù)據(jù)的價值提供了豐富的量化視角。

3、開源評分數(shù)據(jù)

團隊已完成對超過15M+數(shù)據(jù)的多維度評分,并已開源這些數(shù)據(jù)評分結(jié)果。

對于需要依賴常見評價指標開展數(shù)據(jù)篩選、種子數(shù)據(jù)生成等任務(wù)的科研用戶而言,這不僅極大降低了打分成本,還有效避免了重復(fù)的API調(diào)用,從而節(jié)省了實際開銷,可謂一項極其寶貴的資源。

通過上述努力,平臺為數(shù)據(jù)合成、數(shù)據(jù)篩選的研究者提供了多維度的評分數(shù)據(jù)和工具,助力他們尋找高價值的“種子數(shù)據(jù)”,最終為生成更優(yōu)質(zhì)、更高價值的數(shù)據(jù)提供了直接的幫助。

開源工具:讓數(shù)據(jù)價值驗證觸手可及

為了“公平、公正、公開”的OpenDataArena平臺的設(shè)計原則,同時也為了讓更多人能參與到數(shù)據(jù)價值驗證中來,真實地評價數(shù)據(jù)的質(zhì)量,OpenDataArena團隊將整個平臺的核心工具都進行了開源。

包括基于模型的訓(xùn)練評測工具,以及客觀的多維度數(shù)據(jù)評價打分工具,所有的細節(jié)能在完整的OpenDataArena-Tool中找到說明。

  • 訓(xùn)評一體化工具

平臺基于主流的LLaMA-Factory訓(xùn)練框架,以及評測端知名的OpenCompass框架,打造了一套端到端的訓(xùn)練與評測工具,給出了所有的配置和流程復(fù)現(xiàn)腳本,確保了評估實驗的結(jié)果可復(fù)現(xiàn)性與公平性。

相關(guān)的設(shè)置都盡可能與當前的主流研究工作、以及其余開源工具進行了對齊,保證了結(jié)果的公平公正可比。

具體的說明可以在配置詳情和工具說明中,找到所有細節(jié)。

  • 多維度數(shù)據(jù)打分工具

平臺對于數(shù)據(jù)評價的打分工具也在持續(xù)完善中。

目前已實現(xiàn)的大部分評估維度打分工具均已開源,并提供了詳細的使用教程。不管是單個維度的數(shù)據(jù)評估,還是所有已支持的數(shù)據(jù)評估維度,用戶都可以在官方wiki文檔中了解到如何使用這些工具,并為自己的數(shù)據(jù)進行“體檢”。

同時,團隊還在持續(xù)優(yōu)化支持更多的數(shù)據(jù)打分維度,為用戶提供更多維度的數(shù)據(jù)打分選擇。

通過上述的工具開源,OpenDataArena團隊希望提供一個開放共享的數(shù)據(jù)價值評估平臺,讓所有用戶都能參與到數(shù)據(jù)評估中來,并為產(chǎn)生真正的高價值數(shù)據(jù)共同努力。

未來展望:數(shù)據(jù)價值的星辰大海

據(jù)團隊介紹,目前OpenDataArena已經(jīng)完成的僅僅只是冰山一角,也只是對數(shù)據(jù)價值驗證的開始。

項目未來也有更多的計劃,例如下面這些:

  • 擴展驗證范圍: 逐步支持多模態(tài)等更復(fù)雜的數(shù)據(jù)類型;
  • 深化應(yīng)用場景: 擴展至醫(yī)療、金融、科學等更多專業(yè)領(lǐng)域;
  • 保持新鮮度: 每月更新數(shù)據(jù)競技場,確保數(shù)據(jù)排行榜的及時性。

團隊認為,數(shù)據(jù)價值的驗證需要社區(qū)的共同努力,上述計劃也非常需要科研社區(qū)的力量來共同參與。

感興趣可以進一步關(guān)注。

地址:https://opendataarena.github.io/index.html

工具:https://github.com/OpenDataArena/OpenDataArena-Tool

數(shù)據(jù):https://huggingface.co/OpenDataArena

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-05-31 14:23:15

2025-06-06 08:52:00

機器人智能推理

2023-12-01 09:36:59

華為云大模型混合云華為云行業(yè)高峰論壇

2025-07-22 10:45:55

2012-05-31 14:20:14

2014-04-08 20:40:01

華為OpenDayligh

2018-07-05 17:50:14

AI

2009-06-25 19:03:37

云計算IBMWeb

2025-06-09 08:56:00

2025-06-11 09:19:46

2011-07-15 10:10:16

思科虛擬實驗室

2013-09-12 11:17:02

2024-05-27 11:43:47

2023-10-10 15:06:00

智能數(shù)據(jù)

2024-09-29 14:33:30

數(shù)據(jù)飛輪數(shù)據(jù)中臺數(shù)字化轉(zhuǎn)型

2025-02-28 08:40:00

2021-08-04 09:48:05

數(shù)字化

2024-03-07 08:58:10

點贊
收藏

51CTO技術(shù)棧公眾號