偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

思維鏈監(jiān)督和強(qiáng)化的圖表推理,7B模型媲美閉源大尺寸模型

人工智能 新聞
Chart-R1 的成功表明,通過精心設(shè)計(jì)的訓(xùn)練策略和高質(zhì)量數(shù)據(jù),即使是參數(shù)規(guī)模相對較小的模型也能在特定領(lǐng)域達(dá)到與大型閉源模型相媲美的性能。這一研究為構(gòu)建高效、專業(yè)的領(lǐng)域特定 AI 模型提供了寶貴經(jīng)驗(yàn),也為未來多模態(tài)推理研究指明了方向。

近期,隨著OpenAI-o1/o3和Deepseek-R1的成功,基于強(qiáng)化學(xué)習(xí)的微調(diào)方法(R1-Style)在AI領(lǐng)域引起廣泛關(guān)注。這些方法在數(shù)學(xué)推理和代碼智能方面展現(xiàn)出色表現(xiàn),但在通用多模態(tài)數(shù)據(jù)上的應(yīng)用研究仍有待深入。

DocTron團(tuán)隊(duì)提出的Chart-R1模型在這一背景下應(yīng)運(yùn)而生,針對圖表這一信息密集型多模態(tài)數(shù)據(jù)類型,開發(fā)出一套思維鏈監(jiān)督和強(qiáng)化的圖表推理方法,通過逐步驟的思維鏈監(jiān)督和數(shù)值敏感的強(qiáng)化學(xué)習(xí)微調(diào)實(shí)現(xiàn)復(fù)雜圖表推理能力。圖表分析不僅需要視覺理解,還需要進(jìn)行多步驟的數(shù)值推理和關(guān)系分析,因此這項(xiàng)工作的重要性不言而喻。

DocTron是一個(gè)在通用視覺語言模型架構(gòu)上實(shí)現(xiàn)結(jié)構(gòu)化內(nèi)容解析和理解的開源項(xiàng)目,而無需定制化的模塊開發(fā),覆蓋通用文檔、學(xué)科公式、圖表代碼等場景。

創(chuàng)新點(diǎn)與技術(shù)突破

圖片

Chart-R1 的核心創(chuàng)新在于其兩階段訓(xùn)練策略和高質(zhì)量數(shù)據(jù)合成方法:

1. 程序化數(shù)據(jù)合成技術(shù):

研究團(tuán)隊(duì)開發(fā)了一種新穎的程序化數(shù)據(jù)合成技術(shù),利用 LLM 生成圖表繪制代碼,并基于這些代碼構(gòu)建復(fù)雜問題、多步驟思維鏈推理過程和最終答案。

這種方法生成了覆蓋單圖表和多子圖表的高質(zhì)量推理數(shù)據(jù),構(gòu)建了包含 258k 多步推理樣本的 ChartRQA 數(shù)據(jù)集。與現(xiàn)有方法相比,該技術(shù)避免了有損解析過程,確保了數(shù)據(jù)的多樣性和真實(shí)性。

圖片

圖片

2. 兩階段訓(xùn)練策略:

  • Chart-COT 階段:通過思維鏈監(jiān)督,訓(xùn)練模型將復(fù)雜圖表推理任務(wù)分解為細(xì)粒度、可理解的子任務(wù);
  • Chart-RFT 階段:采用數(shù)值敏感的強(qiáng)化學(xué)習(xí)微調(diào),使用群組相對策略優(yōu)化 (GRPO),獎(jiǎng)勵(lì)信號(hào)結(jié)合軟匹配和編輯距離,專門針對數(shù)值和字符串答案提高準(zhǔn)確性。

這種兩階段策略的獨(dú)特之處在于為兩個(gè)階段使用不同的數(shù)據(jù)集,避免了在強(qiáng)化學(xué)習(xí)過程中模型探索能力的受損。

實(shí)驗(yàn)結(jié)果與性能表現(xiàn)

圖片

圖片

實(shí)驗(yàn)結(jié)果令人矚目:Chart-R1 在各種公開基準(zhǔn)測試和自建的 ChartRQA 數(shù)據(jù)集上表現(xiàn)卓越,不僅超越了現(xiàn)有的圖表領(lǐng)域方法,甚至在多個(gè)任務(wù)上媲美 GPT-4o 和 Claude-3.5 等閉源大型模型。

在復(fù)雜圖表推理任務(wù)上,現(xiàn)有視覺語言模型的性能大幅下降,而 Chart-R1 依然保持穩(wěn)定的高水平表現(xiàn),這充分證明了該方法在復(fù)雜推理任務(wù)上的優(yōu)越性。

研究意義與應(yīng)用前景

該研究不僅在技術(shù)上取得了突破,也為圖表理解和推理領(lǐng)域提供了新的研究方向:

  • 證明了強(qiáng)化學(xué)習(xí)在視覺多模態(tài)推理任務(wù)中的有效性,特別是針對需要精確數(shù)值推理的場景;
  • 提出的程序化數(shù)據(jù)合成方法為解決多模態(tài)數(shù)據(jù)稀缺問題提供了新思路;
  • 兩階段訓(xùn)練策略為構(gòu)建高效推理模型提供了實(shí)用框架。

在實(shí)際應(yīng)用方面,Chart-R1 可廣泛應(yīng)用于商業(yè)智能分析、科學(xué)研究數(shù)據(jù)解讀、金融報(bào)告分析等需要深度圖表理解的場景,大幅提升自動(dòng)化分析效率。

結(jié)論

Chart-R1 的成功表明,通過精心設(shè)計(jì)的訓(xùn)練策略和高質(zhì)量數(shù)據(jù),即使是參數(shù)規(guī)模相對較小的模型也能在特定領(lǐng)域達(dá)到與大型閉源模型相媲美的性能。這一研究為構(gòu)建高效、專業(yè)的領(lǐng)域特定 AI 模型提供了寶貴經(jīng)驗(yàn),也為未來多模態(tài)推理研究指明了方向。

該工作不僅是對 R1-Style 方法在多模態(tài)領(lǐng)域有效性的驗(yàn)證,更是對如何構(gòu)建高效專業(yè)領(lǐng)域模型的重要探索,值得學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-12-17 13:07:11

訓(xùn)練數(shù)據(jù)

2024-06-03 10:43:34

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2024-03-25 08:00:00

2025-03-27 10:28:32

2025-04-03 09:23:08

大模型強(qiáng)化學(xué)習(xí)開源

2024-06-11 14:30:18

2025-06-12 08:46:00

2025-03-11 13:07:58

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-09-24 08:53:10

2025-02-08 17:00:11

2025-03-10 08:30:00

AI模型訓(xùn)練

2024-09-05 14:25:00

訓(xùn)練代碼

2023-10-11 12:32:53

AI模型

2024-04-03 12:32:00

數(shù)據(jù)訓(xùn)練

2023-09-25 09:45:01

數(shù)據(jù)模型

2024-07-17 12:13:11

2025-10-10 01:25:00

大模型訓(xùn)練數(shù)據(jù)OpenAI

2023-06-05 10:01:18

模型測評(píng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)