偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICCV 2025 | ECD:高質量合成圖表數據集,提升開源MLLM圖表理解能力

人工智能 新聞
我們提出 ECD(Effective Chart Dataset)—— 一個規(guī)模大、質量高、風格多樣的合成圖表數據集。

本文第一作者楊昱威,來自澳大利亞國立大學,合作者包括章澤宇(澳大利亞國立大學)、侯云鐘(澳大利亞國立大學)、李卓婉(約翰霍普金斯大學)、Gaowen Liu(思科)、Ali Payani(思科)、丁源森(俄亥俄州立大學)以及鄭良(澳大利亞國立大學)。

背景與動機

在科研、新聞報道、數據分析等領域,圖表是信息傳遞的核心載體。要讓多模態(tài)大語言模型(MLLMs)真正服務于科學研究,必須具備以下兩個能力:

1. 精準識別與理解圖表元素(如坐標軸、圖例、數據點、標題等);

2. 對圖表數據進行深度推理(如計算差值、比較趨勢、跨子圖推理等);

然而,即便是最先進的開源多模態(tài)大語言模型(MLLMs),在高難度科學圖表理解基準測試上準確率依舊徘徊在 30%–50%。盡管合成數據集易于生成,但它們通常存在以下問題:

  • 風格單一:缺乏視覺和內容多樣性;
  • 缺乏真實性:與真實圖表的分布差異較大;
  • 數據模式受限:生成的圖表數據過于簡單,無法模擬復雜場景;

為此,我們提出 ECD(Effective Chart Dataset)—— 一個規(guī)模大、質量高、風格多樣的合成圖表數據集。同時,本文還配套設計了一條模塊化數據合成流水線以及高質量評測基準 ECDBench,為開源 MLLM 提供全面的訓練與評測支持。

  • 論文標題:Effective Training Data Synthesis for Improving MLLM Chart Understanding
  • 論文地址:https://arxiv.org/pdf/2508.06492
  • 代碼倉庫:https://github.com/yuweiyang-anu/ECD
  • 項目主頁:https://effective-chart-dataset-synthesis.github.io

數據集亮點

ECD 作為一個全新的高質量合成圖表數據集,具備以下核心優(yōu)勢:

1. 數據規(guī)模與圖表多樣性

  • 數據量:包含 10,000+ 圖表,覆蓋廣泛的學科主題和圖表類型;
  • 多樣性:涵蓋 25 種主題(如經濟學、天文學、醫(yī)學等)、29 種圖表類型(如線圖、條形圖、熱力圖等),以及 252 種子圖組合(包括多種復雜布局,如 2 行 3 列、3 行 3 列布局等),是同類合成數據集中覆蓋范圍最廣的。

2. 高質量問答對

數據集包含 300k+ 問答對(包括描述類和推理類問題),所有問答對均由 GPT-4o 自動生成并通過置信度過濾篩選得到。

示例:

描述類問題:“左側子圖的標題是什么?”

答案:“左側子圖的標題是‘不同媒介的消費趨勢’ ”。

推理類問題:“哪個收入來源在本地媒體和國家媒體之間差異最大?”

答案:“數字廣告收入差異最大,差值為 300M?!?/span>

3. 數據真實性

  • 最低的 FID(Frechet Inception Distance)得分:ECD 數據集在視覺分布上與真實科學圖表(如 CharXiv 數據集,從 arXiv 文章中圖表搜集得到)的相似度最高;
  • 最高的像素熵:平均像素熵顯著高于其他合成數據集,表明其復雜度更高,信息量更大,推理難度也更高。

方法與創(chuàng)新:模塊化五階段數據合成流水線

為了實現高質量且多樣化的合成圖表數據集 ECD,本文設計了一個五階段模塊化的數據合成流水線,具體如下:

1. 單圖生成  

  • 使用 29 種預定義繪圖函數(如線圖、餅圖、散點圖等),通過獨立數據生成器生成數據表、標題、坐標軸標簽、標記樣式等內容; 
  • 數據生成與繪圖代碼生成分離,提升數據模式的多樣性。數據可以隨機選擇生成遞增、遞減或波動等趨勢。

2. 多子圖組合

  • 條件順序生成,每個子圖的數據生成需要參考前面子圖的數據;
  • 保證多子圖之間的語義一致性,模擬真實科研圖表的布局與信息關聯。

3. 視覺多樣化

  • 添加注釋、陰影、放大視窗(Zoom-in inset)、字體 / 坐標軸樣式的變化;
  • 引入 Seaborn 等繪圖庫,用于提升視覺豐富度;
  • 調整圖表的分辨率與比例,保證其內容可讀性。

4. 圖像質量過濾

  • 基于 GPT-4o 對圖表的視覺清晰度與語義連貫性進行兩方面評分;
  • 僅保留質量高于數據集平均評分的圖表。

5. 問答對生成與過濾

  • 每張圖生成描述類與推理類兩種類型的問答對;
  • 通過 GPT-4o 進行置信度評分,保留置信度最高 QA,剔除低質量樣本。

模型與訓練集對比

  • 在 6 個測試集上評估 4 個開源 MLLM,包括 LLaVA-Next-Llama3-8B、MiniCPM-V2.6、Phi-3-Vision 及 Qwen2.5-VL-7B。 實驗表明,通過 ECD 訓練集微調后,可一致提升 4 個開源 MLLM 的性能表現;
  • 以 LLaVA-Next-Llama3-8B 為基線,對比先前 ChartQA、ChartBench、ReachQA 圖表訓練集 → 在 ECD 訓練集監(jiān)督微調訓練(SFT)后,在所有測試集上均顯著一致地提升基線性能,其余訓練集上訓練后模型性能存在較大波動(不同測試集上性能有提升 / 有下降)。

數據集可視化對比

ECDBench:高質量圖表理解評測基準

為進一步驗證模型性能,我們基于所提出的 ECD 數據合成流水線與人工核對調整,額外構建了一個高質量的基準測試集 ECDBench,用于對當前多模態(tài)視覺語言模型以及采用我們 ECD 訓練集監(jiān)督微調前后的模型效果進行對比評估,基準統(tǒng)計信息如下:

  • 規(guī)模:包含 1,224 張圖表
  • 組成:364 單圖,860 多子圖(涵蓋 2–3 種圖表類型)
  • 平均分辨率:1378×968 px
  • 數據來源:GPT4o 自動生成 + 人工精細修訂
  • QA 配置:每張圖表生成 1 條描述類 + 1 條推理類問答,共計 2,448 對問答

ECDBench 上評估測試結果對比如下

在 ECDBench 上,所有衡量的 MLLMs 中,o4-mini 在所有三個指標上始終表現最佳(推理類問題準確率為 57.03%,描述類問題準確率為 77.45%,平均準確率為 67.24%)。另外,采用 ECD 訓練集微調后的模型(如 LLaVA-Next-Llama3-8B)性能顯著提升,表明 ECD 訓練集的高質量問答對能夠有效幫助提升模型圖表理解能力。

總結與展望

ECD 通過模塊化數據合成流程和高質量 QA 生成機制,保持了與真實科學圖表的高相似度,且顯著提升了數據多樣性與復雜度。ECDBench 則為 MLLM 圖表理解能力提供了全面的評測基準。我們相信,這一工作將為多模態(tài)推理、科學 AI 助手以及圖表自動化生成領域提供堅實的數據基礎與技術支持。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-12 13:38:54

業(yè)務購物ToC

2016-12-20 09:35:52

微軟開源數據集

2025-07-23 04:00:00

2020-01-09 11:30:40

AI 數據人工智能

2011-05-31 13:43:46

外鏈

2017-07-14 09:54:47

代碼函數程序

2023-08-08 10:06:25

微軟大語言模型

2023-12-03 08:46:20

模型開源

2024-08-26 15:20:45

2021-08-08 14:26:24

SQL數據庫開發(fā)

2025-04-14 09:26:00

2025-04-27 09:16:00

模型AI數據

2021-01-20 07:44:15

農業(yè)發(fā)展科技智慧農業(yè)

2023-09-01 14:42:39

數據研究

2012-09-13 10:44:18

Python代碼

2023-10-15 12:07:09

點贊
收藏

51CTO技術棧公眾號