ICCV 2025 | ECD:高質量合成圖表數據集,提升開源MLLM圖表理解能力
本文第一作者楊昱威,來自澳大利亞國立大學,合作者包括章澤宇(澳大利亞國立大學)、侯云鐘(澳大利亞國立大學)、李卓婉(約翰霍普金斯大學)、Gaowen Liu(思科)、Ali Payani(思科)、丁源森(俄亥俄州立大學)以及鄭良(澳大利亞國立大學)。
背景與動機
在科研、新聞報道、數據分析等領域,圖表是信息傳遞的核心載體。要讓多模態(tài)大語言模型(MLLMs)真正服務于科學研究,必須具備以下兩個能力:
1. 精準識別與理解圖表元素(如坐標軸、圖例、數據點、標題等);
2. 對圖表數據進行深度推理(如計算差值、比較趨勢、跨子圖推理等);
然而,即便是最先進的開源多模態(tài)大語言模型(MLLMs),在高難度科學圖表理解基準測試上準確率依舊徘徊在 30%–50%。盡管合成數據集易于生成,但它們通常存在以下問題:
- 風格單一:缺乏視覺和內容多樣性;
- 缺乏真實性:與真實圖表的分布差異較大;
- 數據模式受限:生成的圖表數據過于簡單,無法模擬復雜場景;

為此,我們提出 ECD(Effective Chart Dataset)—— 一個規(guī)模大、質量高、風格多樣的合成圖表數據集。同時,本文還配套設計了一條模塊化數據合成流水線以及高質量評測基準 ECDBench,為開源 MLLM 提供全面的訓練與評測支持。

- 論文標題:Effective Training Data Synthesis for Improving MLLM Chart Understanding
- 論文地址:https://arxiv.org/pdf/2508.06492
- 代碼倉庫:https://github.com/yuweiyang-anu/ECD
- 項目主頁:https://effective-chart-dataset-synthesis.github.io
數據集亮點

ECD 作為一個全新的高質量合成圖表數據集,具備以下核心優(yōu)勢:
1. 數據規(guī)模與圖表多樣性
- 數據量:包含 10,000+ 圖表,覆蓋廣泛的學科主題和圖表類型;
- 多樣性:涵蓋 25 種主題(如經濟學、天文學、醫(yī)學等)、29 種圖表類型(如線圖、條形圖、熱力圖等),以及 252 種子圖組合(包括多種復雜布局,如 2 行 3 列、3 行 3 列布局等),是同類合成數據集中覆蓋范圍最廣的。
2. 高質量問答對
數據集包含 300k+ 問答對(包括描述類和推理類問題),所有問答對均由 GPT-4o 自動生成并通過置信度過濾篩選得到。
示例:
描述類問題:“左側子圖的標題是什么?”
答案:“左側子圖的標題是‘不同媒介的消費趨勢’ ”。
推理類問題:“哪個收入來源在本地媒體和國家媒體之間差異最大?”
答案:“數字廣告收入差異最大,差值為 300M?!?/span>
3. 數據真實性
- 最低的 FID(Frechet Inception Distance)得分:ECD 數據集在視覺分布上與真實科學圖表(如 CharXiv 數據集,從 arXiv 文章中圖表搜集得到)的相似度最高;
- 最高的像素熵:平均像素熵顯著高于其他合成數據集,表明其復雜度更高,信息量更大,推理難度也更高。
方法與創(chuàng)新:模塊化五階段數據合成流水線

為了實現高質量且多樣化的合成圖表數據集 ECD,本文設計了一個五階段模塊化的數據合成流水線,具體如下:
1. 單圖生成
- 使用 29 種預定義繪圖函數(如線圖、餅圖、散點圖等),通過獨立數據生成器生成數據表、標題、坐標軸標簽、標記樣式等內容;
- 數據生成與繪圖代碼生成分離,提升數據模式的多樣性。數據可以隨機選擇生成遞增、遞減或波動等趨勢。
2. 多子圖組合
- 條件順序生成,每個子圖的數據生成需要參考前面子圖的數據;
- 保證多子圖之間的語義一致性,模擬真實科研圖表的布局與信息關聯。
3. 視覺多樣化
- 添加注釋、陰影、放大視窗(Zoom-in inset)、字體 / 坐標軸樣式的變化;
- 引入 Seaborn 等繪圖庫,用于提升視覺豐富度;
- 調整圖表的分辨率與比例,保證其內容可讀性。
4. 圖像質量過濾
- 基于 GPT-4o 對圖表的視覺清晰度與語義連貫性進行兩方面評分;
- 僅保留質量高于數據集平均評分的圖表。
5. 問答對生成與過濾
- 每張圖生成描述類與推理類兩種類型的問答對;
- 通過 GPT-4o 進行置信度評分,保留置信度最高 QA,剔除低質量樣本。
模型與訓練集對比

- 在 6 個測試集上評估 4 個開源 MLLM,包括 LLaVA-Next-Llama3-8B、MiniCPM-V2.6、Phi-3-Vision 及 Qwen2.5-VL-7B。 實驗表明,通過 ECD 訓練集微調后,可一致提升 4 個開源 MLLM 的性能表現;
- 以 LLaVA-Next-Llama3-8B 為基線,對比先前 ChartQA、ChartBench、ReachQA 圖表訓練集 → 在 ECD 訓練集監(jiān)督微調訓練(SFT)后,在所有測試集上均顯著一致地提升基線性能,其余訓練集上訓練后模型性能存在較大波動(不同測試集上性能有提升 / 有下降)。
數據集可視化對比

ECDBench:高質量圖表理解評測基準
為進一步驗證模型性能,我們基于所提出的 ECD 數據合成流水線與人工核對調整,額外構建了一個高質量的基準測試集 ECDBench,用于對當前多模態(tài)視覺語言模型以及采用我們 ECD 訓練集監(jiān)督微調前后的模型效果進行對比評估,基準統(tǒng)計信息如下:
- 規(guī)模:包含 1,224 張圖表
- 組成:364 單圖,860 多子圖(涵蓋 2–3 種圖表類型)
- 平均分辨率:1378×968 px
- 數據來源:GPT4o 自動生成 + 人工精細修訂
- QA 配置:每張圖表生成 1 條描述類 + 1 條推理類問答,共計 2,448 對問答
ECDBench 上評估測試結果對比如下

在 ECDBench 上,所有衡量的 MLLMs 中,o4-mini 在所有三個指標上始終表現最佳(推理類問題準確率為 57.03%,描述類問題準確率為 77.45%,平均準確率為 67.24%)。另外,采用 ECD 訓練集微調后的模型(如 LLaVA-Next-Llama3-8B)性能顯著提升,表明 ECD 訓練集的高質量問答對能夠有效幫助提升模型圖表理解能力。
總結與展望
ECD 通過模塊化數據合成流程和高質量 QA 生成機制,保持了與真實科學圖表的高相似度,且顯著提升了數據多樣性與復雜度。ECDBench 則為 MLLM 圖表理解能力提供了全面的評測基準。我們相信,這一工作將為多模態(tài)推理、科學 AI 助手以及圖表自動化生成領域提供堅實的數據基礎與技術支持。



























