偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<legend id="qd1o8"><track id="qd1o8"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

ICCV 2025 | ECD：高質量合成圖表數據集，提升開源MLLM圖表理解能力

2025-08-22 09:05:00

人工智能新聞

我們提出 ECD（Effective Chart Dataset）—— 一個規(guī)模大、質量高、風格多樣的合成圖表數據集。

本文第一作者楊昱威，來自澳大利亞國立大學，合作者包括章澤宇（澳大利亞國立大學）、侯云鐘（澳大利亞國立大學）、李卓婉（約翰霍普金斯大學）、Gaowen Liu（思科）、Ali Payani（思科）、丁源森（俄亥俄州立大學）以及鄭良（澳大利亞國立大學）。

背景與動機

在科研、新聞報道、數據分析等領域，圖表是信息傳遞的核心載體。要讓多模態(tài)大語言模型（MLLMs）真正服務于科學研究，必須具備以下兩個能力：

1. 精準識別與理解圖表元素（如坐標軸、圖例、數據點、標題等）；

2. 對圖表數據進行深度推理（如計算差值、比較趨勢、跨子圖推理等）；

然而，即便是最先進的開源多模態(tài)大語言模型（MLLMs），在高難度科學圖表理解基準測試上準確率依舊徘徊在 30%–50%。盡管合成數據集易于生成，但它們通常存在以下問題：

風格單一：缺乏視覺和內容多樣性；
缺乏真實性：與真實圖表的分布差異較大；
數據模式受限：生成的圖表數據過于簡單，無法模擬復雜場景；

為此，我們提出 ECD（Effective Chart Dataset）—— 一個規(guī)模大、質量高、風格多樣的合成圖表數據集。同時，本文還配套設計了一條模塊化數據合成流水線以及高質量評測基準 ECDBench，為開源 MLLM 提供全面的訓練與評測支持。

論文標題：Effective Training Data Synthesis for Improving MLLM Chart Understanding
論文地址：https://arxiv.org/pdf/2508.06492
代碼倉庫：https://github.com/yuweiyang-anu/ECD
項目主頁：https://effective-chart-dataset-synthesis.github.io

數據集亮點

ECD 作為一個全新的高質量合成圖表數據集，具備以下核心優(yōu)勢：

1. 數據規(guī)模與圖表多樣性

數據量：包含 10,000+ 圖表，覆蓋廣泛的學科主題和圖表類型；
多樣性：涵蓋 25 種主題（如經濟學、天文學、醫(yī)學等）、29 種圖表類型（如線圖、條形圖、熱力圖等），以及 252 種子圖組合（包括多種復雜布局，如 2 行 3 列、3 行 3 列布局等），是同類合成數據集中覆蓋范圍最廣的。

2. 高質量問答對

數據集包含 300k+ 問答對（包括描述類和推理類問題），所有問答對均由 GPT-4o 自動生成并通過置信度過濾篩選得到。

示例：

描述類問題：“左側子圖的標題是什么？”

答案：“左側子圖的標題是‘不同媒介的消費趨勢’ ”。

推理類問題：“哪個收入來源在本地媒體和國家媒體之間差異最大？”

答案：“數字廣告收入差異最大，差值為 300M?！?/span>

3. 數據真實性

最低的 FID（Frechet Inception Distance）得分：ECD 數據集在視覺分布上與真實科學圖表（如 CharXiv 數據集，從 arXiv 文章中圖表搜集得到）的相似度最高；
最高的像素熵：平均像素熵顯著高于其他合成數據集，表明其復雜度更高，信息量更大，推理難度也更高。

方法與創(chuàng)新：模塊化五階段數據合成流水線

為了實現高質量且多樣化的合成圖表數據集 ECD，本文設計了一個五階段模塊化的數據合成流水線，具體如下：

1. 單圖生成

使用 29 種預定義繪圖函數（如線圖、餅圖、散點圖等），通過獨立數據生成器生成數據表、標題、坐標軸標簽、標記樣式等內容；
數據生成與繪圖代碼生成分離，提升數據模式的多樣性。數據可以隨機選擇生成遞增、遞減或波動等趨勢。

2. 多子圖組合

條件順序生成，每個子圖的數據生成需要參考前面子圖的數據；
保證多子圖之間的語義一致性，模擬真實科研圖表的布局與信息關聯。

3. 視覺多樣化

添加注釋、陰影、放大視窗（Zoom-in inset）、字體 / 坐標軸樣式的變化；
引入 Seaborn 等繪圖庫，用于提升視覺豐富度；
調整圖表的分辨率與比例，保證其內容可讀性。

4. 圖像質量過濾

基于 GPT-4o 對圖表的視覺清晰度與語義連貫性進行兩方面評分；
僅保留質量高于數據集平均評分的圖表。

5. 問答對生成與過濾

每張圖生成描述類與推理類兩種類型的問答對；
通過 GPT-4o 進行置信度評分，保留置信度最高 QA，剔除低質量樣本。

模型與訓練集對比

在 6 個測試集上評估 4 個開源 MLLM，包括 LLaVA-Next-Llama3-8B、MiniCPM-V2.6、Phi-3-Vision 及 Qwen2.5-VL-7B。實驗表明，通過 ECD 訓練集微調后，可一致提升 4 個開源 MLLM 的性能表現；
以 LLaVA-Next-Llama3-8B 為基線，對比先前 ChartQA、ChartBench、ReachQA 圖表訓練集 → 在 ECD 訓練集監(jiān)督微調訓練（SFT）后，在所有測試集上均顯著一致地提升基線性能，其余訓練集上訓練后模型性能存在較大波動（不同測試集上性能有提升 / 有下降）。

數據集可視化對比

ECDBench：高質量圖表理解評測基準

為進一步驗證模型性能，我們基于所提出的 ECD 數據合成流水線與人工核對調整，額外構建了一個高質量的基準測試集 ECDBench，用于對當前多模態(tài)視覺語言模型以及采用我們 ECD 訓練集監(jiān)督微調前后的模型效果進行對比評估，基準統(tǒng)計信息如下：

規(guī)模：包含 1,224 張圖表
組成：364 單圖，860 多子圖（涵蓋 2–3 種圖表類型）
平均分辨率：1378×968 px
數據來源：GPT4o 自動生成 + 人工精細修訂
QA 配置：每張圖表生成 1 條描述類 + 1 條推理類問答，共計 2,448 對問答

ECDBench 上評估測試結果對比如下

在 ECDBench 上，所有衡量的 MLLMs 中，o4-mini 在所有三個指標上始終表現最佳（推理類問題準確率為 57.03%，描述類問題準確率為 77.45%，平均準確率為 67.24%）。另外，采用 ECD 訓練集微調后的模型（如 LLaVA-Next-Llama3-8B）性能顯著提升，表明 ECD 訓練集的高質量問答對能夠有效幫助提升模型圖表理解能力。

總結與展望

ECD 通過模塊化數據合成流程和高質量 QA 生成機制，保持了與真實科學圖表的高相似度，且顯著提升了數據多樣性與復雜度。ECDBench 則為 MLLM 圖表理解能力提供了全面的評測基準。我們相信，這一工作將為多模態(tài)推理、科學 AI 助手以及圖表自動化生成領域提供堅實的數據基礎與技術支持。

責任編輯：張燕妮來源：機器之心

AI 模型數據集

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="56bkx"></legend>