偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

付費Mathpix公式識別不香了~不要錢舒服!

發(fā)布于 2025-8-12 06:27
瀏覽
0收藏

復(fù)雜科學(xué)文獻中數(shù)學(xué)公式識別的問題,對于科學(xué)文獻的智能化分析至關(guān)重要,但現(xiàn)有的特定任務(wù)模型和通用視覺語言模型在處理公式結(jié)構(gòu)多樣性、復(fù)雜性和現(xiàn)實變化時仍存在不足。

一、當前方案的局限性

  • 依賴特定任務(wù)模型:大多數(shù)現(xiàn)有公式識別方法依賴于為特定任務(wù)設(shè)計的模型架構(gòu),這些模型在新任務(wù)中需要重新設(shè)計架構(gòu),缺乏通用性。
  • 復(fù)雜性和多樣性不足:現(xiàn)有數(shù)據(jù)集和方法主要關(guān)注結(jié)構(gòu)簡單、符號種類有限的公式,而忽略了多學(xué)科、高度復(fù)雜且結(jié)構(gòu)多樣的真實科學(xué)公式。
  • 結(jié)構(gòu)適應(yīng)性和泛化能力有限:大多數(shù)方法僅關(guān)注單行公式,忽視了多行公式和頁面級復(fù)雜布局,導(dǎo)致在真實文檔中的性能下降。

二、DocTron-Formula

DocTron-Formula 通過簡單監(jiān)督微調(diào)即可在多種復(fù)雜場景中實現(xiàn)最先進的性能,并且引入了 CSFormula 數(shù)據(jù)集,這是一個涵蓋多學(xué)科、結(jié)構(gòu)復(fù)雜且具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集,包含行、段落和頁面級別的公式。

付費Mathpix公式識別不香了~不要錢舒服!-AI.x社區(qū)

2.1 CSFormula 數(shù)據(jù)集構(gòu)造

付費Mathpix公式識別不香了~不要錢舒服!-AI.x社區(qū)

包含來自數(shù)學(xué)、物理、化學(xué)等多個學(xué)科的復(fù)雜公式,涵蓋了單行、多行和頁面級別的復(fù)雜布局結(jié)構(gòu)。數(shù)據(jù)集分為三個類別:

  • 行級別:包含單個打印公式,包括單行和多行表達式。
  • 段落級別:關(guān)注公式嵌入自然語言段落的場景。
  • 頁面級別:包含完整的科學(xué)文檔圖像,包括公式、文本、表格等元素。

2.2 模型架構(gòu)

DocTron-Formula 基于Qwen2.5-VL微調(diào),其核心架構(gòu)包括視覺編碼器和語言模型兩部分:

  • 視覺編碼器:將文獻圖像作為輸入,通過視覺變換器(ViT)處理圖像,生成視覺特征序列。視覺編碼器結(jié)合了二維旋轉(zhuǎn)位置嵌入(2D-RoPE)和窗口注意力機制,支持原生輸入分辨率并加速計算。
  • 語言模型:將視覺特征和指令文本投影到統(tǒng)一的嵌入空間中,通過多頭自注意力機制和前饋網(wǎng)絡(luò)進行處理。模型直接使用輸入圖像的實際尺寸(絕對坐標)來表示邊界框、點等空間特征,從而學(xué)習(xí)尺度信息,提高對不同分辨率圖像的處理能力。

三、模型效果

付費Mathpix公式識別不香了~不要錢舒服!-AI.x社區(qū)

  • Im2LaTeX-160K數(shù)據(jù)集上,ED 為 0.245,與任務(wù)特定的 SOTA 模型 UniMERNet(0.240)相當,優(yōu)于其他基線方法。
  • UniMER數(shù)據(jù)集上,平均 ED 為 0.098,低于 UniMERNet(0.103),尤其在屏幕截圖表達式(SCE)和手寫表達式(HWE)子集上表現(xiàn)突出。
  • CSFormula數(shù)據(jù)集上,平均 ED 為 0.164,顯著優(yōu)于第二名 Gemini-2.5-flash(0.394)。

??https://huggingface.co/DocTron/DocTron-Formula??

??https://github.com/DocTron-hub/DocTron-Formula/tree/main??

??https://arxiv.org/pdf/2508.00311??

本文轉(zhuǎn)載自?????CourseAI?????,作者:CourseAI


收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦