偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄

發(fā)布于 2024-11-21 10:14
瀏覽
0收藏

表格識(shí)別作為文檔智能的重要組成部分,面臨著復(fù)雜結(jié)構(gòu)和多樣化格式的挑戰(zhàn)。 ??【文檔智能 & RAG】RAG增強(qiáng)之路:增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路??

一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄-AI.x社區(qū)

前期文章也介紹了傳統(tǒng)視覺的方法進(jìn)行表格結(jié)構(gòu)識(shí)別的方法,??【文檔智能】輕量級(jí)級(jí)表格識(shí)別算法模型-SLANet??

關(guān)于表格識(shí)別在這里就不做過多的介紹了。

國慶期間,筆者利用一個(gè)較長的時(shí)間段,訓(xùn)練了一個(gè)多模態(tài)的表格識(shí)別模型,效果還不錯(cuò),特此記錄一下多模態(tài)的效果。

  • 訓(xùn)練資源:H100*8
  • 訓(xùn)練數(shù)據(jù):200w table image - table html對(duì)(html的表示表格的優(yōu)勢(shì),可以準(zhǔn)確表示一些復(fù)雜表格,如合并單元格等,這點(diǎn)是mardown格式無法做到的。)
  • 模型參數(shù)量:7B
  • 自建測(cè)評(píng)數(shù)據(jù)TEDS:0.97~0.98

小總結(jié):

  1. 訓(xùn)練數(shù)據(jù)質(zhì)量大于一切,含大量數(shù)據(jù)的超長文本表格目前還不能準(zhǔn)確識(shí)別,因?yàn)楣P者訓(xùn)練的是??max-length=8192??。
  2. 模型參數(shù)量目前較大,推理速度比較慢。

效果記錄: 下面的一些case來源于網(wǎng)絡(luò)的表格截圖。

一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄-AI.x社區(qū)

case1


一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄-AI.x社區(qū)

case2


一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄-AI.x社區(qū)

case3


一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄-AI.x社區(qū)

case4


一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄-AI.x社區(qū)

case5


一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄-AI.x社區(qū)

case6


一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄-AI.x社區(qū)

case7


本文轉(zhuǎn)載自公眾號(hào)大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/MrlNdZKvO5byUIi21sBinw??

已于2024-11-28 18:51:29修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦