偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!

發(fā)布于 2025-11-3 07:22
瀏覽
0收藏

分享了??DeepSeek-OCR的相關(guān)細(xì)節(jié)??,確實有被DS的高立意所折服,我還在苦苦利用OCR解析文檔做落地的時候,DeepSeek在考慮用圖像壓縮文本信息!

昨天一天的發(fā)酵,也是各種文本已死,視覺當(dāng)立,我也是醉了,我這人呢,挺沒意思的,所以拋出幾個觀點大家一起討論,

第一個,文本Token數(shù)量壓縮到視覺Token數(shù)量的10倍以內(nèi)時,解碼精度可達(dá)97%,但是這里會有一個問題,解碼的精度是字符的準(zhǔn)確率,但是不代表文本信息重要性,我舉個例子,就是100個字里,你錯了3個字,如果要是關(guān)鍵人名,或者數(shù)值等內(nèi)容識別錯了,就會很影響后面內(nèi)容的使用或者傳遞~

純文字不形象的話,想想表格就更清晰了,如果表格單元格位置錯亂,會十分影響后面使用,所以壓縮率,對應(yīng)的應(yīng)該是信息精度,

但我也不知道如何去評價信息精度,只不過覺得單純看解碼精度,太過草率,

第二個,長上下文坍塌現(xiàn)象,我們都知道,LLM處理長文會出現(xiàn)越往后面,LLM的精度會出現(xiàn)一定的下降,

但是我在思考,假如正常LLM的坍塌在128K之后,那么經(jīng)過壓縮的視覺Token,在處理的時候,會不會在12K的時候出現(xiàn)坍塌,模型到底能不能處理的了高密度信息Token,現(xiàn)在還在用MLP對齊,起碼,目前VLM在處理視頻的時候,每幀Token數(shù)和幀數(shù)都會影響模型最終效果

第三個,文本Token壓縮成視覺Token時,高壓縮率丟失的內(nèi)容,真的比Summary丟失的要少嗎?直觀感覺會少一些,但是20倍壓縮60%的OCR準(zhǔn)確率,是丟失信息、還是錯誤信息,是否依然保證原始信息的流暢,我的直覺,summary起碼信息是流暢的,但是圖像的信息壓縮,也許是斷續(xù)的。

上面只是一些思考,沒有否定DeepSeek-OCR的信息壓縮論,

因為我第一眼也是覺得醍醐灌頂,歡迎大家評論區(qū)討論,有相關(guān)paper歡迎丟出來。

順著信息壓縮這個思路往下走,那么就是提高極度壓縮下的精度,

上篇我也是立個Flag,說DeepSeek-OCR與PaddleOCR-VL對比一些,

這次真馬來了~

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

PS:趨勢榜前三名都是OCR模型,前五都能做OCR的事情,所以O(shè)CR是真好起來了,哈哈哈哈~

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

下面從純機(jī)文OCR識別、手寫體識別、形近字、數(shù)學(xué)公式、表格解析、豎版內(nèi)容等多個角度來進(jìn)行對比。

懶人不愛看版:

  • 單論OCR能力,我只能說PaddleOCR-VL全面領(lǐng)先
  • 針對機(jī)打純文DeepSeekOCR跟PaddleOCR-VL差不多
  • 表格解析、豎版內(nèi)容上,DeepSeekOCR存在一些不足
  • 測試了不少圖片,下面例子是部分
  • DeepSeek黨,求別噴,只是對比測試

測試鏈接:

??https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo??

??https://huggingface.co/spaces/axiilay/DeepSeek-OCR-Demo??

注意:DeepSeek-OCR選擇的精度均為Large

機(jī)打純文

純看模型的OCR能力,是否能將內(nèi)容還原,最樸素的需求,直接解析我昨天發(fā)的文章。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

PaddleOCR-VL效果:不看格式,內(nèi)容完全正確,一字不差。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

DeepSeekOCR效果:不看格式,內(nèi)容完全正確,一字不差。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

這種機(jī)打的純文本,對于現(xiàn)在大多數(shù)VLM模型還是沒啥難度的。

但調(diào)整small確實會出現(xiàn)錯誤,所以如果是高壓縮,還要看信息丟失程度

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

手寫文本

考察模型對手寫內(nèi)容的識別準(zhǔn)確率,能否直接處理壓縮手寫內(nèi)容

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

PaddleOCR-VL效果:正確

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

DeepSeekOCR效果:錯了一個字

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

增億點難度,說實話,下面這個例子我都有的不認(rèn)識,哈哈哈

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

PaddleOCR-VL效果:存在識別錯誤,但整體字符準(zhǔn)確率要比DeepSeek-OCR高。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

DeepSeekOCR效果:

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

形近字

考察模型是否可以準(zhǔn)確識別形近字

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

PaddleOCR-VL效果:全部正確

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

DeepSeekOCR效果:錯了一個字,有點奇怪,昏和舀感覺差好多,不知道為啥錯了

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

數(shù)學(xué)公式

考察模型對數(shù)學(xué)公式解析的能力,是否可以將公式還原,

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

PaddleOCR-VL效果:解析正確

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

DeepSeekOCR效果:錯了一點

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

表格識別

考察模型的表格解析能力,能否將文本內(nèi)容和表格結(jié)構(gòu)均識別正確。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

PaddleOCR-VL效果:識別正確

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

DeepSeekOCR效果:結(jié)構(gòu)存在錯誤,就是如果表格內(nèi)容,結(jié)構(gòu)不對,對后面信息理解是巨大的傷害!

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

再來一個,

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

PaddleOCR-VL效果:識別正確,

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

DeepSeekOCR效果:結(jié)構(gòu)存在問題

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

豎版內(nèi)容識別

考察模型對豎版內(nèi)容理解的能力,是否知道圖像為豎版內(nèi)容,排序是否準(zhǔn)確。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

PaddleOCR-VL效果:正確,不僅內(nèi)容識別全對,順序也沒有問題。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

DeepSeekOCR效果:內(nèi)容識別多出一句話,同時豎版內(nèi)容理解也不對。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

最后,在簡單過一下PaddleOCR的細(xì)節(jié),由PP-DocLayoutV2和PaddleOCR-VL-0.9B兩部分組成,

PP-DocLayoutV2是用于識別文檔的結(jié)構(gòu)信息,過濾圖片中無效視覺部分,如空白,這本身也算是一種“壓縮”吧。

PaddleOCR-VL-0.9B接受batch塊圖像進(jìn)行識別,最終輸出結(jié)構(gòu)化輸出。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

其中,PaddleOCR-VL-0.9B依舊是經(jīng)典三結(jié)構(gòu),圖像編碼器采用NaViT,MLP映射器,文本解碼器采用ERNIE4.5-0.3B模型,如下。

再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!-AI.x社區(qū)

最后想說,圖像二維壓縮是個很好的方向,但也確實存在一些問題,在OCR這一塊,PaddleOCR確實是鼻祖級別,真別質(zhì)疑百度的技術(shù),哈哈哈!

VLM沒出來之前,PaddleOCR是必備,不過之前都是小模型,現(xiàn)在更新了0.9B版本,我已經(jīng)準(zhǔn)備換PDF解析工具了,

本文轉(zhuǎn)載自??NLP工作站??,作者:NLP工作站


標(biāo)簽
已于2025-11-3 07:22:44修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦