偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一圖勝千言被實現(xiàn)了!DeepSeek-OCR用圖片壓縮文本,10倍壓縮率

人工智能 新聞
DeepSeek-AI團隊的這項工作,是對視覺-文本壓縮邊界的一次成功探索。10倍壓縮比下接近無損,20倍壓縮比下仍能看,這個結(jié)果足夠讓人興奮。

DeepSeek開源了DeepSeek-OCR,用1張圖片的信息,還原10頁書的文字,10倍的壓縮率,可以做到幾乎不丟失信息。

視覺編碼器走了不少彎路

大型語言模型記性不好,或者說,能記住的東西太有限。你給它一篇長長的文章,它的計算量呈二次方往上飆。

DeepSeek-AI團隊提出了一個腦洞大開的想法:既然文字這么占地方,我們干嘛非得用文字存呢?能不能用圖片來“壓縮”文字信息?

這個點子基于一個我們都懂的道理,“一圖勝千言”。一張印滿文字的圖片,在模型眼里,可能只需要很少的視覺token(vision tokens)就能表達清楚。而如果把這些文字轉(zhuǎn)換成數(shù)字文本,token數(shù)量可能多得嚇人。這就好比一個壓縮包,用視覺的方式把海量文本信息給打包了。

說干就干,他們搗鼓出了一個叫DeepSeek-OCR的模型來驗證這個想法。

結(jié)果相當驚人,當壓縮比,也就是文本token數(shù)是視覺token數(shù)的10倍以內(nèi)時,模型居然能把圖片里的文字幾乎完美地還原出來,準確率高達97%。就算把壓縮比拉到20倍,準確率也還有60%。這就等于說,用視覺當媒介,真的可以高效地壓縮文本信息。

在DeepSeek-OCR之前,業(yè)界在怎么讓模型“看”圖這件事上,已經(jīng)摸索了很久,主流的視覺語言模型(VLMs)里,視覺編碼器大概有三種玩法,但家家有本難念的經(jīng)。

第一種是“雙塔架構(gòu)”,代表是Vary。它搞了兩個并行的編碼器,像兩個塔一樣,一個專門處理高分辨率圖像。這么做雖然參數(shù)和內(nèi)存都還算可控,但部署起來就麻煩了,等于要預(yù)處理兩次圖像,訓(xùn)練的時候想讓兩個編碼器步調(diào)一致也很困難。

第二種是“切片大法”,代表是InternVL2.0。這方法簡單粗暴,遇到大圖就切成一堆小圖塊,并行計算。激活內(nèi)存是降下來了,也能處理超高分辨率的圖。但問題是,它本身編碼器的原生分辨率太低,一切起圖來就剎不住車,一張大圖被切得七零八落,產(chǎn)生一大堆視覺token,反而得不償失。

第三種是“自適應(yīng)分辨率”,代表是Qwen2-VL。這種編碼器比較靈活,能處理各種分辨率的圖像,不用切片。聽起來很美,可一旦遇到真正的大圖,GPU內(nèi)存就瞬間爆掉。而且訓(xùn)練的時候,要把不同尺寸的圖像打包在一起,序列長度會變得特別長,訓(xùn)練效率極低。

這些模型都在各自的路上狂奔,增強文檔光學(xué)字符識別(OCR)的能力,但似乎都忽略了一個根本問題:一篇一千個單詞的文檔,到底最少需要多少個視覺token才能完美解碼?

DeepSeek-OCR的突破

DeepSeek-OCR的架構(gòu)設(shè)計就是沖著解決這個問題去的。它也是一個端到端的視覺語言模型,一個編碼器加一個解碼器,結(jié)構(gòu)清晰。

它的核心武器是一個叫DeepEncoder的編碼器,參數(shù)量大約3.8億。這編碼器是把兩個業(yè)界大神SAM-base(8000萬參數(shù))和CLIP-large(3億參數(shù))給串聯(lián)了起來??梢园阉胂蟪梢粋€兩級流水線。

第一級主要靠窗口注意力的視覺感知組件,用SAM-base改造。它負責初步提取圖像特征。

第二級具有密集全局注意力的視覺知識組件,用CLIP-large改造。它負責深度理解和壓縮這些特征。

為了讓這兩位大神能合作愉快,研究團隊在它們中間加了一個2層的卷積模塊,作用是把視覺token進行16倍的下采樣。

舉個例子。一張1024×1024的圖像輸進去,編碼器先把它切成4096個小塊(補丁token)。第一級流水線處理這4096個token,因為參數(shù)量不大而且主要是窗口注意力,內(nèi)存還扛得住。在進入第二級全局注意力之前,這4096個token先被壓縮模塊“擠了一下水分”,變成了256個。這樣一來,計算量最大的全局注意力部分處理的token數(shù)就大大減少,整體的激活內(nèi)存就控制住了。

為了能測試不同壓縮比下的性能,DeepSeek-OCR還支持多種分辨率模式,跟相機似的,有小、中、大、超大各種檔位。

原生分辨率模式下,有四個檔位:Tiny(512×512,64個token)、Small(640×640,100個token)、Base(1024×1024,256個token)和Large(1280×1280,400個token)。小圖就直接縮放,大圖為了保持長寬比會進行填充,保證圖像信息不失真。

動態(tài)分辨率模式更靈活,可以把幾種原生分辨率組合起來用。比如Gundam模式,就是把一張圖切成好幾個640×640的小塊(局部細節(jié)),再加一個1024×1024的全局視圖。這種方法特別適合處理報紙這種超高分辨率的圖像,既能看清細節(jié),又不會因為切片太碎而產(chǎn)生過多token。

有意思的是,所有這些模式都是用一個模型訓(xùn)練出來的,實現(xiàn)了“一機多能”。

編碼器負責壓縮,解碼器就負責解壓。DeepSeek-OCR的解碼器用的是自家的DeepSeekMoE,一個擁有30億參數(shù)規(guī)模、混合專家(MoE)架構(gòu)的模型。它在推理的時候,只需要激活其中一小部分專家(約5.7億參數(shù)),既有大模型的表達能力,又有小模型的推理效率,非常適合OCR這種專業(yè)性強的任務(wù)。它的任務(wù),就是看著編碼器給過來的那點兒壓縮后的視覺token,把原始的文本內(nèi)容給一字不差地“腦補”出來。

數(shù)據(jù)是這樣喂出來的

一個強大的模型背后,必然有海量且優(yōu)質(zhì)的數(shù)據(jù)。DeepSeek-OCR的“食譜”非常豐富,主要分三大類。

第一類是OCR 1.0數(shù)據(jù),占大頭。

這是最基礎(chǔ)的OCR任務(wù),包括文檔和自然場景的文字識別。團隊從網(wǎng)上扒了大約3000萬頁PDF文檔,覆蓋近100種語言,其中中英文占了絕大多數(shù)。

為了讓模型學(xué)得更扎實,他們準備了兩種“教材”:粗糙版的和精細版的。粗糙版就是直接從PDF里提取文字,教模型認識光學(xué)文本。精細版則動用了更高級的布局分析模型和OCR模型來做標注,告訴模型哪里是標題、哪里是段落,文字和檢測框怎么對應(yīng)。

對于小語種,他們還玩了一手“模型飛輪”,先用少量數(shù)據(jù)訓(xùn)練出一個小模型,再用這個小模型去標注更多數(shù)據(jù),像滾雪球一樣把數(shù)據(jù)量滾大。

此外,他們還收集了300萬份Word文檔,這種數(shù)據(jù)格式清晰,尤其對公式和表格的識別很有幫助。自然場景的OCR數(shù)據(jù)也搞了2000萬,中英文各一半,讓模型不光能看懂“白紙黑字”,也能看懂街邊的廣告牌。

第二類是OCR 2.0數(shù)據(jù),這是進階任務(wù)。

主要包括圖表、化學(xué)公式、平面幾何圖形的解析。圖表數(shù)據(jù),他們用程序生成了1000萬張,把圖表解析定義成一個“看圖說話”的任務(wù),直接輸出HTML格式的表格?;瘜W(xué)公式,利用公開的化學(xué)數(shù)據(jù)庫生成了500萬張圖片。平面幾何圖形也生成了100萬張,還特意做了數(shù)據(jù)增強,把同一個幾何圖形在畫面里挪來挪去,讓模型明白,位置變了,但圖形本身沒變。

第三類是通用視覺數(shù)據(jù),占兩成。

為了讓它保留一些基本的圖像理解能力,比如看圖說話、物體檢測等,團隊也喂了一些通用視覺數(shù)據(jù)。這主要是為了給未來的研究留個口子,方便大家在這個模型的基礎(chǔ)上做二次開發(fā)。

最后,為了保證模型的語言能力不退化,還混入了10%的純文本數(shù)據(jù)一起訓(xùn)練。整個訓(xùn)練數(shù)據(jù)里,OCR數(shù)據(jù)占70%,通用視覺數(shù)據(jù)占20%,純文本數(shù)據(jù)占10%,配比相當講究。

訓(xùn)練過程分兩步走。第一步,單獨訓(xùn)練DeepEncoder編碼器,讓它先學(xué)會怎么高效地看圖和壓縮。第二步,把訓(xùn)練好的編碼器和解碼器連在一起,用上面說的數(shù)據(jù)配方,正式訓(xùn)練DeepSeek-OCR。

模型性能測試

核心的視覺-文本壓縮能力測試。

研究團隊用了Fox的基準測試集,專門挑了那些文本token數(shù)在600到1300之間的英文文檔來測試。這個token數(shù),用Tiny模式(64個視覺token)和Small模式(100個視覺token)來處理正合適。

表格里的數(shù)據(jù)非常直觀。在10倍壓縮比以內(nèi),模型的解碼精度幾乎沒損失,都在97%左右。

這結(jié)果讓人很興奮,意味著未來也許真的可以通過“文轉(zhuǎn)圖”的方式,實現(xiàn)接近無損的上下文壓縮。

當壓縮比超過10倍,性能開始下降,原因可能是長文檔的排版更復(fù)雜,也可能是圖片分辨率不夠,文字開始模糊了。但即便壓縮到近20倍,精度還能保持在60%上下。

這充分證明了,上下文光學(xué)壓縮這個方向,大有可為。

接下來是實際的OCR性能。在另一個更全面的基準測試OmniDocBench上,它的表現(xiàn)同樣亮眼。

從這張密密麻麻的表里能看出,DeepSeek-OCR只用100個視覺token(Small模式),就超過了用256個token的GOT-OCR2.0。用不到800個token的Gundam模式,更是把需要近7000個token的MinerU2.0甩在身后。這說明DeepSeek-OCR的token效率極高,用更少的資源干了更多的活。

不同類型的文檔,對視覺token的需求也不一樣。

你看,像幻燈片這種格式簡單的,64個token的Tiny模式就夠用了。書籍和報告,100個token的Small模式也表現(xiàn)不錯。

這再次印證了前面的結(jié)論,這些文檔的文本token數(shù)大多在1000以內(nèi),沒超過10倍壓縮比的臨界點。但對于報紙這種信息密度極高的文檔,文本token動輒四五千,就必須得上Gundam模式甚至更強的模式才行。這些實驗清晰地劃出了上下文光學(xué)壓縮的適用邊界。

除了能打的性能,DeepSeek-OCR還有很多“才藝”。它能進行“深度解析”,比如識別出文檔里的圖表,并把它轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)。

還能看懂化學(xué)公式,并把它轉(zhuǎn)成SMILES格式。

它還能處理近100種語言的文檔。

當然,作為VLM,基本的看圖說話、物體檢測等通用能力也都在線。

未來的想象空間還很大

DeepSeek-AI團隊的這項工作,是對視覺-文本壓縮邊界的一次成功探索。10倍壓縮比下接近無損,20倍壓縮比下仍能看,這個結(jié)果足夠讓人興奮。

這為未來打開了一扇新的大門。

比如,在多輪對話中,可以把幾輪之前的對話歷史渲染成一張圖片存起來,實現(xiàn)10倍的壓縮效率。對于更久遠的上下文,還可以通過逐步縮小圖片分辨率來進一步減少token消耗。

這個過程,很像人腦的記憶機制。剛發(fā)生的事情記得清清楚楚,細節(jié)分明。時間久遠的事情,就只剩下個模糊的輪廓。通過這種光學(xué)壓縮的方式,我們可以模擬出一條生物學(xué)的遺忘曲線,讓模型在處理超長上下文時,能把寶貴的計算資源留給最重要的近期信息,同時又不會完全“忘記”過去,實現(xiàn)了信息保留和計算成本之間的完美平衡。

僅靠OCR任務(wù)還不足以完全驗證光學(xué)壓縮的全部潛力,未來還需要更多更復(fù)雜的測試。

DeepSeek-OCR已經(jīng)證明,上下文光學(xué)壓縮是一個非常有前景的新方向,它可能為解決大型語言模型“記性差”這個老大難問題,提供一把全新的鑰匙。

責任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2012-09-11 15:38:37

圖像搜索

2024-05-28 11:47:59

2019-07-23 12:22:49

數(shù)據(jù)可視化數(shù)據(jù)科學(xué)數(shù)據(jù)

2019-04-28 09:37:21

技術(shù)架構(gòu)圖開源

2023-06-07 08:35:36

2021-09-30 11:18:58

騰訊位置服務(wù)數(shù)據(jù)可視化

2023-06-12 15:38:13

視頻谷歌

2025-10-22 00:00:01

2021-05-24 05:36:31

壓縮圖片應(yīng)用壓縮工具

2020-07-13 14:35:25

可視化數(shù)據(jù)編程

2023-10-31 13:01:00

2022-10-17 14:59:17

圖像算法

2021-06-23 18:36:20

AI

2020-09-17 06:51:58

OkHttp壓縮故障

2020-05-07 09:45:16

前端JS圖片壓縮

2025-08-26 08:59:04

2015-07-13 10:23:23

Java圖解

2023-09-25 15:24:49

F5可觀測性開源框架

2024-09-02 14:37:50

2011-08-11 16:41:09

bzip2中文man
點贊
收藏

51CTO技術(shù)棧公眾號