偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

太強(qiáng)了!DeepSeek剛剛開源新模型,用視覺方式壓縮一切

人工智能 新聞
我們或許能通過文本到圖像的方法實現(xiàn)近 10 倍無損上下文壓縮。

沒想到吧,DeepSeek 剛剛開源了新模型,還是一款 OCR 模型。可以看到,該模型的參數(shù)量為 3B,剛上線不久就已經(jīng)有 100 多次下載量了。

該項目由 DeepSeek 三位研究員 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。其中一作 Haoran Wei 曾在階躍星辰工作過,曾主導(dǎo)開發(fā)了旨在實現(xiàn)「第二代 OCR」的 GOT-OCR2.0 系統(tǒng)(arXiv:2409.01704),該項目已在 GitHub 收獲了超 7800 star。也因此,由其主導(dǎo) DeepSeek 的 OCR 項目也在情理之中。

  • 論文標(biāo)題:DeepSeek-OCR: Contexts Optical Compression
  • 項目地址:https://github.com/deepseek-ai/DeepSeek-OCR
  • 論文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
  • Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

DeepSeek 表示,DeepSeek-OCR 模型是通過光學(xué)二維映射技術(shù)壓縮長文本上下文可行性的初步探索。

該模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解碼器兩大核心組件構(gòu)成。其中 DeepEncoder 作為核心引擎,既能保持高分辨率輸入下的低激活狀態(tài),又能實現(xiàn)高壓縮比,從而生成數(shù)量適中的視覺 token。

實驗數(shù)據(jù)顯示,當(dāng)文本 token 數(shù)量在視覺 token 的 10 倍以內(nèi)(即壓縮率 <10×)時,模型的解碼(OCR)精度可達(dá) 97%;即使在壓縮率達(dá)到 20× 的情況下,OCR 準(zhǔn)確率仍保持在約 60%。

這一結(jié)果顯示出該方法在長上下文壓縮和 LLM 的記憶遺忘機(jī)制等研究方向上具有相當(dāng)潛力。

此外,DeepSeek-OCR 還展現(xiàn)出很高的實用價值。在 OmniDocBench 基準(zhǔn)測試中,它僅使用 100 個視覺 token 就超過了 GOT-OCR2.0(每頁 256 個 token) 的表現(xiàn);同時,使用不到 800 個視覺 token 就優(yōu)于 MinerU2.0(平均每頁超過 6000 個 token)。在實際生產(chǎn)環(huán)境中,單張 A100-40G GPU 每天可生成超過 20 萬頁(200k+) 的 LLM/VLM 訓(xùn)練數(shù)據(jù)。

DeepSeek-OCR 在端到端模型測試中以最少的視覺 token 數(shù)達(dá)到了最先進(jìn)的性能。

DeepSeek-OCR:上下文光學(xué)壓縮

DeepSeek 探索的方法概括起來就是:利用視覺模態(tài)作為文本信息的高效壓縮媒介。

什么意思呢?我們知道,一張包含文檔文本的圖像可以用比等效文本少得多的 Token 來表示豐富的信息,這表明:通過視覺 Token 進(jìn)行光學(xué)壓縮可以實現(xiàn)高得多的壓縮率。

基于這一洞見,DeepSeek 從以 LLM 為中心的視角重新審視了視覺語言模型 (VLM),其中,他們的研究重點是:視覺編碼器如何提升 LLM 處理文本信息的效率,而非人類已擅長的基本視覺問答 (VQA) 任務(wù)。

DeepSeek 表示,OCR 任務(wù)作為連接視覺和語言的中間模態(tài),為這種視覺 - 文本壓縮范式提供了理想的試驗平臺,因為它在視覺和文本表示之間建立了自然的壓縮 - 解壓縮映射,同時提供了可量化的評估指標(biāo)。

DeepSeek-OCR 便由此而生。這是一個為實現(xiàn)高效視覺 - 文本壓縮而設(shè)計的 VLM。

如下圖所示,DeepSeek-OCR 采用了一個統(tǒng)一的端到端 VLM 架構(gòu),由一個編碼器和一個解碼器組成。

其中,編碼器 (即 DeepEncoder) 負(fù)責(zé)提取圖像特征,并將視覺表示進(jìn)行 Token 化和壓縮。解碼器則用于根據(jù)圖像 Token 和提示詞 (prompt) 生成所需的結(jié)果。

DeepEncoder 的參數(shù)量約為 3.8 億 (380M),主要由一個 80M 的 SAM-base 和一個 300M 的 CLIP-large 串聯(lián)而成。解碼器采用 3B MoE 架構(gòu),激活參數(shù)量為 5.7 億 (570M)。

DeepEncoder

DeepSeek 研究發(fā)現(xiàn),為了探索上下文光學(xué)壓縮的可行性,我們需要一個具備以下特點的視覺編碼器:

1. 能夠處理高分辨率;

2. 在高分辨率下激活值低;

3. 視覺 Token 數(shù)量少;

4. 支持多分辨率輸入;

5. 參數(shù)量適中。

然而,現(xiàn)有的開源編碼器無法完全滿足所有這些條件。因此,DeepSeek 自行設(shè)計了一款新穎的視覺編碼器,命名為 DeepEncoder。

DeepEncoder 主要由兩個組件構(gòu)成:一個以窗口注意力為主的視覺感知特征提取組件,以及一個采用密集全局注意力的視覺知識特征提取組件。

基于之前相關(guān)研究的預(yù)訓(xùn)練成果,該團(tuán)隊分別使用 SAM-base (patch 大小為 16) 和 CLIP-large 作為這兩個組件的主要架構(gòu)。

對于 CLIP,他們移除了其第一個 patch 嵌入層,因為它的輸入不再是圖像,而是來自前一個流程的輸出 Token。在兩個組件之間,該團(tuán)隊借鑒了 Vary 的設(shè)計(參閱論文《Vary: Scaling up the vision vocabulary for large vision-language model》),使用了一個 2 層的卷積模塊對視覺 Token 進(jìn)行 16 倍的下采樣。每個卷積層的核大小為 3,步長為 2,填充為 1,通道數(shù)從 256 增加到 1024。假設(shè)我們輸入一張 1024×1024 的圖像,DeepEncoder 會將其分割成 1024/16 x 1024/16 = 4096 個 patch Token。

由于編碼器的前半部分主要由窗口注意力構(gòu)成,且參數(shù)量僅為 80M,因此其激活值是可接受的。在進(jìn)入全局注意力之前,這 4096 個 Token 會經(jīng)過壓縮模塊,數(shù)量變?yōu)?4096/16 = 256,從而使得整體的激活內(nèi)存變得可控。

MoE 解碼器

該模型的解碼器使用了 DeepSeekMoE ,具體為 DeepSeek-3B-MoE。

在推理過程中,模型會激活 64 個路由專家中的 6 個以及 2 個共享專家,激活參數(shù)量約為 5.7 億 (570M)。3B 的 DeepSeekMoE 非常適合以領(lǐng)域為中心 (這里即為 OCR) 的 VLM 研究,因為它在獲得 3B 模型表達(dá)能力的同時,也享有了 5 億 (500M) 參數(shù)量小模型的推理效率。

解碼器從 DeepEncoder 壓縮后的潛在視覺 Token 中重建原始文本表示,過程如下:

其中 Z 是來自 DeepEncoder 的壓縮后潛在 (視覺) Token,而  是重建的文本表示。函數(shù) f_dec 代表一個非線性映射,緊湊的語言模型可以通過 OCR 風(fēng)格的訓(xùn)練來有效地學(xué)習(xí)它。DeepSeek 推測認(rèn)為:大語言模型通過專門的預(yù)訓(xùn)練優(yōu)化,將能更自然地集成這類能力。

數(shù)據(jù)引擎

DeepSeek 也為 DeepSeek-OCR 構(gòu)建了復(fù)雜多樣的訓(xùn)練數(shù)據(jù),包括:

  • OCR 1.0 數(shù)據(jù),主要包含傳統(tǒng) OCR 任務(wù),如場景圖像 OCR 和文檔 OCR;
  • OCR 2.0 數(shù)據(jù),主要包括復(fù)雜人造圖像的解析任務(wù),如常見圖表、化學(xué)分子式和平面幾何解析數(shù)據(jù);
  • 通用視覺數(shù)據(jù),主要用于為 DeepSeek-OCR 注入一定的通用圖像理解能力,并保留通用的視覺接口。

數(shù)據(jù)方面,DeepSeek 還進(jìn)行了更多有利于 OCR 任務(wù)的設(shè)計,詳情請參閱原論文。

訓(xùn)練流程

該模型的訓(xùn)練流程非常簡單,主要包括兩個階段:

  • 獨立訓(xùn)練 DeepEncoder
  • 訓(xùn)練 DeepSeek-OCR

DeepEncoder 的訓(xùn)練遵循 Vary 的方法,利用一個緊湊的語言模型并采用下一個 Token 預(yù)測的框架來訓(xùn)練 DeepEncoder。

在此階段,DeepSeek 使用了前文提到的所有 OCR 1.0 和 2.0 數(shù)據(jù),以及從 LAION 數(shù)據(jù)集中采樣的 1 億條通用數(shù)據(jù)。所有數(shù)據(jù)均使用 AdamW 優(yōu)化器和余弦退火調(diào)度器進(jìn)行訓(xùn)練,共訓(xùn)練 2 個 epoch,批處理大小為 1280,學(xué)習(xí)率為 5e-5。訓(xùn)練序列長度為 4096。

在 DeepEncoder 準(zhǔn)備就緒后,再訓(xùn)練 DeepSeek-OCR。整個訓(xùn)練過程在 HAI-LLM 平臺上進(jìn)行。整個模型采用了流水線并行 (PP),并被分為 4 個部分,其中 DeepEncoder 占用兩部分,解碼器占用兩部分。

對于 DeepEncoder,DeepSeek 將 SAM 和壓縮器視為視覺 Tokenizer,放置在 PP0 上并凍結(jié)其參數(shù);同時將 CLIP 部分視為輸入嵌入層,放置在 PP1 上,其權(quán)重不凍結(jié)并參與訓(xùn)練。對于語言模型部分,由于 DeepSeek3B-MoE 有 12 層,他們在 PP2 和 PP3 上各放置 6 層。

他們使用 20 個節(jié)點 (每個節(jié)點配備 8 個 A100-40G GPU) 進(jìn)行訓(xùn)練,數(shù)據(jù)并行 (DP) 度為 40,全局批處理大小為 640。優(yōu)化器為 AdamW,配合基于步數(shù) (step-based) 的調(diào)度器,初始學(xué)習(xí)率為 3e-5。對于純文本數(shù)據(jù),訓(xùn)練速度為每天 900 億 Token;對于多模態(tài)數(shù)據(jù),訓(xùn)練速度為每天 700 億 Token。

實驗結(jié)果

視覺 - 文本壓縮

研究選用了 Fox 基準(zhǔn)數(shù)據(jù)集來驗證 DeepSeek-OCR 在文本密集型文檔上的壓縮與解壓能力。

如表 2 所示,在 10× 壓縮比的情況下,模型的解碼精度可達(dá)約 97%。

當(dāng)壓縮比超過 10× 時,性能開始下降,他們猜測可能有兩個原因:

  • 長文檔的版面布局更復(fù)雜,導(dǎo)致信息分布不均;
  • 在 512×512 或 640×640 分辨率下,長文本會變得模糊。

當(dāng)壓縮比接近 20× 時,作者發(fā)現(xiàn)模型的精度仍可達(dá)到約 60%。

OCR 實際性能

DeepSeek-OCR 不僅是一個實驗性模型,還具備很強(qiáng)的實用能力。結(jié)果如表 3 所示。

具體而言:

  • 在僅使用 100 個視覺 token(分辨率 640×640) 的情況下,DeepSeek-OCR 的表現(xiàn)超越了使用 256 個 token 的 GOT-OCR2.0 ;
  • 當(dāng)使用 400 個視覺 token(其中有效 token 為 285,分辨率 1280×1280) 時,其性能已可與當(dāng)前 SOTA 模型相當(dāng);
  • 進(jìn)一步地,在使用不到 800 個視覺 token(即 Gundam 模式) 時,DeepSeek-OCR 的性能超過了 MinerU2.0 ,后者需要近 7,000 個視覺 token。

這些結(jié)果表明,DeepSeek-OCR 在實際應(yīng)用中表現(xiàn)出極強(qiáng)的性能與效率,并且由于其更高的 token 壓縮率,具有更高的研究潛力與擴(kuò)展空間。

表 4 結(jié)果表明,不同類型文檔對視覺 token 的需求差異較大:

  • 對于幻燈片類文檔,僅需 64 個視覺 token 即可達(dá)到令人滿意的識別效果;
  • 對于書籍和報告類文檔,100 個視覺 token 即可取得較好表現(xiàn)。

定性研究

圖 7、圖 8、圖 9、圖 10 所示,模型能夠?qū)D表、幾何圖形、化學(xué)公式,甚至自然圖像進(jìn)行深度解析,只需使用一個統(tǒng)一的提示詞(prompt)即可完成。

多語言識別:針對 PDF 文檔,DeepSeek-OCR 支持近 100 種語言的識別。

如圖 11 所示展示了 DeepSeek-OCR 在阿拉伯語(Arabic) 與僧伽羅語(Sinhala) 的可視化識別結(jié)果。

通用視覺理解:此外,DeepSeek-OCR 還具備一定程度的通用圖像理解能力,相關(guān)的可視化結(jié)果如圖 12 所示。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-08 08:00:00

JavaDeepSeekIDEA

2024-07-30 10:51:51

2025-08-19 21:23:45

DeepSeekAPP接口

2021-03-04 09:31:42

開源技術(shù) 項目

2025-05-07 10:12:52

英偉達(dá)模型AI

2023-09-07 15:11:44

2024-10-05 00:00:00

2025-10-22 00:00:01

2025-01-22 14:02:35

2025-04-27 08:30:00

2023-05-04 12:19:47

模型AI

2025-10-21 08:03:21

2023-08-18 14:34:00

研究模型

2025-09-01 02:00:00

2025-07-07 08:56:00

2017-12-30 00:23:10

容器開源

2020-12-31 11:28:09

GitLabCICD

2022-05-30 16:31:08

CSS

2011-06-23 10:07:31

2025-03-27 09:47:23

訓(xùn)練模型AI
點贊
收藏

51CTO技術(shù)棧公眾號