偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

小紅書 hi lab 開源多模態(tài)大模型 dots.vlm1,效果接近閉源 SoTA 模型

人工智能 開源
dots.vlm1 是小紅書 hi lab 研發(fā)并開源的首個多模態(tài)大模型,借助一個從零訓(xùn)練的 12 億參數(shù)視覺編碼器以及基于 Deepseek V3 LLM 構(gòu)建,在視覺的理解和推理任務(wù)上均有不錯的表現(xiàn)。在大部分多模態(tài)評測集上接近閉源 SoTA 模型的水平,并在文本能力和主流文本模型相當(dāng)。

01、介紹

我們很高興地介紹 dots.vlm1,這是 dots 模型家族中的首個視覺語言模型。dots.vlm1 構(gòu)建于一個 12 億參數(shù)的視覺編碼器和 DeepSeek V3 大語言模型(LLM)之上,具備強(qiáng)大的多模態(tài)理解與推理能力。

模型亮點(diǎn)

  • NaViT 視覺編碼器:沒有基于成熟視覺編碼器進(jìn)行微調(diào),完全從零開始訓(xùn)練,原生支持動態(tài)分辨率。同時在文本監(jiān)督上增加純視覺監(jiān)督,提升感知能力上限。此外,訓(xùn)練數(shù)據(jù)上在傳統(tǒng)的 Image Caption 數(shù)據(jù)上還引入大量結(jié)構(gòu)化圖片進(jìn)行原生訓(xùn)練,提升 VLM 模型的感知能力(例如各類 OCR 能力)。
  • 多模態(tài)訓(xùn)練數(shù)據(jù):在傳統(tǒng)思路上,額外引入多種合成數(shù)據(jù)思路,覆蓋多樣的圖片類型(例如表格/Chart/文檔/Graphics等)及其描述(例如 Alt Text/Dense Caption/Grounding 等);同時,利用多模態(tài)大模型來重寫圖文交錯網(wǎng)頁數(shù)據(jù),顯著提升訓(xùn)練數(shù)據(jù)質(zhì)量;
  • 通過大規(guī)模預(yù)訓(xùn)練與精細(xì)化后訓(xùn)練調(diào)優(yōu),dots.vlm1 在視覺感知與推理方面達(dá)到了接近 SOTA 的表現(xiàn),為開源視覺語言模型樹立了新的性能上限,同時在純文本任務(wù)中仍保持一定競爭力。

Github Repo:

https://github.com/rednote-hilab/dots.vlm1

Huggingface Model:

https://huggingface.co/rednote-hilab/dots.vlm1.inst

Demo:

https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

特別感謝 DeepSeek 團(tuán)隊(duì)為我們提供了優(yōu)秀的 DeepSeek V3 模型支持。

02、效果

2.1 評測指標(biāo)

在主要的視覺評測集上,dots.vlm1 的整體表現(xiàn)已接近當(dāng)前領(lǐng)先模型 Gemini 2.5 Pro 與 Seed-VL1.5 thinking,尤其在 MMMU/MathVision/OCR Reasoning 等多個基準(zhǔn)測試中取得了相當(dāng)競爭力的結(jié)果,顯示出較強(qiáng)的圖文理解與推理能力。

在典型的文本推理任務(wù)(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表現(xiàn)大致相當(dāng)于 DeepSeek-R1-0528,在數(shù)學(xué)和代碼能力上已具備一定的通用性,但在 GPQA 等更多樣的推理任務(wù)上仍存在差距。

總體來看,dots.vlm1 在視覺多模態(tài)能力方面已接近 SOTA 水平,在文本推理方面達(dá)到了主流模型的性能。然而,在部分細(xì)分任務(wù)上仍與最優(yōu)結(jié)果存在一定距離,需要在架構(gòu)設(shè)計(jì)與訓(xùn)練數(shù)據(jù)上進(jìn)一步優(yōu)化。這些子集也構(gòu)成我們下一階段重點(diǎn)提升的方向之一。

2.2 樣例展示

復(fù)雜圖表推理樣例

<上下滑動查看更多>

STEM 解題樣例



<上下滑動查看更多>


長尾識別解題樣例



<上下滑動查看更多>


視覺推理樣例



<上下滑動查看更多>


03、方法

3.1 架構(gòu)概覽

dots.vlm1 由三個核心組件構(gòu)成:一個 12 億參數(shù)的 NaViT 視覺編碼器、一個輕量級的 MLP 適配器,以及 DeepSeek V3 MoE 大語言模型。這一架構(gòu)通過三階段流程進(jìn)行訓(xùn)練:

  • 第一階段:視覺編碼器預(yù)訓(xùn)練:NaViT 編碼器從頭訓(xùn)練,旨在最大化對多樣視覺數(shù)據(jù)的感知能力。
  • 第二階段:VLM 預(yù)訓(xùn)練:將視覺編碼器與 DeepSeek V3 LLM 聯(lián)合訓(xùn)練,使用大規(guī)模、多樣化的多模態(tài)數(shù)據(jù)集。
  • 第三階段:VLM 后訓(xùn)練:通過有監(jiān)督微調(diào)(SFT)增強(qiáng)模型的泛化能力,僅使用任務(wù)多樣的數(shù)據(jù)進(jìn)行訓(xùn)練。

注:后訓(xùn)練階段僅包含有監(jiān)督微調(diào)(SFT);強(qiáng)化學(xué)習(xí)方法將在后續(xù)工作中探索。

3.2 NaViT 視覺編碼器

我們?yōu)?NaViT 編碼器設(shè)計(jì)了兩階段的訓(xùn)練策略。整體結(jié)構(gòu)和訓(xùn)練方式與 AimV2[1] 類似,但我們完全從頭開始在原生分辨率上訓(xùn)練。該編碼器包含 42 層 Transformer,采用 RMSNorm、SwiGLU 和二維旋轉(zhuǎn)位置編碼(2D RoPE)等技術(shù)。

第一階段:預(yù)訓(xùn)練

從隨機(jī)初始化開始,在 224×224 分辨率圖像上進(jìn)行訓(xùn)練,使用雙重監(jiān)督策略:下一 Token 預(yù)測(NTP):通過大量圖文對訓(xùn)練模型的感知能力;下一 Patch 生成(NPG):利用純圖像數(shù)據(jù),通過擴(kuò)散模型預(yù)測圖像 patch,增強(qiáng)空間與語義感知能力。訓(xùn)練過程中使用了大量圖文對。

第二階段:分辨率提升預(yù)訓(xùn)練

逐步提升圖像分辨率:從百萬像素級別輸入開始,在大量 token 上進(jìn)行訓(xùn)練,之后升級到千萬像素級別進(jìn)行訓(xùn)練。為進(jìn)一步提升泛化能力,還引入了更豐富的數(shù)據(jù)源,包括 OCR 場景圖像、grounding 數(shù)據(jù)和視頻幀。

3.3 VLM預(yù)訓(xùn)練數(shù)據(jù)

為增強(qiáng) dots.vlm1 的多模態(tài)能力,我們將預(yù)訓(xùn)練數(shù)據(jù)劃分為兩個主要類別:

跨模態(tài)互譯數(shù)據(jù)

該類數(shù)據(jù)用于訓(xùn)練模型將圖像內(nèi)容用文本進(jìn)行描述、總結(jié)或重構(gòu):

  • 普通圖像 + Alt Text 或 Dense Caption;
  • 復(fù)雜圖表、表格、公式、圖形(真實(shí)或合成)+ 結(jié)構(gòu)化注釋或文字;
  • OCR 場景:多語言、場景理解、純文本、文檔解析等;
  • 視頻幀 + 時間序列描述;
  • Grounding 監(jiān)督數(shù)據(jù):如邊界框和關(guān)鍵點(diǎn)。

此類數(shù)據(jù)難以窮盡枚舉,涵蓋各種圖像/視頻與對應(yīng)文本的組合。我們的目標(biāo)是構(gòu)建一個全譜系的數(shù)據(jù)分布,覆蓋所有可被人類理解且可轉(zhuǎn)化為離散 token 序列的視覺信息。

跨模態(tài)融合數(shù)據(jù)

該類數(shù)據(jù)用于訓(xùn)練模型在圖文混合上下文中執(zhí)行下一 token 預(yù)測,避免模型過度依賴單一模態(tài)。我們?yōu)椴煌愋偷娜诤蠑?shù)據(jù)設(shè)計(jì)了專門的清洗管線,以下兩類效果尤為顯著:

  • 網(wǎng)頁數(shù)據(jù):網(wǎng)頁圖文數(shù)據(jù)多樣性豐富,但視覺與文本對齊質(zhì)量不佳。我們不使用傳統(tǒng)的 CLIP 分?jǐn)?shù)篩選,而是采用內(nèi)部自研的 VLM 模型進(jìn)行重寫和清洗,剔除低質(zhì)量圖像和弱相關(guān)文本。
  • PDF 數(shù)據(jù):PDF 內(nèi)容質(zhì)量普遍較高。為充分利用這類數(shù)據(jù),我們開發(fā)了專用解析模型 dots.ocr,將 PDF 文檔轉(zhuǎn)化為圖文交錯表示。同時我們還將整頁 PDF 渲染為圖像,并隨機(jī)遮擋部分文本區(qū)域,引導(dǎo)模型結(jié)合版面與上下文預(yù)測被遮擋內(nèi)容,從而增強(qiáng)其理解視覺格式文檔的能力。

04、未來工作

盡管 dots.vlm1 已取得顯著進(jìn)展,我們在評估中仍發(fā)現(xiàn)其在視覺感知與推理能力上存在不足。

  • 在視覺感知方面,我們計(jì)劃顯著擴(kuò)大跨模態(tài)互譯數(shù)據(jù)的規(guī)模與多樣性,并進(jìn)一步改進(jìn)視覺編碼器結(jié)構(gòu),探索更有效的神經(jīng)網(wǎng)絡(luò)架構(gòu)與損失函數(shù)設(shè)計(jì),從根本上提升訓(xùn)練效率。
  • 在視覺推理方面,我們將優(yōu)先推動強(qiáng)化學(xué)習(xí)方法,以縮小文本與多模態(tài)提示在推理能力上的 test-time scaling 差距。同時也在探索將更多推理能力前置到預(yù)訓(xùn)練階段的可能性,從而增強(qiáng)泛化性和效率。
責(zé)任編輯:龐桂玉 來源: 小紅書技術(shù)REDtech
相關(guān)推薦

2025-08-07 16:24:19

小紅書開源dots.vlm1

2025-08-01 03:00:00

2025-06-10 03:30:00

2024-11-19 15:00:00

模型開源

2024-10-12 10:57:39

2024-03-25 12:40:19

訓(xùn)練模型

2024-10-25 14:30:00

模型AI

2025-01-08 08:21:16

2025-03-19 09:30:00

2025-02-13 09:40:00

2025-02-10 08:30:00

2025-05-20 13:02:23

2025-04-28 14:13:43

開源SOTA多模態(tài)

2025-02-27 01:00:00

大模型OLMOCRrag

2025-06-25 09:53:59

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-09-16 09:35:52

2024-11-11 09:00:00

2024-09-10 12:11:18

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號