偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="nlcbp"></u><tr id="nlcbp"></tr>

<cite id="nlcbp"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

僅1.3B！Janus 統(tǒng)一多模態(tài)理解和生成原創(chuàng)

發(fā)布于 2024-11-1 16:24

瀏覽

0收藏

DeepSeek開(kāi)源了一個(gè)僅1.3B大小的多模態(tài)大模型：Janus（兩面神），統(tǒng)一了多模態(tài)理解和生成。通過(guò)將視覺(jué)編碼解耦成獨(dú)立的pathway，同時(shí)僅使用一個(gè)統(tǒng)一的transformer架構(gòu)進(jìn)行處理。Janus在多模態(tài)理解和生成基準(zhǔn)測(cè)試中超越了以往的統(tǒng)一模型，作為一個(gè)多模態(tài)“小”模型具有顯著的優(yōu)勢(shì)。

Paper:??? https://arxiv.org/abs/2410.13848????

Github: ???https://github.com/deepseek-ai/Janus???

Model: https://huggingface.co/deepseek-ai/Janus-1.3B

僅1.3B！Janus 統(tǒng)一多模態(tài)理解和生成-AI.x社區(qū)

Janus

Janus 是一個(gè)統(tǒng)一的多模態(tài)理解和生成的大型語(yǔ)言模型（MLLM），它將多模態(tài)理解和生成的視覺(jué)編碼解耦。Janus 基于 DeepSeek-LLM-1.3b-base 構(gòu)建，該模型訓(xùn)練時(shí)使用了大約5000億個(gè)文本token的語(yǔ)料庫(kù)。在多模態(tài)理解方面，它使用 SigLIP-L 作為視覺(jué)編碼器，支持384 x 384像素的圖像輸入。在圖像生成方面，Janus 使用了LlamaGen的tokenizer，并且具有16倍的下采樣率。

僅1.3B！Janus 統(tǒng)一多模態(tài)理解和生成-AI.x社區(qū)

Janus的訓(xùn)練過(guò)程是分階段進(jìn)行的，以確保模型在多模態(tài)理解和生成任務(wù)上都能達(dá)到高性能：

僅1.3B！Janus 統(tǒng)一多模態(tài)理解和生成-AI.x社區(qū)

第一階段：訓(xùn)練Adpater和圖像Head

目標(biāo)：在這一階段，主要目標(biāo)是在視覺(jué)和語(yǔ)言元素之間建立概念聯(lián)系，使大型語(yǔ)言模型（LLM）能夠理解圖像中顯示的實(shí)體，并具備初步的視覺(jué)生成能力。
訓(xùn)練策略：在這一階段，視覺(jué)編碼器和LLM被保持凍結(jié)狀態(tài)，只有理解適配器、生成適配器和圖像頭部中的可訓(xùn)練參數(shù)會(huì)被更新。

第二階段：統(tǒng)一預(yù)訓(xùn)練

目標(biāo)：在這一階段，通過(guò)多模態(tài)語(yǔ)料庫(kù)進(jìn)行統(tǒng)一預(yù)訓(xùn)練，使Janus能夠?qū)W習(xí)多模態(tài)理解和生成。
數(shù)據(jù)：使用所有類(lèi)型的訓(xùn)練數(shù)據(jù)，包括純文本數(shù)據(jù)、多模態(tài)理解數(shù)據(jù)和視覺(jué)生成數(shù)據(jù)。
訓(xùn)練策略：受到Pixart的啟發(fā)，首先使用ImageNet-1k進(jìn)行簡(jiǎn)單的視覺(jué)生成訓(xùn)練，幫助模型掌握基本的像素依賴(lài)關(guān)系。然后，使用通用的文本到圖像數(shù)據(jù)增強(qiáng)模型的開(kāi)放領(lǐng)域視覺(jué)生成能力。

第三階段：監(jiān)督微調(diào)（SFT）

目標(biāo)：在這一階段，使用指令調(diào)整數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，以增強(qiáng)其遵循指令和對(duì)話的能力。
訓(xùn)練策略：除了生成編碼器之外，所有參數(shù)都會(huì)進(jìn)行微調(diào)。
數(shù)據(jù)：為了確保Janus在多模態(tài)理解和生成方面的熟練程度，微調(diào)時(shí)不會(huì)對(duì)特定任務(wù)進(jìn)行單獨(dú)模型微調(diào)。相反，使用混合的純文本對(duì)話數(shù)據(jù)、多模態(tài)理解數(shù)據(jù)和視覺(jué)生成數(shù)據(jù)，以確保在多種場(chǎng)景下的多功能性。

僅1.3B！Janus 統(tǒng)一多模態(tài)理解和生成-AI.x社區(qū)

訓(xùn)練細(xì)節(jié)：

損失函數(shù)：Janus作為一個(gè)自回歸模型，在訓(xùn)練期間簡(jiǎn)單地采用交叉熵?fù)p失函數(shù)。
推理方法：在推理過(guò)程中，模型完全采用next token prediction進(jìn)行推理。對(duì)于純文本理解和多模態(tài)理解，按照預(yù)測(cè)分布順序采樣token。對(duì)于圖像生成，使用CFG（classifier-free guidance, 在訓(xùn)練過(guò)程中，以10%的概率將文本到圖像數(shù)據(jù)中的文本條件替換為pad token，使模型具有無(wú)條件的視覺(jué)生成能力）

作為一個(gè)next token prediction的圖像生成模型，生成效果相當(dāng)不錯(cuò)：

僅1.3B！Janus 統(tǒng)一多模態(tài)理解和生成-AI.x社區(qū)

僅1.3B！Janus 統(tǒng)一多模態(tài)理解和生成-AI.x社區(qū)

同時(shí)作為一個(gè)多模態(tài)理解模型，僅1.3B且只有384的輸入分辨率，效果也超出預(yù)期。比如帶有文字的meme圖的理解，甚至也還行：

僅1.3B！Janus 統(tǒng)一多模態(tài)理解和生成-AI.x社區(qū)

可以看出，多模態(tài)大模型生成和理解，越卷越統(tǒng)一；模型尺寸也有著越卷越小的趨勢(shì)。

本文轉(zhuǎn)載自公眾號(hào)思源數(shù)據(jù)科學(xué) 作者：思源Source

原文鏈接：??https://mp.weixin.qq.com/s/MQfmCE--zG6AJ1pFHqZK4A???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)大模型

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

字節(jié)跳動(dòng)發(fā)布統(tǒng)一多模態(tài)大模型 Show-o!

AI論文解讀 ? 4637瀏覽 ? 0回復(fù)
統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!

angel ? 3499瀏覽 ? 0回復(fù)
Emu3: 統(tǒng)一多模態(tài)輸入與生成

kede96 ? 2289瀏覽 ? 0回復(fù)
DeepSeek AI發(fā)布Janus：一款擁有圖像生成能力的1.3B多模態(tài)模型

Halo咯咯 ? 6340瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評(píng)測(cè)基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢(shì)

十一月雨_55 ? 9927瀏覽 ? 0回復(fù)
自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成！DeepSeek&北大等開(kāi)源JanusFlow

angel ? 2990瀏覽 ? 0回復(fù)
文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理

大模型自然語(yǔ)言處理 ? 2400瀏覽 ? 0回復(fù)
比Janus更強(qiáng)！15M數(shù)據(jù)實(shí)現(xiàn)顛覆性統(tǒng)一多模態(tài)大模型！華為諾亞提出ILLUME

angel ? 3262瀏覽 ? 0回復(fù)
NeurIPS 2024 | 像素級(jí)LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

angel ? 4345瀏覽 ? 0回復(fù)
DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談

大模型自然語(yǔ)言處理 ? 3649瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎(jiǎng)勵(lì)模型；將獎(jiǎng)勵(lì)模型多模態(tài)情緒識(shí)別上

AI研究前瞻 ? 2273瀏覽 ? 0回復(fù)
浙大&上交等發(fā)布統(tǒng)一多模態(tài)視頻生成框架OmniCam

angel ? 1615瀏覽 ? 0回復(fù)
單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！

angel ? 2227瀏覽 ? 0回復(fù)
VARGPT：視覺(jué)自回歸多模態(tài)大語(yǔ)言模型中的統(tǒng)一理解與生成

AIRoobt ? 1045瀏覽 ? 0回復(fù)
多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬(wàn)字長(zhǎng)文梳理統(tǒng)一的多模態(tài)理解和生成模型

angel ? 2306瀏覽 ? 0回復(fù)
復(fù)旦：基于強(qiáng)化微調(diào)的統(tǒng)一多模態(tài)思維鏈獎(jiǎng)勵(lì)模型

柏企閱文 ? 798瀏覽 ? 0回復(fù)
BLIP3-o統(tǒng)一圖像生成與理解，多模態(tài)融合趨勢(shì)顯現(xiàn)

CourseAI ? 827瀏覽 ? 0回復(fù)
阿里推出 LingShu AI醫(yī)生：統(tǒng)一多模態(tài)醫(yī)學(xué)理解與推理的通用基礎(chǔ)模型

知識(shí)圖譜科技 ? 1259瀏覽 ? 0回復(fù)
圖表代碼生成，ChartIR；視頻與文本統(tǒng)一多模態(tài)模型

AI研究前瞻 ? 432瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Seed1.5-VL技術(shù)報(bào)告解讀 2025-05-30 06:35:59發(fā)布
通向高分辨率VLM (11): VILA-HD 2025-05-08 06:39:32發(fā)布

熱門(mén)推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：一文讀懂：從RAG到多模態(tài)RAG

下一篇：大模型SFT暗藏大陷阱？梯度累計(jì)bug造成大范圍影響

社區(qū)精華內(nèi)容

目錄

<cite id="inhx0"><rp id="inhx0"></rp></cite>

<legend id="inhx0"><track id="inhx0"></track></legend>