字節(jié)推出統(tǒng)一多模態(tài)模型 BAGEL，GPT-4o 級(jí)的圖像生成能力直接開源了！

作者：AIGC Studio 2025-05-27 15:59:41

字節(jié)推出的 BAGEL 是一個(gè)開源的統(tǒng)一多模態(tài)模型，他們直接開源了GPT-4o級(jí)別的圖像生成能力。

圖片

字節(jié)推出的 BAGEL 是一個(gè)開源的統(tǒng)一多模態(tài)模型，他們直接開源了GPT-4o級(jí)別的圖像生成能力。（輕松拿捏“萬物皆可吉卜力”玩法~）?？梢栽谌魏蔚胤綄?duì)其進(jìn)行微調(diào)、提煉和部署，它以開放的形式提供與 GPT-4o 和 Gemini 2.0 等專有系統(tǒng)相當(dāng)?shù)墓δ?，通過能夠?qū)崿F(xiàn)精確、準(zhǔn)確和逼真的輸出的原生多模態(tài)架構(gòu)解鎖有用且有價(jià)值的圖像生成。

效果展示

聊天

BAGEL 是一個(gè)統(tǒng)一的生成和理解模型，它基于大型語(yǔ)言模型進(jìn)行初始化預(yù)訓(xùn)練，從而為其提供了推理和對(duì)話的基礎(chǔ)能力。BAGEL 可以處理圖像和文本的混合格式輸入和輸出。

生成效果

BAGEL 已基于大規(guī)模交錯(cuò)視頻和網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，使其能夠生成高保真、逼真的圖像、視頻幀或交錯(cuò)的圖文內(nèi)容。交錯(cuò)數(shù)據(jù)經(jīng)過適當(dāng)?shù)膶?duì)齊，能夠構(gòu)建自然的多模態(tài)思維鏈，使模型能夠生成視覺輸出。

編輯

通過對(duì)交錯(cuò)視頻片段進(jìn)行預(yù)訓(xùn)練，BAGEL 能夠自然地學(xué)習(xí)保留視覺特征和精細(xì)細(xì)節(jié)，同時(shí)還能捕捉視頻中復(fù)雜的視覺運(yùn)動(dòng)，從而高效地進(jìn)行圖像編輯。憑借源自視覺語(yǔ)言模型的強(qiáng)大推理能力，BAGEL 的智能編輯能力輕松超越了基礎(chǔ)編輯任務(wù)。

風(fēng)格轉(zhuǎn)換

憑借對(duì)視覺內(nèi)容和風(fēng)格的深刻理解，BAGEL 可以輕松地將圖像從一種風(fēng)格轉(zhuǎn)換為另一種風(fēng)格，甚至可以將其轉(zhuǎn)換為完全不同的風(fēng)格，只需使用最少的對(duì)齊數(shù)據(jù)即可。

作品

BAGEL 從視頻、網(wǎng)絡(luò)和語(yǔ)言數(shù)據(jù)中學(xué)習(xí)廣泛的知識(shí)和能力，使其能夠進(jìn)行推理、建模物理動(dòng)態(tài)、預(yù)測(cè)未來幀等等——所有這些都通過統(tǒng)一的多模態(tài)界面實(shí)現(xiàn)。憑借其組合能力，BAGEL 可以無縫地進(jìn)行多輪對(duì)話。

方法

BAGEL 采用混合 Transformer-專家 (MoT) 架構(gòu)，以最大限度地提升模型從豐富多樣的多模態(tài)信息中學(xué)習(xí)的能力。遵循同樣的容量最大化原則，它利用兩個(gè)獨(dú)立的編碼器來捕捉圖像的像素級(jí)和語(yǔ)義級(jí)特征。整體框架遵循“下一組標(biāo)記預(yù)測(cè)”范式，其中模型被訓(xùn)練為預(yù)測(cè)下一組語(yǔ)言或視覺標(biāo)記作為壓縮目標(biāo)。

BAGEL 通過對(duì)涵蓋語(yǔ)言、圖像、視頻和網(wǎng)絡(luò)數(shù)據(jù)的數(shù)萬億個(gè)交錯(cuò)多模態(tài)標(biāo)記進(jìn)行預(yù)訓(xùn)練、持續(xù)訓(xùn)練和監(jiān)督微調(diào)來擴(kuò)展 MoT 的容量。它在標(biāo)準(zhǔn)理解和生成基準(zhǔn)上超越了開放模型，并展示了先進(jìn)的上下文多模態(tài)能力，例如自由格式圖像編輯、未來幀預(yù)測(cè)、3D 操作、世界導(dǎo)航和序列推理。

隨著我們擴(kuò)展 BAGEL 的預(yù)訓(xùn)練，添加更多多模態(tài)標(biāo)記，我們觀察到理解、生成和編輯任務(wù)的性能持續(xù)提升。不同的能力在不同的訓(xùn)練階段顯現(xiàn)——多模態(tài)理解和生成能力出現(xiàn)較早，隨后是基礎(chǔ)編輯能力，而復(fù)雜的智能編輯能力則在后期顯現(xiàn)。這種階段性進(jìn)展表明了一種新興模式，即高級(jí)多模態(tài)推理建立在完善的基礎(chǔ)技能之上。消融研究進(jìn)一步表明，將 VAE 與 ViT 特征相結(jié)合可以顯著提升智能編輯能力，這凸顯了視覺語(yǔ)義語(yǔ)境在實(shí)現(xiàn)復(fù)雜多模態(tài)推理方面的重要性，并進(jìn)一步支持了其在高級(jí)能力涌現(xiàn)中的作用。

基準(zhǔn)

理解

責(zé)任編輯：張燕妮來源： AIGC Studio

AI 工具模型

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)推出統(tǒng)一多模態(tài)模型 BAGEL，GPT-4o 級(jí)的圖像生成能力直接開源了！

效果展示

聊天

生成效果

編輯

風(fēng)格轉(zhuǎn)換

作品

相關(guān)鏈接

方法

基準(zhǔn)

理解

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)推出統(tǒng)一多模態(tài)模型 BAGEL，GPT-4o 級(jí)的圖像生成能力直接開源了！

效果展示

聊天

生成效果

編輯

風(fēng)格轉(zhuǎn)換

作品

相關(guān)鏈接

方法

基準(zhǔn)

理解

字節(jié)推出統(tǒng)一多模態(tài)模型 BAGEL，GPT-4o 級(jí)的圖像生成能力直接開源了！