偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)首次公開圖像生成基模技術(shù)細(xì)節(jié)!數(shù)據(jù)處理到RLHF全流程披露

人工智能 新聞
從模型能力看,Seedream 2.0 是原生的中英雙語圖像生成基礎(chǔ)模型,擁有很強(qiáng)的美感和文本渲染效果,與目前即夢上的文生圖主力模型特性匹配。

就在今天,字節(jié)豆包大模型團(tuán)隊在 arxiv 上發(fā)布了一篇技術(shù)報告,完整公開了文生圖模型技術(shù)細(xì)節(jié),涵蓋數(shù)據(jù)處理、預(yù)訓(xùn)練、RLHF 在內(nèi)的后訓(xùn)練等全流程模型構(gòu)建方法,也詳細(xì)披露了此前大火的文字精準(zhǔn)渲染能力如何煉成。

報告將豆包文生圖模型稱為 Seedream 2.0,并明確提到,該模型于去年 12 月初上線到豆包 APP 和即夢平臺。從模型能力看,Seedream 2.0 是原生的中英雙語圖像生成基礎(chǔ)模型,擁有很強(qiáng)的美感和文本渲染效果,與目前即夢上的文生圖主力模型特性匹配。

換而言之,字節(jié)此次披露的,就是線上直接服務(wù)于數(shù)億用戶的核心模型。

至于技術(shù)報告中有哪些主要看點(diǎn),本文進(jìn)行了總結(jié)。

圖片

  • 論文標(biāo)題:Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
  • 論文地址:https://arxiv.org/pdf/2503.07703
  • 技術(shù)展示頁:https://team.doubao.com/tech/seedream

面向文生圖老大難問題
構(gòu)建綜合實(shí)力更強(qiáng)的模型

眾所周知,基于 DiT 架構(gòu)下圖像生成的質(zhì)量、細(xì)節(jié)豐富度、美感、結(jié)構(gòu)性等問題仍是技術(shù)從業(yè)者面臨的老大難問題,阻礙技術(shù)更大規(guī)模落地,服務(wù)大眾。

各家廠商也紛紛在從細(xì)節(jié)處入手,優(yōu)化文生圖效果。字節(jié)走在國內(nèi)大廠前列,旗下即夢平臺頗受 AIGC 愛好者歡迎,主要因其 AI 生圖兼顧真實(shí)度與美感,尤其在國風(fēng)內(nèi)容生成上獨(dú)具特色。

圖片

海辛、歸藏、AJ 等 AIGC 領(lǐng)域 KOL 也對即夢上模型文字生成與渲染、指令遵循、風(fēng)格把控等方面表達(dá)過認(rèn)可。

圖片

近期,即夢上還有不少「哪吒 2」主題的相關(guān)內(nèi)容,所生成的圖片既貼合人物特征,又有創(chuàng)意發(fā)揮之處。

圖片

根據(jù)豆包大模型團(tuán)隊提供的評測結(jié)果可以看到,服務(wù)即夢的 Seedream2.0 模型,在面向英文提示詞上,生成內(nèi)容的結(jié)構(gòu)合理性、文本理解準(zhǔn)確性對比 Ideogram 2.0 、Midjourney V6.1 、Flux 1.1 Pro 等模型展現(xiàn)出優(yōu)勢,且各類關(guān)鍵維度無明顯短板。

圖片

注:面向英文提示詞,Seedream 2.0 在不同維度上的表現(xiàn)。本圖各維度數(shù)據(jù)以最佳指標(biāo)為參照系,已進(jìn)行歸一化調(diào)整。

Seedream 2.0 中文綜合能力同樣突出,尤其在中文文字渲染和國風(fēng)美感方面。面向中文提示詞,其 78% 的生成與渲染文字可用率和 63% 的提示詞完美響應(yīng)率,高于業(yè)界目前其他模型。

面向中文提示詞,其生成與渲染文字可用率達(dá) 78% ,完美響應(yīng)率為 63% ,高于業(yè)界目前其他模型。

圖片

注:面向中文提示詞,Seedream 2.0 在不同維度上的表現(xiàn)。本圖各維度數(shù)據(jù)以最佳指標(biāo)為參照系,已進(jìn)行歸一化調(diào)整。

上述能力并非來自于單點(diǎn)技術(shù)突破,而是源自 Seedream 2.0 團(tuán)隊針對數(shù)據(jù)處理、預(yù)訓(xùn)練、后訓(xùn)練階段融入了一系列優(yōu)化方法和技術(shù)。

數(shù)據(jù)處理:構(gòu)建深度融合知識的預(yù)處理框架

面對百億量級的中英多模態(tài)數(shù)據(jù),Seedream 2.0 團(tuán)隊構(gòu)建了以 “知識融合” 為核心的預(yù)處理框架,從以下三個方面實(shí)現(xiàn)技術(shù)突破。

  • 四維數(shù)據(jù)架構(gòu),實(shí)現(xiàn)質(zhì)量與知識的動態(tài)平衡

大規(guī)模數(shù)據(jù)構(gòu)建,往往伴隨質(zhì)量下滑,進(jìn)而影響模型表現(xiàn)。為此,團(tuán)隊創(chuàng)新設(shè)計了四維拓?fù)渚W(wǎng)絡(luò),突破單一模態(tài)限制。該架構(gòu)包含四個數(shù)據(jù)層:

  1. 優(yōu)質(zhì)數(shù)據(jù)層:精選高分辨率、知識密度強(qiáng)的數(shù)據(jù)(如科學(xué)圖解、藝術(shù)創(chuàng)作),奠定質(zhì)量基礎(chǔ);
  2. 分布維持層:采用雙層級降采樣策略,從數(shù)據(jù)源維度對頭部平臺等比降維,從語義維度通過 10 萬級細(xì)粒度聚類維持多樣性;
  3. 知識注入層:構(gòu)建 3 萬 + 名詞和 2000 + 動詞分類體系,結(jié)合百億級跨模態(tài)檢索,為數(shù)據(jù)注入文化特征;
  4. 定向增強(qiáng)層:建立 “缺陷發(fā)現(xiàn) - 數(shù)據(jù)補(bǔ)充 - 效果驗證” 閉環(huán),優(yōu)化動作序列、反現(xiàn)實(shí)生成等場景。

這一架構(gòu)有效平衡了數(shù)據(jù)質(zhì)量與知識多樣性,為模型訓(xùn)練提供堅實(shí)的數(shù)據(jù)支撐。

圖片

  • 智能標(biāo)注引擎:三級認(rèn)知進(jìn)化

傳統(tǒng)標(biāo)注的 Caption 系統(tǒng)受單模態(tài)理解局限,對圖像內(nèi)容描述不夠全面精準(zhǔn)。團(tuán)隊在其基礎(chǔ)上,實(shí)現(xiàn)了智能標(biāo)注引擎的三級認(rèn)知進(jìn)化。

首先,構(gòu)建分層描述體系,通過短、長和特殊場景 Caption 結(jié)合,讓模型既能捕捉圖像核心內(nèi)容,又能提供豐富細(xì)節(jié)與藝術(shù)解釋。

其次,建立文化專有名詞映射庫,實(shí)現(xiàn)跨語言對齊,將中英文生成質(zhì)量差異壓縮至 2% 以內(nèi),提升模型在多語言環(huán)境下表現(xiàn)。

最后,引入動態(tài)質(zhì)檢機(jī)制,利用 LLM 預(yù)篩選,通過 Badcase 驅(qū)動 prompt 模板迭代,優(yōu)化描述質(zhì)量。

  • 工程化重構(gòu):百億數(shù)據(jù)的流水線革命

工程化方面,傳統(tǒng) ETL 流程存在算力錯配與迭代遲滯痛點(diǎn)。

這不僅導(dǎo)致非核心任務(wù)占用大量高算力資源,擠占核心任務(wù)資源,也造成數(shù)據(jù)處理流程難以適應(yīng)業(yè)務(wù)與數(shù)據(jù)變化,限制整體效能。

團(tuán)隊從兩方面重構(gòu)工程系統(tǒng)。

一方面通過異構(gòu)調(diào)度,釋放高算力資源用于關(guān)鍵任務(wù)。另一方面,采用 “分片 - 校驗 - 裝載” 三級流水線并行處理方法,打包速度提升 8 倍。

這些改進(jìn)大幅提高數(shù)據(jù)處理效率與質(zhì)量,為大規(guī)模數(shù)據(jù)管理利用奠定基礎(chǔ)。

預(yù)訓(xùn)練階段:聚焦雙語理解與文字渲染

在預(yù)訓(xùn)練階段,團(tuán)隊基于大量用戶調(diào)研與技術(shù)預(yù)判認(rèn)為,多語言語義理解、雙語文字渲染和多分辨率場景適配等模塊的突破,對于圖像生成技術(shù)發(fā)展極為關(guān)鍵,可大幅提升模型適用性與用戶體驗,滿足不同語言文化背景的用戶需求,并拓展應(yīng)用場景。

因此,Seedream 2.0 采用了全新的預(yù)訓(xùn)練架構(gòu)設(shè)計,其整體框圖如下。

圖片

具體來看,Seedream 2.0 從三個方面實(shí)現(xiàn)了關(guān)鍵技術(shù)升級。

  • 原生雙語對齊方案,打破語言視覺次元壁

面向雙語文生圖場景,團(tuán)隊提出基于 LLM 的雙語對齊方案。

具體來說,先通過大規(guī)模文本 - 圖像對微調(diào) Decoder-Only 架構(gòu)的 LLM,使文本 Embedding 與視覺特征形成空間映射對齊。

同時,針對中文書法、方言俚語、專業(yè)術(shù)語等場景構(gòu)建專用數(shù)據(jù)集,加強(qiáng)模型對文化符號的深度理解與感知。

這種 “預(yù)訓(xùn)練對齊 + 領(lǐng)域增強(qiáng)” 的雙軌策略,使模型能夠直接從大量中英文數(shù)據(jù)中習(xí)得 “地道” 的本土知識,進(jìn)而,準(zhǔn)確生成具有文化細(xì)微差別的中文或英文美學(xué)表達(dá)圖像,打破不同語言與視覺的次元壁。

  • 讓模型既看懂文本,又關(guān)注字體字形

在過去,圖像生成模型的文本渲染常面臨兩難困境:依賴 ByT5 等字形模型易導(dǎo)致長文本布局混亂,而引入 OCR 圖像特征又需額外布局規(guī)劃模塊。

為此,團(tuán)隊構(gòu)建了雙模態(tài)編碼融合系統(tǒng) ——LLM 負(fù)責(zé)解析 “文本要表達(dá)什么”,ByT5 專注刻畫 “文字應(yīng)該長什么樣”。

此種方法下,字體、顏色、大小、位置等渲染屬性不再依賴預(yù)設(shè)模板,而是通過 LLM 直接描述文本特征,進(jìn)行端到端訓(xùn)練。

如此一來,模型既能從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)文本渲染特征,也可以基于編碼后的渲染特征,高效學(xué)習(xí)渲染文本的字形特征。

  • 三重升級 DiT 架構(gòu),讓圖像生成縮放自如

多分辨率生成是圖像生成場景的常用需求,團(tuán)隊在 SD3 的 MMDiT 架構(gòu)基礎(chǔ)上,進(jìn)行了兩重升級:

其一,在訓(xùn)練穩(wěn)定性方面。團(tuán)隊引入 QK-Norm 抑制注意力矩陣的數(shù)值波動,結(jié)合全分片數(shù)據(jù)并行(FSDP)策略,使模型的訓(xùn)練收斂速度提升 300%。

其二,團(tuán)隊設(shè)計了 Scaling ROPE 技術(shù)方案。傳統(tǒng)二維旋轉(zhuǎn)位置編碼(RoPE)在分辨率變化時,可能會導(dǎo)致位置標(biāo)識錯位。Seedream 2.0 通過動態(tài)縮放因子調(diào)整編碼,使圖像中心區(qū)域在不同寬高比下,保持空間一致性。這使得模型在推理過程中,能夠生成從未訓(xùn)練過的圖像尺寸和各種分辨率。

后訓(xùn)練 RLHF 突破能力瓶頸

Seedream 2.0 的后訓(xùn)練過程包含四個階段:Continue Training (CT) 、 Supervised Fine-Tuning (SFT) 、人類反饋對齊(RLHF)和 Prompt Engineering (PE) 。

較值得分享的是 —— 團(tuán)隊開發(fā)了人類反饋對齊(RLHF)優(yōu)化系統(tǒng),提升了 Seedream 2.0 整體性能。

其核心工作包含以下三個方面:

  • 多維度偏好數(shù)據(jù)體系,提升模型偏好上限

團(tuán)隊收集并整理了一個多功能的 Prompt 集合,專門用于獎勵模型(RM)訓(xùn)練和反饋學(xué)習(xí)階段,并通過構(gòu)建跨版本和跨模型標(biāo)注管道,增強(qiáng)了 RM 的領(lǐng)域適應(yīng)性,并擴(kuò)展了模型偏好的上限。

在標(biāo)注階段,團(tuán)隊構(gòu)建了多維融合注釋。這一做法成功擴(kuò)展了單一獎勵模型的多維度偏好表征邊界,促進(jìn)模型在多個維度上實(shí)現(xiàn)帕累托最優(yōu)。

  • 三個不同獎勵模型,給予專項提升

Seedream 2.0 直接利用 CLIP 嵌入空間距離,作為基礎(chǔ)獎勵值。這省去了回歸頭等冗余參數(shù)結(jié)構(gòu)以及不穩(wěn)定訓(xùn)練情況。

同時,團(tuán)隊精心制作并訓(xùn)練了三個不同的獎勵模型:圖像文本對齊 RM、美學(xué) RM 和文本渲染 RM。

其中,文本渲染 RM 引入了觸發(fā)式激活機(jī)制,在檢測到 “文本生成” 類標(biāo)簽時,模型將強(qiáng)化字符細(xì)節(jié)優(yōu)化能力,提升漢字生成準(zhǔn)確率。

  • 反復(fù)學(xué)習(xí),驅(qū)動模型進(jìn)化

團(tuán)隊通過直接最大化多個 RM 的獎勵,以改進(jìn)擴(kuò)散模型。通過調(diào)整學(xué)習(xí)率、選擇合適的去噪時間步長和實(shí)施權(quán)重指數(shù)滑動平均,實(shí)現(xiàn)了穩(wěn)定的反饋學(xué)習(xí)訓(xùn)練。

在反饋學(xué)習(xí)階段,團(tuán)隊同時微調(diào) DiT 和文本編碼器。此種聯(lián)合訓(xùn)練顯著增強(qiáng)了模型在圖像文本對齊和美學(xué)改進(jìn)方面的能力。

經(jīng)過 RLHF 階段對擴(kuò)散模型和獎勵模型的多輪迭代,團(tuán)隊進(jìn)一步提高了模型性能。

獎勵曲線顯示,在整個對齊過程中,不同獎勵模型的表現(xiàn)分?jǐn)?shù)值都呈現(xiàn)穩(wěn)定且一致的上升趨勢。

圖片

從 Scaling 到強(qiáng)化學(xué)習(xí)

解鎖模型優(yōu)化新可能

Seedream 2.0 模型技術(shù)報告的發(fā)布,是字節(jié)跳動首次公開圖像生成基礎(chǔ)模型的細(xì)節(jié)做法。團(tuán)隊還將持續(xù)探索更高效地 Scaling 模型參數(shù)及數(shù)據(jù)的創(chuàng)新技術(shù),進(jìn)一步提升模型的性能邊界。

伴隨 2025 年強(qiáng)化學(xué)習(xí)浪潮興起,團(tuán)隊認(rèn)為,他們將持續(xù)探索基于強(qiáng)化學(xué)習(xí)的優(yōu)化機(jī)制,包括如何更好地設(shè)計獎勵模型及數(shù)據(jù)構(gòu)建方案。

后續(xù),豆包大模型團(tuán)隊也將持續(xù)分享技術(shù)經(jīng)驗,共同推動行業(yè)發(fā)展。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-13 07:00:00

2025-03-18 08:00:00

豆包文生圖技術(shù)Seedream

2020-04-03 09:05:43

麻將 AI Suphx神經(jīng)網(wǎng)絡(luò)

2023-05-08 07:20:22

Doris分析型數(shù)據(jù)庫

2009-12-02 11:03:29

AMD

2009-11-23 09:50:54

HTML5IE9

2011-04-18 09:35:23

Windows 8

2015-07-17 18:45:59

拆機(jī)

2023-06-25 10:19:49

模型論文

2021-06-11 21:46:31

RocketMQ數(shù)據(jù)JSON

2025-04-15 00:50:00

字節(jié)跳動豆包大模型

2015-04-13 10:12:08

Windows容器技術(shù)Nano Server

2023-12-18 10:36:46

數(shù)據(jù)處理PandasPython

2014-05-29 09:34:25

2024-04-25 17:07:33

無源光網(wǎng)絡(luò)PON接入網(wǎng)技術(shù)

2019-05-13 08:51:53

總監(jiān)技術(shù)CTO

2019-05-06 10:51:49

總監(jiān)技術(shù)場景

2024-11-04 08:45:00

2013-06-26 09:42:25

技術(shù)服務(wù)器內(nèi)存虛擬化

2017-11-10 08:35:06

存儲FCoE網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號