偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="hvcwf"><form id="hvcwf"></form></rt>

<tfoot id="hvcwf"><pre id="hvcwf"></pre></tfoot>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

字節(jié)首次公開圖像生成基模技術細節(jié)！數(shù)據(jù)處理到RLHF全流程披露

作者：機器之心 2025-03-12 14:40:53

人工智能新聞

從模型能力看，Seedream 2.0 是原生的中英雙語圖像生成基礎模型，擁有很強的美感和文本渲染效果，與目前即夢上的文生圖主力模型特性匹配。

就在今天，字節(jié)豆包大模型團隊在 arxiv 上發(fā)布了一篇技術報告，完整公開了文生圖模型技術細節(jié)，涵蓋數(shù)據(jù)處理、預訓練、RLHF 在內(nèi)的后訓練等全流程模型構建方法，也詳細披露了此前大火的文字精準渲染能力如何煉成。

報告將豆包文生圖模型稱為 Seedream 2.0，并明確提到，該模型于去年 12 月初上線到豆包 APP 和即夢平臺。從模型能力看，Seedream 2.0 是原生的中英雙語圖像生成基礎模型，擁有很強的美感和文本渲染效果，與目前即夢上的文生圖主力模型特性匹配。

換而言之，字節(jié)此次披露的，就是線上直接服務于數(shù)億用戶的核心模型。

至于技術報告中有哪些主要看點，本文進行了總結。

論文標題：Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
論文地址：https://arxiv.org/pdf/2503.07703
技術展示頁：https://team.doubao.com/tech/seedream

面向文生圖老大難問題
構建綜合實力更強的模型

眾所周知，基于 DiT 架構下圖像生成的質(zhì)量、細節(jié)豐富度、美感、結構性等問題仍是技術從業(yè)者面臨的老大難問題，阻礙技術更大規(guī)模落地，服務大眾。

各家廠商也紛紛在從細節(jié)處入手，優(yōu)化文生圖效果。字節(jié)走在國內(nèi)大廠前列，旗下即夢平臺頗受 AIGC 愛好者歡迎，主要因其 AI 生圖兼顧真實度與美感，尤其在國風內(nèi)容生成上獨具特色。

海辛、歸藏、AJ 等 AIGC 領域 KOL 也對即夢上模型文字生成與渲染、指令遵循、風格把控等方面表達過認可。

近期，即夢上還有不少「哪吒 2」主題的相關內(nèi)容，所生成的圖片既貼合人物特征，又有創(chuàng)意發(fā)揮之處。

根據(jù)豆包大模型團隊提供的評測結果可以看到，服務即夢的 Seedream2.0 模型，在面向英文提示詞上，生成內(nèi)容的結構合理性、文本理解準確性對比 Ideogram 2.0 、Midjourney V6.1 、Flux 1.1 Pro 等模型展現(xiàn)出優(yōu)勢，且各類關鍵維度無明顯短板。

注：面向英文提示詞，Seedream 2.0 在不同維度上的表現(xiàn)。本圖各維度數(shù)據(jù)以最佳指標為參照系，已進行歸一化調(diào)整。

Seedream 2.0 中文綜合能力同樣突出，尤其在中文文字渲染和國風美感方面。面向中文提示詞，其 78% 的生成與渲染文字可用率和 63% 的提示詞完美響應率，高于業(yè)界目前其他模型。

面向中文提示詞，其生成與渲染文字可用率達 78% ，完美響應率為 63% ，高于業(yè)界目前其他模型。

注：面向中文提示詞，Seedream 2.0 在不同維度上的表現(xiàn)。本圖各維度數(shù)據(jù)以最佳指標為參照系，已進行歸一化調(diào)整。

上述能力并非來自于單點技術突破，而是源自 Seedream 2.0 團隊針對數(shù)據(jù)處理、預訓練、后訓練階段融入了一系列優(yōu)化方法和技術。

數(shù)據(jù)處理：構建深度融合知識的預處理框架

面對百億量級的中英多模態(tài)數(shù)據(jù)，Seedream 2.0 團隊構建了以 “知識融合” 為核心的預處理框架，從以下三個方面實現(xiàn)技術突破。

四維數(shù)據(jù)架構，實現(xiàn)質(zhì)量與知識的動態(tài)平衡

大規(guī)模數(shù)據(jù)構建，往往伴隨質(zhì)量下滑，進而影響模型表現(xiàn)。為此，團隊創(chuàng)新設計了四維拓撲網(wǎng)絡，突破單一模態(tài)限制。該架構包含四個數(shù)據(jù)層：

優(yōu)質(zhì)數(shù)據(jù)層：精選高分辨率、知識密度強的數(shù)據(jù)（如科學圖解、藝術創(chuàng)作），奠定質(zhì)量基礎；
分布維持層：采用雙層級降采樣策略，從數(shù)據(jù)源維度對頭部平臺等比降維，從語義維度通過 10 萬級細粒度聚類維持多樣性；
知識注入層：構建 3 萬 + 名詞和 2000 + 動詞分類體系，結合百億級跨模態(tài)檢索，為數(shù)據(jù)注入文化特征；
定向增強層：建立 “缺陷發(fā)現(xiàn) - 數(shù)據(jù)補充 - 效果驗證” 閉環(huán)，優(yōu)化動作序列、反現(xiàn)實生成等場景。

這一架構有效平衡了數(shù)據(jù)質(zhì)量與知識多樣性，為模型訓練提供堅實的數(shù)據(jù)支撐。

智能標注引擎：三級認知進化

傳統(tǒng)標注的 Caption 系統(tǒng)受單模態(tài)理解局限，對圖像內(nèi)容描述不夠全面精準。團隊在其基礎上，實現(xiàn)了智能標注引擎的三級認知進化。

首先，構建分層描述體系，通過短、長和特殊場景 Caption 結合，讓模型既能捕捉圖像核心內(nèi)容，又能提供豐富細節(jié)與藝術解釋。

其次，建立文化專有名詞映射庫，實現(xiàn)跨語言對齊，將中英文生成質(zhì)量差異壓縮至 2% 以內(nèi)，提升模型在多語言環(huán)境下表現(xiàn)。

最后，引入動態(tài)質(zhì)檢機制，利用 LLM 預篩選，通過 Badcase 驅動 prompt 模板迭代，優(yōu)化描述質(zhì)量。

工程化重構：百億數(shù)據(jù)的流水線革命

工程化方面，傳統(tǒng) ETL 流程存在算力錯配與迭代遲滯痛點。

這不僅導致非核心任務占用大量高算力資源，擠占核心任務資源，也造成數(shù)據(jù)處理流程難以適應業(yè)務與數(shù)據(jù)變化，限制整體效能。

團隊從兩方面重構工程系統(tǒng)。

一方面通過異構調(diào)度，釋放高算力資源用于關鍵任務。另一方面，采用 “分片 - 校驗 - 裝載” 三級流水線并行處理方法，打包速度提升 8 倍。

這些改進大幅提高數(shù)據(jù)處理效率與質(zhì)量，為大規(guī)模數(shù)據(jù)管理利用奠定基礎。

預訓練階段：聚焦雙語理解與文字渲染

在預訓練階段，團隊基于大量用戶調(diào)研與技術預判認為，多語言語義理解、雙語文字渲染和多分辨率場景適配等模塊的突破，對于圖像生成技術發(fā)展極為關鍵，可大幅提升模型適用性與用戶體驗，滿足不同語言文化背景的用戶需求，并拓展應用場景。

因此，Seedream 2.0 采用了全新的預訓練架構設計，其整體框圖如下。

具體來看，Seedream 2.0 從三個方面實現(xiàn)了關鍵技術升級。

原生雙語對齊方案，打破語言視覺次元壁

面向雙語文生圖場景，團隊提出基于 LLM 的雙語對齊方案。

具體來說，先通過大規(guī)模文本 - 圖像對微調(diào) Decoder-Only 架構的 LLM，使文本 Embedding 與視覺特征形成空間映射對齊。

同時，針對中文書法、方言俚語、專業(yè)術語等場景構建專用數(shù)據(jù)集，加強模型對文化符號的深度理解與感知。

這種 “預訓練對齊 + 領域增強” 的雙軌策略，使模型能夠直接從大量中英文數(shù)據(jù)中習得 “地道” 的本土知識，進而，準確生成具有文化細微差別的中文或英文美學表達圖像，打破不同語言與視覺的次元壁。

讓模型既看懂文本，又關注字體字形

在過去，圖像生成模型的文本渲染常面臨兩難困境：依賴 ByT5 等字形模型易導致長文本布局混亂，而引入 OCR 圖像特征又需額外布局規(guī)劃模塊。

為此，團隊構建了雙模態(tài)編碼融合系統(tǒng) ——LLM 負責解析 “文本要表達什么”，ByT5 專注刻畫 “文字應該長什么樣”。

此種方法下，字體、顏色、大小、位置等渲染屬性不再依賴預設模板，而是通過 LLM 直接描述文本特征，進行端到端訓練。

如此一來，模型既能從訓練數(shù)據(jù)中學習文本渲染特征，也可以基于編碼后的渲染特征，高效學習渲染文本的字形特征。

三重升級 DiT 架構，讓圖像生成縮放自如

多分辨率生成是圖像生成場景的常用需求，團隊在 SD3 的 MMDiT 架構基礎上，進行了兩重升級：

其一，在訓練穩(wěn)定性方面。團隊引入 QK-Norm 抑制注意力矩陣的數(shù)值波動，結合全分片數(shù)據(jù)并行（FSDP）策略，使模型的訓練收斂速度提升 300%。

其二，團隊設計了 Scaling ROPE 技術方案。傳統(tǒng)二維旋轉位置編碼（RoPE）在分辨率變化時，可能會導致位置標識錯位。Seedream 2.0 通過動態(tài)縮放因子調(diào)整編碼，使圖像中心區(qū)域在不同寬高比下，保持空間一致性。這使得模型在推理過程中，能夠生成從未訓練過的圖像尺寸和各種分辨率。

后訓練 RLHF 突破能力瓶頸

Seedream 2.0 的后訓練過程包含四個階段：Continue Training (CT) 、 Supervised Fine-Tuning (SFT) 、人類反饋對齊（RLHF）和 Prompt Engineering (PE) 。

較值得分享的是 —— 團隊開發(fā)了人類反饋對齊（RLHF）優(yōu)化系統(tǒng)，提升了 Seedream 2.0 整體性能。

其核心工作包含以下三個方面：

多維度偏好數(shù)據(jù)體系，提升模型偏好上限

團隊收集并整理了一個多功能的 Prompt 集合，專門用于獎勵模型（RM）訓練和反饋學習階段，并通過構建跨版本和跨模型標注管道，增強了 RM 的領域適應性，并擴展了模型偏好的上限。

在標注階段，團隊構建了多維融合注釋。這一做法成功擴展了單一獎勵模型的多維度偏好表征邊界，促進模型在多個維度上實現(xiàn)帕累托最優(yōu)。

三個不同獎勵模型，給予專項提升

Seedream 2.0 直接利用 CLIP 嵌入空間距離，作為基礎獎勵值。這省去了回歸頭等冗余參數(shù)結構以及不穩(wěn)定訓練情況。

同時，團隊精心制作并訓練了三個不同的獎勵模型：圖像文本對齊 RM、美學 RM 和文本渲染 RM。

其中，文本渲染 RM 引入了觸發(fā)式激活機制，在檢測到 “文本生成” 類標簽時，模型將強化字符細節(jié)優(yōu)化能力，提升漢字生成準確率。

反復學習，驅動模型進化

團隊通過直接最大化多個 RM 的獎勵，以改進擴散模型。通過調(diào)整學習率、選擇合適的去噪時間步長和實施權重指數(shù)滑動平均，實現(xiàn)了穩(wěn)定的反饋學習訓練。

在反饋學習階段，團隊同時微調(diào) DiT 和文本編碼器。此種聯(lián)合訓練顯著增強了模型在圖像文本對齊和美學改進方面的能力。

經(jīng)過 RLHF 階段對擴散模型和獎勵模型的多輪迭代，團隊進一步提高了模型性能。

獎勵曲線顯示，在整個對齊過程中，不同獎勵模型的表現(xiàn)分數(shù)值都呈現(xiàn)穩(wěn)定且一致的上升趨勢。

從 Scaling 到強化學習

解鎖模型優(yōu)化新可能

Seedream 2.0 模型技術報告的發(fā)布，是字節(jié)跳動首次公開圖像生成基礎模型的細節(jié)做法。團隊還將持續(xù)探索更高效地 Scaling 模型參數(shù)及數(shù)據(jù)的創(chuàng)新技術，進一步提升模型的性能邊界。

伴隨 2025 年強化學習浪潮興起，團隊認為，他們將持續(xù)探索基于強化學習的優(yōu)化機制，包括如何更好地設計獎勵模型及數(shù)據(jù)構建方案。

后續(xù)，豆包大模型團隊也將持續(xù)分享技術經(jīng)驗，共同推動行業(yè)發(fā)展。

責任編輯：張燕妮來源：機器之心

模型生成 AI

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<bdo id="f8caz"></bdo>

<abbr id="f8caz"><listing id="f8caz"></listing></abbr>

<dfn id="f8caz"><code id="f8caz"><dl id="f8caz"></dl></code></dfn>

<thead id="f8caz"></thead>