真·打字P圖!字節(jié)發(fā)布新模型SeedEdit,一句話爆改世界名畫,可免費體驗
字節(jié)豆包大模型又又又上新了!
11 月 11 日,字節(jié)跳動豆包大模型團隊推出了最新圖像編輯模型 SeedEdit,主打一句話輕松 P 圖。

它是國內(nèi)首個產(chǎn)品化的通用圖像編輯模型,無需描邊涂抹,僅使用簡單的自然語言,就能換背景、轉(zhuǎn)風格,或者在指定區(qū)域進行元素的增刪和替換。
比如,輸入 Prompt「把老婆餅換成驢打滾」,SeedEdit 立馬鎖定修改目標,完成美食替換:

(Prompt:把老婆餅換成驢打滾)
要知道,「老婆餅」、「驢打滾」等中國美食曾「騙」倒一眾大模型,但 SeedEdit 能精準理解復雜指令,不僅看得懂中英文提示詞,還對成語和專有名詞「門兒清」。
再比如,在不「誤傷」原圖細節(jié)的情況下,把草莓換成檸檬:

(Prompt:把草莓換成檸檬)
甚至可以讓油畫里戴珍珠耳環(huán)的少女張大嘴巴啃漢堡:

(Prompt:戴珍珠耳環(huán)的少女吃漢堡)
在處理玻璃裂紋、發(fā)絲等精細涂抹區(qū)域時,SeedEdit 同樣能夠保持原圖的完整性:

(Prompt:移除玻璃裂紋,干凈畫面)
此外,作為一款通用圖像編輯模型,它不僅具備單次編輯的能力,還支持多輪操作,能夠讓用戶對同一圖像進行連續(xù)的創(chuàng)意編輯。
比如,讓一個二次元女孩換上騎士裝、戴上牛仔帽、改變動作、增加背景,最后「Pia」一下變身酷颯火槍手:

本次 SeedEdit 推出,字節(jié)也發(fā)布了技術(shù)報告。AIGC 圖像的精準編輯一直是個老大難問題,業(yè)界此前方案要么在編輯上做不到「指哪打哪」,要么編輯生成的質(zhì)量低或?qū)е略瓐D主體變化較大。
報告顯示,SeedEdit 依然采用了 Diffusion 架構(gòu),但在不引入新參數(shù)的情況下將圖像生成模型轉(zhuǎn)換成了圖像編輯模型。其秘訣是在保持原始圖像和生成新內(nèi)容之間尋找平衡,最終得以在圖像編輯的通用性、可控性和高質(zhì)量上實現(xiàn)新的突破。
目前,SeedEdit 已上線豆包 PC 端和字節(jié) AIGC 平臺即夢網(wǎng)頁端開始測試。
- 豆包 Web:https://www.doubao.com/chat/create-image
- 即夢 Web:https://jimeng.jianying.com/ai-tool/image/generate
SeedEdit 的圖片編輯效果可謂炸裂,讓人不禁要問:生成式 AI 的修圖技術(shù)是否真的已經(jīng)能做到「毫無 PS 痕跡」了?
我們索性搞個實測,看看字節(jié)這款 AI 神器實力到底如何。
任意指令,精準編輯:一句話爆改世界名畫
今年以來,Dall?E 3、Midjourney 等 AI 繪圖平臺響應(yīng)群眾呼聲,陸續(xù)上線了生圖編輯功能。
不得不說,相較業(yè)界之前方案,編輯生圖的質(zhì)量和美感的確大大改善,但體驗上仍有提升空間,一是指定區(qū)域編輯需要手動涂抹,二是對編輯指令的響應(yīng)經(jīng)常不夠精準。
而這次字節(jié)卯足勁推出的 SeedEdit,首先在通用性上做到了極致,不用涂抹編輯區(qū)域,只需給出一句簡潔的 prompt,就能實現(xiàn)任意指令的編輯,適用各類編輯任務(wù),支持用戶腦洞大開的奇思妙想。
其產(chǎn)品側(cè)玩法也很簡單。在即夢「圖片生成」中,上傳參考圖,選擇「智能參考」,然后根據(jù)需要輸入 Prompt 即可。接下來就是實測最關(guān)鍵的編輯精準度。

一手實測
我們先來惡搞一波世界名畫。
讓蒙娜麗莎抱只貓,再換個表情。

(Prompt:蒙娜麗莎張開嘴大笑,手里抱著一只貓。)
原作中蒙娜麗莎的微笑神秘、含蓄又難以捉摸,但 SeedEdit 一頓爆改,瞬間讓畫面有了一種詼諧感。蒙娜麗莎咧嘴大笑,懷里的貓高冷地眺望遠方,畫風自然、線條流暢。
SeedEdit 嚴格遵循了指令,除了表情和動作發(fā)生變化外,其他細節(jié)均能保持不變。
蒙娜麗莎的發(fā)絲、頭紗和衣褶清晰可見,手部沒有變形扭曲,貓咪的胡須、毛發(fā)根根分明,就連背景也完美復刻。
SeedEdit 還能一句話換背景。
我們讓它把《倒牛奶的女仆》中的背景換成了麥當勞后廚。

(Prompt:背景換成麥當勞后廚,女仆正端著牛奶瓶)
為了準確體現(xiàn) Prompt,SeedEdit 編輯后的畫面中,墻上掛著麥當勞的大 Logo,原本簡陋的房間也放置了現(xiàn)代化的不銹鋼櫥柜,毫無「貼圖感」。
由于原畫歷經(jīng)幾個世紀之久,難免會出現(xiàn)細微裂痕和顆粒感,SeedEdit 巧妙去掉其中的斑駁,畫質(zhì)一整個拉升。
再看這幅《戴珍珠耳環(huán)的少女》。僅需下個動作指令,SeedEdit 就開始發(fā)揮想象力。

(Prompt:戴珍珠耳環(huán)的少女手里拿著一杯奶茶)
即使是真人圖像,SeedEdit 也完全能 hold 住。
讓《老友記》中的瑞秋戴上時髦的墨鏡:

(Prompt:女生戴上時髦的墨鏡)
給奧黛麗?赫本更換帽子顏色:

(Prompt:帽子顏色換成紅色)
或者一句話給黑白老照片上色:

(Prompt:給畫面上色,時尚,舒服)
移除畫中無關(guān)元素,若是用傳統(tǒng) PS 方法,需要一點點描邊框、選涂抹區(qū)域,一旦手不穩(wěn),就得重新返工。而 SeedEdit 只需一句「去掉右邊老虎」的指令,就能精準定位并刪除,這相比于手動編輯,大大節(jié)省了時間。

(Prompt: 去掉右邊老虎)
當然,SeedEdit 也可以進行元素替換。比如把下圖中右邊的金毛換成泰迪,圖像其余部分畫面結(jié)構(gòu)、像素質(zhì)量,均不受影響。

(Prompt:把右側(cè)的小狗換成棕色的泰迪)
值得一提的是,SeedEdit 還能隨意切換各種風格,比如涂鴉、樂高、3D、皮克斯、迪士尼……

(Prompt:把畫面風格換成用線條和形狀勾勒的涂鴉風;Prompt:把畫面風格換成皮克斯風格;Prompt:把畫面風格換成日本動漫風)
經(jīng)過多次嘗試,我們也總結(jié)出一套超實用的 Prompt 指南。
- 每次編輯盡量使用單指令,為防止它「丟三落四」, 多指令最好少于 3 種變化。
- 雖然 SeedEdit 具備一定的推理能力,有時指令模糊它也能猜個大概,但為了效果更佳,在局部編輯時,下指令要精準,尤其是畫面具有多個實體時,需描述清楚對誰做什么。
- 參考圖盡可能清晰、分辨率高,要想保留參考圖中的對象,則可以多加一些對象描述。比如從簡單的 change to afro hairstyle 變成 change this young Chinese man hairstyle to afro style.
- 如果感覺編輯效果不明顯,可以調(diào)整編輯強度,比如從 0.5 調(diào)整到 1.0;若發(fā)現(xiàn)編輯變化太多, 同樣也可以減少編輯強度,比如降到 0.1。
單挑 Dall?E3、Midjourney
沒有對比就沒有發(fā)言權(quán)。
我們就讓字節(jié) SeedEdit 和 AI 生圖界的「扛把子」Dall?E3、Midjourney 來次真刀真槍的比拼。
首先,我們給這三個模型輸入同樣的 Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography。讓它們各自生成一張圖片,再在此基礎(chǔ)上進行局部調(diào)整。
SeedEdit 生成的圖片既時尚又充滿運動氣息。模特身著印有醒目耐克 Logo 的運動背心,搭配同色系棉質(zhì)夾克,褲子的光澤與夾克相得益彰,整體效果相當協(xié)調(diào)。
隨后,我們輸入文字指令「Change the blue Nike tracksuit to black Nike tracksuit」,SeedEdit 迅速響應(yīng),給模特換成了一身黑色,夾克和褲子的光澤感同樣得到完美呈現(xiàn)。

(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
與 SeedEdit 一句話 P 圖不同,Midjourney 和 Dall?E3 的局部編輯功能稍顯復雜,需要先使用畫筆工具涂抹要修改的區(qū)域,然后輸入 Prompt,以實現(xiàn)對圖像的元素修改。
Midjourney 雖然也遵從了指令,但改變了模特動作和衣服款式。

(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
Dall?E3 的表現(xiàn)最拉胯,生成的圖像美感不足,還一股 AI 味,涂抹修改也沒有完全遵循 Prompt。

(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
再來試一下刪除效果。Prompt:Remove the guy on the right.
原圖:

Midjourney:

SeedEdit:

Midjourney 確實抹去了畫面右側(cè)的男生,但身后的建筑也跟著不翼而飛;而 SeedEdit 在遵循文字指令的同時,還通過自身的推理能力將畫面缺失部分補齊,不過,女生的眼神和衣服等細節(jié)也稍有瑕疵。
總之,SeedEdit 作為通用的圖像編輯模型,無需再訓練微調(diào)即可快捷應(yīng)用,極大地簡化了圖像編輯的流程。
無論是簡單的圖像修正還是復雜的風格轉(zhuǎn)換,它都能迅速適應(yīng)并提供高質(zhì)量的編輯結(jié)果。這一突破性的技術(shù)進步,不僅降低了圖像編輯的門檻,也讓創(chuàng)意工作者能夠更加專注于藝術(shù)創(chuàng)作本身,而不必耗費大量時間在技術(shù)細節(jié)上。
技術(shù)細節(jié):擴散模型,被字節(jié)玩出了花
在產(chǎn)品發(fā)布的同時,字節(jié)同時也發(fā)布了 SeedEdit 的技術(shù)報告。仔細閱讀一下可以發(fā)現(xiàn),它在技術(shù)原理上確實有自己的獨到之處。

- 論文:《SeedEdit: Align Image Re-Generation to Image Editing》
- 論文及技術(shù)能力展示:https://team.doubao.com/seededit
據(jù)技術(shù)報告介紹,SeedEdit 基于圖像生成常用的擴散模型,但又能夠根據(jù)任何文本提示修訂給定的圖像。該工作發(fā)現(xiàn),AI 生成式圖像編輯的關(guān)鍵,在于在保持原始圖像(圖像重建)和生成新圖像(圖像生成)之間的平衡。
這就意味著若想讓圖像生成的 AI 模型擁有修圖能力,就需要在大量相應(yīng)的成對數(shù)據(jù)上訓練這個模型。因此,SeedEdit 采取的方式是從一個弱生成器(文本到圖像生成模型)開始,再在上述兩個方向之間創(chuàng)建多樣化的圖像對,以此來逐步訓練模型,最終獲得我們所需要的平衡。
下圖是 SeedEdit 的框架:首先將文本到圖像模型(T2I)視為弱編輯模型,再改造它生成的帶有提示的新圖像來實現(xiàn)「編輯」。隨后,把這個弱編輯模型反復進行蒸餾和對齊,以最大程度繼承再生成能力,同時提高生成后圖像的一致性。

最近一段時間,擴散模型生成的圖像雖然效果越來越好,但其內(nèi)容通常是不可控的。通過 SeedEdit,字節(jié)的研究人員嘗試在不引入新參數(shù)的情況下,將圖像生成的擴散模型轉(zhuǎn)化成了圖像編輯模型。
與此前一些 AI 圖像編輯的方法相比,SeedEdit 能夠?qū)崿F(xiàn)更豐富的效果和編輯能力,也可以實現(xiàn)圖片的連續(xù)編輯 —— 它讓擴散模型不再是完全隨機進行生成,而是可以像常規(guī)的工具一樣一步步來,做出你想要的效果。

使用 SeedEdit 進行一句話編輯的圖片。
把 SeedEdit 方法與幾種業(yè)內(nèi)先進的圖像編輯方法進行比較,總體而言,新的方法在兩個基準上都顯示出了明顯更高的分數(shù)。同時也可以觀察到 HQ-Edit 數(shù)據(jù)集中 CLIP 圖像有更高的相似性,這意味著原始圖像的內(nèi)容得到了更好的保留。

基準測試成績。
與一些開源方法比較,SeedEdit 的優(yōu)勢在于能夠理解人們提出的相對模糊的指令,并輸出較為細致準確的結(jié)果。

不同方法的輸出結(jié)果。
即使是和 DALL-E3、Midjourney 這樣已經(jīng)商用的先進圖像生成器(帶編輯功能)相比,SeedEdit 也可以相對更緊密地跟隨人們給出的指令。

DALL-E3、Midjourney、SeedEdit 之間,不同圖像生成工具的效果對比。
不得不說,字節(jié)提出的方法別具特色,相比業(yè)內(nèi)現(xiàn)有技術(shù)又向前跨出了一步。
豆包的生成式 AI 技術(shù),走在前面
看到這里,你可能突然意識到,AI 領(lǐng)域的風向正在發(fā)生轉(zhuǎn)變。
一直以來,很多關(guān)注 AI 繪畫的人總是在期盼著 DALL-E、Midjourney 等海外 AI 創(chuàng)業(yè)公司的技術(shù)更新。而隨著國內(nèi)的技術(shù)不斷迭代,我們已經(jīng)見證了一系列先進的生成式 AI 應(yīng)用在外網(wǎng)刷屏?;蛟S到了新技術(shù)落地的節(jié)點,我們目光更應(yīng)該向近處看。
其實仔細想來,作為全球短視頻領(lǐng)域的佼佼者,字節(jié)跳動在生成式 AI,特別是圖像生成領(lǐng)域上的優(yōu)勢可謂得天獨厚。
早在豆包大模型誕生前,字節(jié)就一直在關(guān)注 AI 圖像生成相關(guān)技術(shù),并持續(xù)增加研發(fā)投入。豆包大模型盡管入場時間不是最早,但憑借優(yōu)秀的效果和獨特的社交體驗迅速成為了國內(nèi)最熱門的大模型之一。到今年 9 月,豆包大模型日均生成圖片 5000 萬張。
能夠迅速做出生成式 AI 應(yīng)用爆款的字節(jié),其所做的努力并不只是在應(yīng)用層面上創(chuàng)新。字節(jié)大模型團隊最近的前沿研究,已經(jīng)在不斷挑戰(zhàn) AI 領(lǐng)域的技術(shù)難題。
在工程層面上,僅從今年下半年起,我們在社交網(wǎng)絡(luò)上就不時可以刷到字節(jié)的新成果,比如可以生成長篇漫畫、有劇情視頻的 StoryDiffusion:

視頻生成模型 PixelDance 和 Seaweed:

到上星期發(fā)布的,音頻加人臉視頻生成技術(shù) Loopy:

再就是今天 SeedEdit 所展示的,方便好用的圖片編輯能力。
在 AI 基礎(chǔ)研究層面,字節(jié)大模型團隊的工作也在不斷獲得認可。其提出的單目深度估計模型 Depth Anything V2 入選了蘋果的 CoreML 模型庫。該模型可應(yīng)用在自動駕駛、3D 建模、增強現(xiàn)實、安全監(jiān)控以及空間計算等領(lǐng)域。

上周,字節(jié)豆包大模型團隊公布的一項系統(tǒng)性研究,首次在業(yè)界通過大規(guī)模實驗深入探索了視頻生成模型能否真正理解物理規(guī)律,得到了謝賽寧、Gary Marcus,以及圖靈獎得主 Yann LeCun 等 AI 學者的轉(zhuǎn)發(fā)和點贊。

一篇篇論文、一個個項目的積累,不僅撐起了如今豆包大模型的熱度,也在悄然推動著學界的前沿探索。
SeedEdit 團隊表示,其實現(xiàn)階段模型在復雜內(nèi)容和精細控制層面上還有改進空間。下一步要提升的還有真實圖片風格保持、ID 一致性、編輯準確性、長時序內(nèi)容(如漫畫生成)等等方面。除此以外,SeedEdit 還將會開放多輪復雜編輯的功能。
期待 SeedEdit 和豆包團隊帶來新的驚喜。





























