Google Imagen 3 ——它會是最強的 AI 圖像生成模型嗎?
在 Google I/O 2024 宣布 5 個月后,Google 迄今為止功能最強的 AI 圖像生成器 Imagen 3,終于在 Gemini 平臺上與大家見面。
“Imagen 3 是我們質(zhì)量最高的文本生成圖像模型,能生成更細致的細節(jié)、更豐富的光影效果,并顯著減少雜亂偽影?!?nbsp;——Google
這次更新最重要的改進之一,是模型對提示詞(Prompt)的理解能力更強。不僅能處理更長、更復雜的描述,還能呈現(xiàn)多樣化風格,并捕捉更多細微細節(jié)。
什么是 Imagen 3?
Imagen 3 是 Google 最新、最高質(zhì)量的文本生成圖像模型,它具備:
- 更精細的細節(jié):輸出中光影層次更豐富,干擾偽影更少
- 自然語言支持:對日常語言描述的場景,更易生成符合預期的圖像
- 多種風格:從超寫實風光到油畫、黏土動畫等多種視覺效果
- 更好的文本渲染:在圖像中生成文字時,不再像其他模型那樣容易出錯
Google 一向重視安全性。Imagen 3 在數(shù)據(jù)與模型開發(fā)過程中,采用了嚴格的篩選與標注來減少有害內(nèi)容,同時也能降低不當輸出的風險。
如何體驗 Imagen 3
可以通過 Google 的 Gemini 聊天機器人來試用,登錄后輸入你想生成的描述即可。
注意:要選擇 “Gemini Advanced” 作為語言模型。如果看不到該選項,說明需要升級至付費賬號。
image.png
例子
Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow
提示詞:
三位女性并肩而立,笑容滿面。其中一人略微虛化在前景,身后夕陽西下,鏡頭出現(xiàn)鏡頭光暈,色調(diào)溫暖
image.png
生成的圖像非常逼真。鏡頭光暈、環(huán)境光線都能準確呈現(xiàn),人物神態(tài)也很自然。
下載:模型默認顯示的預覽圖是 512×512,右上角可點擊“Download full size”下載 2048×2048 的完整版(JFIF 格式)。
image.png
如果結(jié)果與你想要的效果不符,可以在提示詞中添加更多細節(jié)。描述越具體,Imagen 3 才能更好契合你的期望。
一些示例
1. 生成編織玩偶
Prompt: Elephant amigurumi walking in savanna, a professional photograph, blurry background
提示詞:
大象毛線玩偶漫步在稀樹草原的照片,背景模糊
image.png
Imagen 3 呈現(xiàn)了非常細膩的針織紋理,背景虛化效果也很接近專業(yè)攝影的水準。
2. 生成文字
Prompt: Word “l(fā)ight” made from various colorful feathers, black background
提示詞:
在黑色背景上,用各色羽毛拼成單詞 “l(fā)ight”文字渲染一直是許多生成模型的短板,但 Imagen 3 在該示例中文字非常清晰,羽毛細節(jié)也沒被扭曲。
image.png
3. 更長的文字
Prompt: Word “Google’s Imagen 3 is amazing!” made from various colorful stones, background are gray stones
提示詞:
用彩色石頭拼寫 “Google’s Imagen 3 is amazing!” ,背景是灰色石頭
圖片
雖然需求更復雜,模型仍然清晰呈現(xiàn)整句英文,不同顏色的石頭字母與灰色背景區(qū)分明顯。
現(xiàn)存局限:缺少圖像編輯能力
在 Gemini 上使用 Imagen 3 時,目前不能自由調(diào)節(jié)分辨率或畫幅比例,也不支持風格化濾鏡、局部修補(inpainting/outpainting)等功能。所有圖都是 1:1 方形。如果你更需要精細調(diào)整,Midjourney 或 Flux Labs 等平臺可能更靈活。
與 Midjourney、Flux 等對比
很多人關(guān)心 Imagen 3 與其他熱門模型(如 Midjourney、Dall·E 3、Flux)誰更勝一籌。從測試來看,圖像質(zhì)量和對提示詞的匹配度都很高,很難說誰是絕對贏家。
Prompt: photo of a smiling energetic positive mood woman laying in the sofa and reading book, realistic, photo made on iphone 11
提示:一位面帶微笑、精力充沛、心情積極向上的女士躺在沙發(fā)上看書的照片,寫實,照片由 iPhone 11 制作
圖片
Prompt: in the style of Anthony Burrill, party, portrait of british shorthair blowing bubble gum, white background
提示:安東尼-伯里爾風格,派對,吹泡泡糖的英國短毛貓肖像,白色背景
圖片
Prompt: Polaroid photo with VSCO filter, 1990, gorgeous woman, night, flash photo, blonde, cute, young face, beautiful shadows, tropical plants, urban clothing, inside an apartment, DSLR, holding a sign written in ballpoint pen on a notebook saying “Imagen 3”
提示:帶有 VSCO 濾鏡的寶麗來照片,1990 年,美女,夜晚,閃光燈照片,金發(fā),可愛,年輕的臉,美麗的陰影,熱帶植物,城市服裝,公寓內(nèi),單反相機,拿著一個用圓珠筆寫在筆記本上的牌子,上面寫著 "Imagen 3"。
圖片
總結(jié)
雖然外界對 Imagen 3 抱有極高期待,但實際使用下來,既有驚艷的地方,也有些遺憾。Google 將它集成在 Gemini 等平臺,但還沒有一個專門的網(wǎng)站供大家深度使用或測試,這在某種程度上限制了它的普及度和可控度。
但從圖像質(zhì)量上看,Imagen 3 對細節(jié)與文字渲染的能力確實有長足進步。未來若能開放更多編輯功能(如不同分辨率、風格轉(zhuǎn)換、inpainting 等),它或許能在 AI 繪圖界占據(jù)更顯著位置。
對于開發(fā)者,目前僅在早期訪問階段,可以通過 Vertex AI 或 Test Kitchen 試用,也可跟著官方指引使用 Python 調(diào)用 API 生成圖像。
Imagen 3 能否稱得上“最強”?
就圖像質(zhì)量和自然語言理解而言,它確實走在前列。然而,功能限制和可用性方面還留有遺憾,還不足以全面超越所有對手。隨著后續(xù)版本和更多功能開放,或許 Imagen 能更上一層樓,屆時我們再來評判也不遲。




































