谷歌大招網(wǎng)友玩瘋了!Gemini原生圖像輸出搶先推出,OpenAI一年領(lǐng)先優(yōu)勢(shì)歸零
谷歌推出Gemini原生圖像生成,測(cè)試版瞬間引爆網(wǎng)絡(luò)。
如果你遲到了,但沒(méi)有好的借口,甚至還沒(méi)有出家門(mén)——只需要一張自拍,然后讓AI把你P到地鐵故障現(xiàn)場(chǎng)。
圖片
也可以憑空生成一個(gè)人物形象,把它放到原神游戲畫(huà)面中(不用上傳游戲截圖),讓角色往前走兩步,再把視角往左移,走近一個(gè)建筑,開(kāi)始爬墻。
圖片
二次元選手最喜歡的玩法,是草稿一句話(huà)變線(xiàn)稿,再上色,再上陰影等操作,注意每一步執(zhí)行后人物形象都是保持一致的。
圖片
圖片
有漫畫(huà)創(chuàng)作者用它來(lái)改變構(gòu)圖視角,同時(shí)保持畫(huà)面內(nèi)容的一致性。
圖片
游戲開(kāi)發(fā)者則可以用一些素材組件自動(dòng)拼成關(guān)卡場(chǎng)景。
圖片
除了精準(zhǔn)遵循指令一鍵P圖之外,還支持圖文混排輸出。
谷歌官方演示了生成菜譜,每個(gè)操作步驟都配上寫(xiě)實(shí)的圖像,學(xué)起來(lái)更直觀。

現(xiàn)在,這些功能都可以在Google AI Studio免費(fèi)試玩。
模型命名很亂,請(qǐng)認(rèn)準(zhǔn)Gemini 2.0 Flash Experimental。
圖片
原生圖像輸出首次開(kāi)放
目前Gemini 2.0 Flash原生圖像輸出能力還沒(méi)有公開(kāi)技術(shù)細(xì)節(jié),簡(jiǎn)短的介紹中只講了“結(jié)合多模態(tài)輸入、增強(qiáng)推理和自然語(yǔ)言理解”。
而其他AI產(chǎn)品語(yǔ)言大多是語(yǔ)言模型把圖像生成模型當(dāng)做工具去調(diào)用,如ChatGPT調(diào)用Dall·E 3,Grok調(diào)用flux.1。
新范式下,Gemini 2.0 Flash的主要優(yōu)勢(shì)包括:
- 圖文故事模式:始終保持人物和場(chǎng)景的一致性。也可以中途提意見(jiàn),讓AI重新講述故事或改變繪畫(huà)風(fēng)格。
 - 對(duì)話(huà)式圖像編輯:支持多輪編輯,可以一句話(huà)p圖,反復(fù)完善圖像,實(shí)現(xiàn)實(shí)時(shí)協(xié)作和創(chuàng)意探索。
 - 基于世界知識(shí)的圖像生成:利用大模型內(nèi)置的知識(shí)和推理能力,生成與上下文更相關(guān)的圖像
 - 改進(jìn)文本渲染:減少拼寫(xiě)錯(cuò)誤或字符扭曲,適合生成廣告、甚至邀請(qǐng)函。
 
其實(shí)早在2024年5月,OpenAI總裁Brockman就曾展示過(guò)GPT-4o的這種原生多模態(tài)能力,但后來(lái)就沒(méi)了消息。
現(xiàn)在谷歌搶先部署這項(xiàng)功能,讓網(wǎng)友不禁好奇,出于什么原因讓OpenAI放棄一年以上的領(lǐng)先優(yōu)勢(shì)。
圖片
OpenAI員工也只能感嘆,谷歌真的回來(lái)了。
圖片
還有隱藏玩法
除常規(guī)玩法之外,還有網(wǎng)友探索出了一種隱藏玩法:用文字提問(wèn),要求AI只用圖片回答。
他的問(wèn)題是“生命的意義是什么”,AI用一系列圖片來(lái)表達(dá),畫(huà)面逐漸詭異起來(lái),令人毛骨悚然。
圖片
他把整個(gè)過(guò)程錄制成視頻,下面一起來(lái)看看。

在線(xiàn)試玩https://aistudio.google.com/
參考鏈接:
[1]https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
[2]https://x.com/goodside/status/1900349595718148455
[3]https://x.com/ilumine_ai/status/1900017235898622025
[4]https://x.com/nobisiro_2023/status/1900150873734733859















 
 
 



















 
 
 
 