偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨 精華

發(fā)布于 2025-3-26 10:54
瀏覽
0收藏

今天凌晨2點,OpenAI進(jìn)行了技術(shù)直播,對GPT-4o和Sora進(jìn)行了重大更新,提供了全新文生圖模型。


除了文生圖之外,該模型還支持自定義操作、連續(xù)發(fā)問、風(fēng)格轉(zhuǎn)換、圖像PPT等超實用功能,例如,更改圖片的寬高比、圖像物體中的角度,用十六進(jìn)制代碼指定精確顏色等。


尤其是生成圖像的逼真度,肉眼幾乎看不出任何破綻,在精細(xì)度、細(xì)節(jié)和文本遵循方面非常出色,可以媲美甚至在某些功能超過該領(lǐng)域的頭部平臺Midjourney。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

新圖像模型功能展示

話不多說,「AIGC開放社區(qū)」就用免費版為大家展示一下實際的生成案例。


我們先測試一下模型的文本還原和細(xì)節(jié)表現(xiàn),來個復(fù)雜點的提示詞。


提示詞:一個由甜品組成的奇幻世界,地面是柔軟的奶油草坪,樹木是用巧克力棒和糖果制作的,樹葉是五彩繽紛的果凍。天空中漂浮著巨大的棉花糖云,遠(yuǎn)處有一個冰淇淋火山正在噴涌彩色的糖漿。


場景中還有一座用蛋糕堆砌的小屋,屋頂是草莓醬,窗戶是糖玻璃,細(xì)節(jié)包括散落的糖粒、路上的巧克力碎片,以及跳躍的小糖果精靈。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

構(gòu)圖、文本還原能力非常棒!一次就完成,生成時間大約在15秒左右。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

再試一下它的新功能,其實OpenAI官方說這是一個“世界知識”功能,但是使用之后感覺更像是一個圖像PPT功能,對于教育、金融、醫(yī)療等領(lǐng)域幫助非常大。


例如,幫我用圖像介紹牛頓第一定律。就能直接生成詳細(xì)介紹牛頓定律的圖像,感覺和PPT差不多吧。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

提示詞:用一張圖片介紹人體各個結(jié)構(gòu)。


這個人體介紹圖片就豐滿很多,放在醫(yī)療介紹或PPT里應(yīng)該不錯吧。以后做各種宣傳資料不愁找不到量身定制的圖片了。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

如果不滿意,可以基于該圖片繼續(xù)發(fā)問,例如,我們想看上面人體介紹的骨骼。提示詞:可以詳細(xì)展示骨骼介紹嗎?

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

我們放大手部骨骼,繼續(xù)提問:來一張手部骨骼的特寫。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

需要注意的是,圖像的文字介紹可能比較模糊或混亂,這是因為中文提示的原因,如果使用英文會好很多。

那我們就用英文提示詞來試一下,In a study filled with a retro atmosphere, on the corkboard beside the wooden desk, magnetic word - spelling cards fixed with colorful pushpins form a unique poem:

Line 1: "A melody"

Line 2: "Can wake up"

Line 3: "The slumbering memories,"

Line 4: "However, occasionally" (There is a large gap here)

Line 5: "On a silent night"

Line 6: "Will deepen"

Line 7: "That longing."

文字的嵌入和排列順序還是相當(dāng)不錯的。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

這個提示詞的大意是,在一間充滿復(fù)古氛圍的書房里,木質(zhì)書桌旁的軟木板上,掛著用彩色圖釘固定的磁性拼詞卡片,組成一首獨特的詩:第一行:“一段旋律” 第二行:“能喚醒” 第三行:“沉睡的記憶,” 第四行:“然而偶爾” (此處有較大間隔)第五行:“在寂靜的夜晚” 第六行:“會加深” 第七行:“那份思念。”

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

上面只是一些非常簡單、基礎(chǔ)的玩法,有興趣小伙伴可以體驗一下非常棒。


對于新的文生圖模型,OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Sam Altman也給出了非常高的評價。


這是一項令人難以置信的產(chǎn)品。我還記得看到這個模型最初生成的一些圖像時,很難相信它們真的是由人工智能創(chuàng)作的。我們認(rèn)為大家會喜歡它,并且很期待看到由此激發(fā)的創(chuàng)造力。


這代表著我們在給予創(chuàng)作自由方面達(dá)到了一個新的高度。人們將會創(chuàng)作出一些非常了不起的作品,也會有一些可能冒犯他人的內(nèi)容;我們的目標(biāo)是,除非用戶有此需求,否則該工具不會生成冒犯性內(nèi)容,即便有此需求,生成的內(nèi)容也需在合理范圍內(nèi)。


正如我們在模型規(guī)格說明中提到的,我們認(rèn)為將這種知識創(chuàng)作自由和控制權(quán)交到用戶手中是正確的做法,但我們也會觀察其發(fā)展情況并傾聽社會的聲音。


我們認(rèn)為,尊重社會最終為人工智能設(shè)定的廣泛界限是正確的做法,而且隨著我們離通用人工智能越來越近,這一點也變得越來越重要。在此過程中,感謝大家的理解。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

新圖像模型簡單介紹

根據(jù)直播介紹,非自回歸生成是OpenAI新圖像模型的核心之一,是提升圖片質(zhì)量、生成效率的關(guān)鍵技術(shù)。


傳統(tǒng)的圖像生成方法,尤其是基于自回歸模型的技術(shù),通常是通過逐步生成圖像的每個像素或部分來構(gòu)建最終的圖像。這種方法雖然在某些情況下能夠生成高質(zhì)量的圖像,但其生成過程往往較為緩慢,并且容易在生成過程中出現(xiàn)累積錯誤,導(dǎo)致最終圖像的質(zhì)量下降。

此外,自回歸生成方法在處理復(fù)雜的圖像結(jié)構(gòu)時也存在一定局限性,因為它們需要在每一步生成過程中都依賴于之前生成的內(nèi)容,這使得模型難以全局性地理解和優(yōu)化圖像的整體結(jié)構(gòu)。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)


相比之下,非自回歸生成模塊采用了一種全新的思路。不再依賴于逐像素的生成過程,而是直接生成整個圖像。這一過程的關(guān)鍵在于模型能夠一次性地理解和處理圖像的整體結(jié)構(gòu)和細(xì)節(jié)。非自回歸生成模塊通過一種特殊的編碼器-解碼器架構(gòu)來實現(xiàn)這一目標(biāo)。


編碼器負(fù)責(zé)將輸入的文本描述或其他模態(tài)信息轉(zhuǎn)化為一種中間表示,包含了生成圖像所需的所有關(guān)鍵信息。然后,解碼器利用這種中間表示直接生成完整的圖像,而無需逐像素地構(gòu)建圖像。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

這種直接生成完整圖像的方式帶來了很多優(yōu)勢。首先,非自回歸生成模塊的生成速度遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)的自回歸方法。由于無需逐像素生成,模型能夠在短時間內(nèi)生成高質(zhì)量的圖像,這對于實時應(yīng)用和大規(guī)模圖像生成任務(wù)具有重要意義。例如,在需要快速生成大量圖像的設(shè)計場景或教育場景中,非自回歸生成模塊能夠顯著提高工作效率。


此外,非自回歸生成模塊在生成圖像的質(zhì)量上也表現(xiàn)出色。由于模型能夠一次性地理解和處理圖像的整體結(jié)構(gòu),生成的圖像在細(xì)節(jié)和一致性方面都得到了顯著提升。


例如,在生成復(fù)雜場景的圖像時,非自回歸生成模塊能夠更好地處理圖像中的多個對象及其相互關(guān)系,生成的圖像更加自然和逼真。此外,非自回歸生成模塊還能夠更好地處理文本指令中的復(fù)雜語義信息,生成與文本描述高度一致的圖像。

剛剛,OpenAI發(fā)布新文生圖模型,免費、逼真到難以分辨-AI.x社區(qū)

非自回歸生成模塊的另一個重要特點是其在多模態(tài)融合中的應(yīng)用。在ChatGPT 4.0模型中,非自回歸生成模塊不僅能夠根據(jù)文本描述生成圖像,還能夠結(jié)合其他模態(tài)的信息,如音頻或已有的圖像,生成更加豐富和多樣化的圖像內(nèi)容。


這種多模態(tài)融合的能力使得模型能夠更好地理解和滿足用戶的需求。例如,用戶可以提供一段音頻描述和一張參考圖像,非自回歸生成模塊能夠結(jié)合這些信息生成一張符合音頻描述且風(fēng)格與參考圖像一致的新圖像。


從今天開始,新的文生圖模型在ChatGPT和Sora中開始向所有Plus、Pro、Team和免費用戶推出。面向企業(yè)版、教育版和API即將到來。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/4Udogb78laXq1NI7C1XgAA??

標(biāo)簽
已于2025-3-26 12:02:26修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦