偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

小紅書(shū)開(kāi)源「InstantID」效果炸裂,被Yann LeCun點(diǎn)贊,迅速躥上Github熱榜

人工智能 新聞
只需一張照片,整個(gè)過(guò)程無(wú)需訓(xùn)練 LoRA 模型,多風(fēng)格 AI 寫真即刻呈現(xiàn)!

最近,有一群來(lái)自小紅書(shū)的 95 后神秘團(tuán)隊(duì),自稱 InstantX,搞了個(gè)大動(dòng)作 —— 開(kāi)源「InstantID」項(xiàng)目。

InstantID 憑借著高質(zhì)量的圖像生成能力,在開(kāi)源界掀起了一股熱潮:不僅獲得了眾多技術(shù)大佬的點(diǎn)贊,更是在 GitHub 熱榜上迅速飆升,成為焦點(diǎn)。

這個(gè)「出片神器」,讓用戶只需上傳一張照片,就能輕松定制出多種風(fēng)格的 AI 寫真。

對(duì),你沒(méi)看錯(cuò)。如圖左側(cè)所示,與之前爆火的妙鴨相機(jī)至少需要上傳 20 張照片不同的是,InstantID 只需一張自拍,不依賴模型訓(xùn)練,不需要等待,瞬間變身。

無(wú)論是古典油畫的優(yōu)雅,炫酷的賽博朋克,或是 3D 雕像的立體感,只要是你喜歡的風(fēng)格,InstantID 都能輕松駕馭。

它不僅風(fēng)格多樣,還能在保持人物面部高保真的同時(shí),無(wú)需模型訓(xùn)練,實(shí)現(xiàn)秒級(jí)出圖,效率大幅提升。

InstantID 目前位列 Hugging Face Space Trending 榜首,許多小伙伴玩得不亦樂(lè)乎~

比如,把馬斯克送上了火星。

讓蒙娜麗莎拍「櫻花寫真」,微笑依舊很神秘。

圖片

甚至可以讓語(yǔ)文課本中的杜甫從二維變?nèi)S,穿越到現(xiàn)代變身「帥大叔」。

圖片

圖靈獎(jiǎng)得主 Yann LeCun,化身多種動(dòng)漫人物,你猜出了幾個(gè)角色?

圖片

就連 Yann LeCun 本人也點(diǎn)贊轉(zhuǎn)發(fā),調(diào)侃自己的「鋼鐵俠」衣服在哪里。

圖片

在個(gè)性化圖像合成領(lǐng)域,實(shí)現(xiàn)強(qiáng)烈風(fēng)格化寫真的同時(shí)保持面部高保真度,一直是個(gè)挑戰(zhàn)。

從效果上看,InstantID 做到了。那它背后運(yùn)用了哪些方法,有什么獨(dú)到之處嗎?

圖片

回顧過(guò)去,盡管 Textual Inversion、 DreamBooth 和 LoRAs 等技術(shù)已經(jīng)取得了重大進(jìn)展。但它們?cè)趯?shí)際應(yīng)用中仍受限于高存儲(chǔ)需求、耗時(shí)的微調(diào)過(guò)程以及對(duì)多張參考圖像的依賴。相比之下,現(xiàn)有基于 ID 嵌入的方法雖然只需一次前向推理,但也面臨不小挑戰(zhàn):要么需要對(duì)大量模型參數(shù)進(jìn)行廣泛的微調(diào),要么與社區(qū)預(yù)訓(xùn)練模型不兼容,要么無(wú)法保持高真實(shí)性。

InstantID 的出現(xiàn),打破了這些局限。小紅書(shū) InstantX 團(tuán)隊(duì)公開(kāi)了論文《 InstantID: Zero-shot Identity-Preserving Generation in Seconds 》和推理代碼,他們表示:InstantID 巧妙地避免了對(duì)文生圖模型 UNet 部分的訓(xùn)練,僅通過(guò)訓(xùn)練一個(gè)輕量級(jí)的可插拔模塊,實(shí)現(xiàn)了在推理過(guò)程中無(wú)需 test-time tuning,同時(shí)保持了文本控制的靈活性,確保了面部特征的高保真度。

圖片

如圖所示,InstantID 的工作原理可分為三個(gè)關(guān)鍵部分:

  • ID Embedding:團(tuán)隊(duì)利用預(yù)訓(xùn)練的面部識(shí)別模型代替 CLIP 來(lái)提取語(yǔ)義人臉特征,并使用可訓(xùn)練的投影層,將這些特征映射到文本特征空間,形成 Face Embedding,具有豐富的語(yǔ)義信息,包括如面部特征、表情、年齡等,為后續(xù)的圖像生成提供了堅(jiān)實(shí)的基礎(chǔ)。
  • Image Adapter:引入一個(gè)輕量級(jí)的適配模塊,將提取的身份信息與文本提示結(jié)合起來(lái)。這個(gè)模塊通過(guò)解耦的交叉注意力機(jī)制,使得圖像和文本能夠獨(dú)立地影響生成過(guò)程,從而在保持身份信息的同時(shí),允許用戶對(duì)圖像風(fēng)格進(jìn)行精細(xì)控制,實(shí)現(xiàn)「雙贏」。
  • IdentityNet:小紅書(shū)提出了一個(gè)名為 IdentityNet 的網(wǎng)絡(luò),是 InstantID 的核心部分。它通過(guò)強(qiáng)語(yǔ)義條件(如面部特征的詳細(xì)描述)和弱空間條件(如面部關(guān)鍵點(diǎn)的位置)來(lái)編碼參考面部圖像的復(fù)雜特征。在 IdentityNet 中,生成過(guò)程完全由 Face Embedding 引導(dǎo),無(wú)需任何文本信息。僅更新新添加的模塊,而預(yù)先訓(xùn)練的文本到圖像模型保持凍結(jié)以確保靈活性。

在實(shí)際的圖像生成過(guò)程中,InstantID 首先會(huì)接收到用戶的文本提示和面部圖像。然后通過(guò) ID Embedding 提取關(guān)鍵信息,接著 Image Adapter 將這些信息與文本提示融合。IdentityNet 會(huì)根據(jù)這些融合后的信息生成圖像。

整個(gè)過(guò)程是自動(dòng)化的,用戶不需要進(jìn)行任何額外的微調(diào)或訓(xùn)練,只需等待二十幾秒,就能得到一個(gè)既符合文本描述又保留個(gè)人身份特征的定制圖像。

圖片

InstantID 不僅解決了訓(xùn)練效率與身份保真度之間的平衡問(wèn)題,還提供了一系列令人印象深刻的特性。

首先,InstantID 的即插即用和兼容性是其最大的賣點(diǎn)之一。它無(wú)需對(duì) UNet 進(jìn)行額外訓(xùn)練,即可與現(xiàn)有的預(yù)訓(xùn)練模型無(wú)縫集成,如社區(qū)內(nèi)的文生圖基礎(chǔ)模型、LoRAs 和 ControlNets。這意味著用戶可以在不增加成本的情況下,輕松地在推理過(guò)程中保持人物的身份特征,裂變性強(qiáng)。

圖片

其次,InstantID 的無(wú)需微調(diào)特性,使得它在實(shí)際應(yīng)用中極具經(jīng)濟(jì)性和實(shí)用性。用戶只需進(jìn)行一次前向傳播,即可快速生成圖像,同時(shí)保持對(duì)文本編輯的強(qiáng)大控制力,讓身份信息與各種風(fēng)格完美融合。如下圖所示,其編輯性強(qiáng)的特點(diǎn)讓用戶能夠通過(guò)文本控制性別、頭發(fā)、服裝等細(xì)節(jié),確保生成圖像的多樣性。

圖片

性能方面的表現(xiàn)同樣卓越,它能夠僅憑一張參考圖像,就生成具有高保真度和靈活性的先進(jìn)結(jié)果。這一性能不僅超越了基于單張圖片特征的嵌入方法,如 IP-Adapter-FaceID,而且在特定場(chǎng)景下,其效果與 ROOP、LoRAs 等方法不相上下。

圖片

對(duì)于相似度有更高要求的真人寫真場(chǎng)景,InstantID 也能完成得不錯(cuò)。不僅能夠在秒級(jí)時(shí)間內(nèi)完成高質(zhì)量的圖像生成,還避免耗時(shí)的 LoRa 訓(xùn)練,相比妙鴨成本更低,大約是其 1/300。通過(guò)精細(xì)化控制臉部區(qū)域,InstantID 能夠增強(qiáng)臉部相似度,同時(shí)保持整體風(fēng)格的和諧。

圖片

此外,InstantID 的分區(qū)域生成方案支持多人多風(fēng)格的圖像生成,耗時(shí)基本無(wú)增。

圖片

它的魯棒性和泛化性,使其能順利處理夸張的五官比例。

圖片

多視角的生成也沒(méi)問(wèn)題。按你指定的姿勢(shì)圖和面部特征,生成新的 AI 寫真。

圖片

InstantID 的可擴(kuò)展性良好,能夠快速支持多種衍生功能。

比如快速換臉。與 Inswapper 相比,InstantID 生成的作品在面孔和背景的融合上更加靈活。

圖片

ID 信息插值。InstantID 支持兩臉自定義融合,保留雙方特征。

圖片

非人像與 ID 的結(jié)合,很有特點(diǎn)。

圖片

聊到這兒,不妨你親自嘗試一下,感受它的魅力。

操作方式非常簡(jiǎn)單,進(jìn)入 InstantID 的 Demo 頁(yè)面,直接上傳照片,便可免費(fèi)體驗(yàn) :

https://huggingface.co/spaces/InstantX/InstantID

圖片

InstantID 的這些優(yōu)勢(shì),不僅為個(gè)人用戶提供了強(qiáng)大的創(chuàng)作工具,也為商業(yè)應(yīng)用如電子商務(wù)、廣告和娛樂(lè)產(chǎn)業(yè)開(kāi)辟了新的可能性。InstantID 本次表現(xiàn)令人驚喜,其高效、靈活、強(qiáng)大的性能和易用性,印象深刻。期待小紅書(shū)該開(kāi)源項(xiàng)目的后續(xù)進(jìn)展,未來(lái)能在多個(gè)領(lǐng)域發(fā)揮出更大的價(jià)值。

附錄:

  • 論文地址:https://arxiv.org/abs/2401.07519
  • InstantID 主頁(yè):https://instantid.github.io/
  • Demo 嘗鮮:https://huggingface.co/spaces/InstantX/InstantID
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2019-11-18 09:44:51

GitHub代碼開(kāi)發(fā)者

2023-10-10 07:19:07

Github開(kāi)源庫(kù)系統(tǒng)

2019-12-26 15:31:17

騰訊框架開(kāi)源

2023-06-20 08:28:17

2015-07-17 10:41:59

點(diǎn)贊按鈕

2023-04-19 08:14:24

2020-03-06 15:25:23

網(wǎng)絡(luò)神經(jīng)人工智能數(shù)據(jù)

2018-10-18 10:57:47

區(qū)塊鏈數(shù)字貨幣

2025-02-10 08:30:00

2019-12-04 15:00:04

GitHub 技術(shù)開(kāi)源

2021-08-10 15:37:34

鴻蒙HarmonyOS應(yīng)用

2021-01-13 14:42:36

GitHub代碼Java

2023-10-05 08:52:53

2021-04-20 12:45:36

谷歌開(kāi)源數(shù)據(jù)庫(kù)Github

2022-10-19 12:12:20

電商小紅書(shū)

2021-12-04 14:54:40

Java開(kāi)源項(xiàng)目開(kāi)發(fā)

2021-07-05 05:26:09

Java開(kāi)源Github

2022-09-28 08:23:56

AI人工智能工具

2020-12-07 16:14:40

GitHub 技術(shù)開(kāi)源

2021-05-01 20:43:39

開(kāi)源項(xiàng)目開(kāi)源GitHub
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)