ControlNet作者新項(xiàng)目爆火:僅一張圖生成25秒繪畫全過(guò)程!不到一天GitHub攬星600+
ControlNet作者張呂敏(Lvmin Zhang)又又又發(fā)新作了!
輸入任意一張圖,分分鐘就能“拆解”成一個(gè)25秒的圖像繪制過(guò)程視頻:
從線稿到填色還有局部細(xì)節(jié)調(diào)整,全都有的那種:
而且不止動(dòng)漫風(fēng),各種風(fēng)格都能駕馭:
這個(gè)項(xiàng)目名為Paints-Undo,發(fā)布不到24小時(shí),GitHub上已攬星600+:
網(wǎng)友們針對(duì)它的討論也經(jīng)歷了一輪又一輪,不少人紛紛表示“這個(gè)是真牛P”。
……甚至因?yàn)樾Ч?,遭到網(wǎng)友吐槽:
手繪偽造成本又低了。
還有不少網(wǎng)友已經(jīng)玩上了:
Ctrl+ZZZZZZZ
據(jù)GitHub主頁(yè)上的介紹,Paints-Undo的命名有“其繪制過(guò)程就像是在繪畫軟件中多次按下撤消(Undo)按鈕”之意。
該項(xiàng)目包含一系列模型,展示了各種人類繪畫行為,比如素描、勾線、上色、陰影、變形、左右翻轉(zhuǎn)、調(diào)整色彩曲線、改變圖層透明度,甚至在繪畫過(guò)程中改變整體想法等等。
目前發(fā)布了兩個(gè)型號(hào):paints_undo_single_frame和paints_undo_multi_frame。
paints_undo_single_frame為單幀模型,基于SD1.5架構(gòu)進(jìn)行了改進(jìn),輸入為一張圖和一個(gè)operation step,并輸出一張圖。
operation step相當(dāng)于Ctrl+Z(撤銷)多少次,比如operation step為100,就相當(dāng)于會(huì)得到一張Ctrl+Z 100次的效果圖。
paints_undo_multi_frame是多幀模型,基于VideoCrafter打造,但沒(méi)有使用原始Crafter的lvdm,所有的訓(xùn)練/推理代碼都是從頭開(kāi)始完全實(shí)現(xiàn)。
經(jīng)過(guò)訓(xùn)練后,多幀模型整體架構(gòu)類似于Crafter,包含5個(gè)組成部分:3D-UNet、VAE、CLIP、CLIP-Vision、Image Projection。
多幀模型輸入為兩張圖片,輸出是這兩張圖片之間的16幀中間幀,其結(jié)果比單幀模型更加一致,但也更慢,創(chuàng)造性較低。
代碼庫(kù)默認(rèn)方法是將兩個(gè)模型一起使用:
首先使用單幀模型獲取5-7個(gè)“關(guān)鍵幀”,然后使用多幀模型來(lái)“插值”這些關(guān)鍵幀,最終生成一個(gè)相對(duì)較長(zhǎng)的視頻。理論上甚至可以生成無(wú)限長(zhǎng)的視頻,但在開(kāi)發(fā)測(cè)試中幀數(shù)為100-500時(shí),結(jié)果較好。
可以通過(guò)以下方式在本地部署:
介紹中還提到,項(xiàng)目測(cè)試是在24GB顯存的Nvidia 4090和3090TI上進(jìn)行。理論上說(shuō),16GB的顯存應(yīng)該也夠用,但8GB就不行了,最少需要大概10到12.5GB的顯存。
根據(jù)不同配置,處理一張圖大約需要5-10分鐘。
生成視頻時(shí)長(zhǎng)25秒,幀率為4FPS,分辨率可能是320x512、512x320、384x448或448x384。
更多玩法展示
除了直接生成25秒的從線稿到上色的視頻,還有其它玩法。
比如輸入線稿,也能生成線稿繪制過(guò)程:
單輸入多輸出也可以:
或者還可以從一張圖提取出不同精細(xì)程度的線稿:
插入一張線稿,直接在此線稿基礎(chǔ)上填色也行:
感興趣的家人們可以親自動(dòng)手試試~
GitHub鏈接:https://github.com/lllyasviel/Paints-UNDO