偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

再也不怕面癱臉!YouTube黑科技:AI幫你「永久微笑」,連僵尸都咧嘴笑

人工智能 新聞
幾十G的大模型,怎么可能塞進(jìn)一臺(tái)手機(jī)?YouTube卻做到了:在 Shorts 相機(jī)里,AI能實(shí)時(shí)「重繪」你的臉,讓你一秒變身僵尸、卡通人物,甚至瞬間擁有水光肌,效果自然到分不清真假。

在youtube Shorts相機(jī)里,每個(gè)人都能「千變?nèi)f化」。

可以是卡通角色、萬(wàn)圣節(jié)僵尸,甚至能立刻擁有粉色水光肌,效果自然又流暢。

最神奇的是,這些特效是直接在手機(jī)上實(shí)時(shí)生成的。

那么問(wèn)題來(lái)了:YouTube是怎么把十幾個(gè)G的大模型,塞進(jìn)手機(jī)里的?

大模型塞進(jìn)手機(jī):YouTube的「瘦身術(shù)」

生成式AI模型的效果確實(shí)經(jīng)驗(yàn),但卻有個(gè)致命問(wèn)題:太大、太慢。

像StyleGAN、Imagen這類模型,只有在服務(wù)器上才能跑動(dòng)。

因此必須要解決的問(wèn)題,就是讓濾鏡在手機(jī)相機(jī)里即時(shí)生效。

瘦身關(guān)鍵:知識(shí)蒸餾

YouTube的思路,是把龐大的生成模型「瘦身」,變成一個(gè)專門為移動(dòng)端設(shè)計(jì)的小模型。

這個(gè)過(guò)程靠的是一套叫知識(shí)蒸餾的方法。

簡(jiǎn)單說(shuō),就是「老師–學(xué)生模式」。

大模型先當(dāng)老師,生成各種示范;小模型則是學(xué)生,一點(diǎn)點(diǎn)模仿,直到學(xué)會(huì)獨(dú)立完成任務(wù)。

老師是動(dòng)輒幾十G的龐然大物,學(xué)生則是輕巧的UNet+MobileNet架構(gòu),能在手機(jī)GPU上輕松跑到30幀。

不過(guò),真正的教學(xué)過(guò)程遠(yuǎn)比想象中復(fù)雜。

打磨細(xì)節(jié):迭代蒸餾

工程師們不是「一次教完」,而是采用迭代式蒸餾。

大模型不只是給學(xué)生出題,還會(huì)在過(guò)程中不斷測(cè)試:給人臉戴上眼鏡、加上遮擋,甚至模擬手擋臉的場(chǎng)景。

學(xué)生在學(xué)習(xí)時(shí),也不是簡(jiǎn)單照搬,而是要同時(shí)滿足多種標(biāo)準(zhǔn):畫(huà)面數(shù)值對(duì)得上、看上去相似、自然不突兀,還得兼顧美感。

整個(gè)過(guò)程就像是反復(fù)刷題:學(xué)生交卷,老師挑毛病,再調(diào)整參數(shù)繼續(xù)練。

YouTube 的蒸餾流程:大模型先生成前后對(duì)照的圖像對(duì),小模型在此基礎(chǔ)上不斷學(xué)習(xí),并通過(guò)超參數(shù)搜索迭代優(yōu)化,最終實(shí)現(xiàn)如「永不眨眼」這樣的實(shí)時(shí)特效。

工程師們甚至用上了神經(jīng)架構(gòu)搜索,自動(dòng)幫學(xué)生找到最合適的「學(xué)習(xí)內(nèi)容」,讓它既高效又穩(wěn)定。

經(jīng)過(guò)一輪輪打磨,小模型終于真正掌握了大模型的本事。

在Pixel 8 Pro上,只需6毫秒就能完成一幀運(yùn)算,iPhone 13大約10 毫秒,完全滿足實(shí)時(shí)30幀的要求。

怎么保證還是你:PTI做擔(dān)保

生成式AI在做特效時(shí)有個(gè)通?。核粫?huì)在原圖上疊加效果,而是會(huì)重新生成整張人臉。

結(jié)果往往是膚色變了,眼鏡沒(méi)了,甚至五官都會(huì)變形,看上去完全不像本人。

這就是「inversion problem」——當(dāng)模型把人臉轉(zhuǎn)到潛在空間時(shí),沒(méi)能忠實(shí)還原身份特征。

YouTube想到的解決方案是Pivotal Tuning Inversion (PTI)。

可以把它理解為:在加特效之前,先讓AI學(xué)會(huì)精準(zhǔn)地「認(rèn)清你是誰(shuí)」。

原始圖像會(huì)先被壓縮成一個(gè)潛在向量,生成器用它畫(huà)出一張初步的臉,但往往細(xì)節(jié)不到位。

于是工程師讓生成器反復(fù)微調(diào),讓膚色、眼鏡和五官逐漸被校正回來(lái)。

等身份被牢牢固定之后,再往里面加風(fēng)格向量:比如笑容、卡通效果或者妝容。

最后生成的畫(huà)面,看上去就是「還是你,只是換了個(gè)風(fēng)格」。

圖:PTI的完整流程:從輸入人臉,到生成初始inversion,再經(jīng)過(guò)多輪微調(diào),最后在保留身份特征的前提下疊加特效,得到最終圖像。

換句話說(shuō),PTI保證了這些AI特效更像化妝,而不是換臉。

手機(jī)里的流水線工廠:MediaPipe加速管道

訓(xùn)練出輕量級(jí)的小模型只是第一步,真正的挑戰(zhàn)是如何穩(wěn)定地在手機(jī)上運(yùn)行。

為此,YouTube選擇了MediaPipe——Google AI Edge的開(kāi)源多模態(tài)ML框架,用它來(lái)搭建端側(cè)的完整推理管道。

整個(gè)流程可以分成四步:

首先,通過(guò)MediaPipe的Face Mesh模塊,識(shí)別出視頻流中的一個(gè)或多個(gè)人臉。

接著,由于學(xué)生模型對(duì)人臉位置很敏感,系統(tǒng)會(huì)把檢測(cè)到的臉進(jìn)行穩(wěn)定裁剪和旋轉(zhuǎn)對(duì)齊,保證輸入一致。

之后,裁剪后的圖像被轉(zhuǎn)成張量輸入學(xué)生模型,特效(比如微笑、卡通風(fēng)格)在這一環(huán)節(jié)實(shí)時(shí)生成。

最后,模型輸出的人臉圖像再被無(wú)縫拼回到原始視頻幀中,讓用戶看到連貫自然的最終畫(huà)面。

圖:MediaPipe在端側(cè)的完整推理流程:先檢測(cè)人臉并穩(wěn)定對(duì)齊,再送入學(xué)生模型生成特效,最后拼回視頻幀,整個(gè)過(guò)程在毫秒級(jí)內(nèi)完成。

通過(guò)GPU加速,Pixel 8 Pro上的推理延遲被壓縮到約6毫秒/幀,iPhone 13 GPU約10.6毫秒/幀。

對(duì)用戶來(lái)說(shuō),就是打開(kāi)相機(jī)就能體驗(yàn)到順滑的AI特效。

不只是美顏:YouTube的實(shí)時(shí)AI秀場(chǎng)

這套技術(shù)已經(jīng)在YouTube Shorts上全面鋪開(kāi),創(chuàng)作者們能直接用上幾十種實(shí)時(shí)特效。

想要時(shí)刻掛著微笑?用Always Smile,哪怕你本人此刻面無(wú)表情,鏡頭里也會(huì)立刻咧嘴笑開(kāi)。

想玩點(diǎn)驚悚?萬(wàn)圣節(jié)專屬的Risen Zombie,分分鐘把你變成剛爬出來(lái)的喪尸。

這些濾鏡已經(jīng)讓Shorts里的創(chuàng)作方式發(fā)生了質(zhì)變:不是貼圖,而是AI量身繪制。

但這只是開(kāi)始。

YouTube正在測(cè)試用Veo模型,可以把一張靜態(tài)圖片生成完整的視頻片段。

用戶只需要一張自拍或者一幅手繪,就能在手機(jī)上變成一段動(dòng)態(tài)短片。

這意味著,未來(lái)的YouTube Shorts不只是拍視頻加濾鏡,而是隨手一張圖,就能生成一條視頻。

創(chuàng)作者的門檻會(huì)進(jìn)一步降低,AI會(huì)更深地嵌入每個(gè)人的創(chuàng)作過(guò)程。

從實(shí)時(shí)濾鏡到一鍵生成短片,YouTube正把AI變成創(chuàng)作者的隨身畫(huà)筆。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-04-25 10:00:00

2018-05-18 14:39:46

華為 華為云

2020-05-07 09:05:22

電腦Python代碼

2022-04-14 10:22:30

NginxLinux

2014-07-18 15:54:04

goTenna:隨身無(wú)

2021-08-12 11:05:07

C++語(yǔ)言內(nèi)存泄露

2020-04-20 15:00:22

DevOps工具代碼

2021-05-08 07:53:33

面試線程池系統(tǒng)

2021-03-19 09:55:15

Linuxshell命令

2022-04-01 07:52:42

JavaScript防抖節(jié)流

2020-05-07 16:08:28

Linuxshell命令

2025-07-18 09:50:33

2021-08-02 10:14:52

AI數(shù)據(jù)人工智能

2019-02-14 10:13:42

網(wǎng)絡(luò)故障RIPIGRP

2020-04-30 10:24:35

Spring循環(huán)依賴Java

2020-05-19 17:03:39

QQ騰訊更新

2023-02-28 17:27:02

分庫(kù)分表中間件

2023-11-28 17:49:51

watch?computed?性能

2024-12-04 06:00:00

C#深拷貝
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)