偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何做到在手機上實時跑3D真人數(shù)字人?MNN-TaoAvatar開源了!

人工智能 新聞
本文將為您揭秘 TaoAvatar 背后的黑科技!同時在今天,我們正式宣布開源了 3D 真人數(shù)字人應(yīng)用:MNN-TaoAvatar!目前應(yīng)用源碼已同步發(fā)布在 MNN 的 GitHub 倉庫,開發(fā)者可自行下載安裝和體驗。

TaoAvatar 是由阿里巴巴淘寶 Meta 技術(shù)團隊研發(fā)的 3D 真人數(shù)字人技術(shù),這一技術(shù)能在手機或 XR 設(shè)備上實現(xiàn) 3D 數(shù)字人的實時渲染以及 AI 對話的強大功能,為用戶帶來逼真的虛擬交互體驗。

它是如何實現(xiàn)的呢?本文將為您揭秘 TaoAvatar 背后的黑科技!同時在今天,我們正式宣布開源了 3D 真人數(shù)字人應(yīng)用:MNN-TaoAvatar!目前應(yīng)用源碼已同步發(fā)布在 MNN 的 GitHub 倉庫,開發(fā)者可自行下載安裝和體驗,歡迎大家和我們一起交流討論,共同探索 AI 數(shù)字人技術(shù)的無限可能。

什么是 TaoAvatar?

圖片

TaoAvatar 是淘寶在數(shù)字人技術(shù)領(lǐng)域取得的最新突破,更多詳細的研究成果已經(jīng)發(fā)表在相關(guān)論文。

圖片

  • 論文標題:TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
  • 論文地址:https://arxiv.org/abs/2503.17032v1
  • 開源地址:https://github.com/alibaba/MNN/blob/master/apps/Android/MnnTaoAvatar/README_CN.md 

TaoAvatar 基于先進的 3D 高斯?jié)姙R技術(shù),提供了一套全身互動式的真人數(shù)字人解決方案。它通過多視角視頻的輸入,可以迅速生成具有高逼真度的數(shù)字人形象,這些形象不僅能夠精準地捕捉到細膩的面部表情和手勢動作,甚至連衣物細微的褶皺以及頭發(fā)的自然擺動都能清晰呈現(xiàn),帶來一種自然而真實的視覺體驗。

值得一提的是,TaoAvatar 還同時顯著降低了數(shù)字人建模的成本,大幅提高了建模效率,從而為數(shù)字人的規(guī)模化應(yīng)用提供了基礎(chǔ)。在中國三維視覺大會上,TaoAvatar 憑借其卓越的性能和廣泛的適用性,成功入選「最佳演示 Demo 候選」,吸引了業(yè)界的廣泛關(guān)注,成為數(shù)字人技術(shù)研究領(lǐng)域的一個亮點。

什么是 MNN-TaoAvatar?

MNN-TaoAvatar 是我們推出的一款開源的 3D 數(shù)字人應(yīng)用,它集成了多項領(lǐng)先的 AI 技術(shù),支持實時 3D 數(shù)字人語音交互,使用戶能夠在手機上實現(xiàn)與數(shù)字人的自然交流,仿佛真的在與一個「活生生」的人交談。MNN-TaoAvatar 不僅能夠在手機端流暢運行,還完美兼容了 XR 設(shè)備。如下是在 Android 手機及 Apple Vision Pro 設(shè)備上的體驗效果:

MNN-TaoAvatar 集成了多項關(guān)鍵技術(shù),包括精準的語音識別能力,能夠準確理解你的每一句話;先進的大語言模型,可以深入理解你的意圖和情感;以及自然流暢的語音合成技術(shù),能夠以自然流暢的方式進行回應(yīng)。更令人驚艷的是,它能夠根據(jù)語音實時驅(qū)動面部表情的變化,從而帶來更加生動真實的對話體驗。

這一切的背后,是最新算法模型提供的強大支持?;诙藗?cè) AI 推理引擎 MNN,我們研發(fā)了一系列的核心模塊,包括運行大語言模型的 MNN-LLM、語音識別模型的 MNN-ASR、語音合成模型的 MNN-TTS,以及數(shù)字人渲染的 MNN-NNR。

圖片

現(xiàn)階段市面上的數(shù)字人方案很多,但基于 MNN 運行的 TaoAvatar 有哪些獨特優(yōu)勢呢?


目前大多數(shù)主流的數(shù)字人方案主要基于云端 AI 算法,這些方案需要依賴強大的服務(wù)器和高性能顯卡資源,才能完成 ASR(Audio-Speech-Recognize,語音識別)、TTS(Text-To-Speech,語音生成)以及 A2BS(Audio-To-BlendShape,音頻驅(qū)動面部表情)等復(fù)雜處理任務(wù)。即便一些開源方案支持本地運行,往往也需要配備較為高端的硬件。

例如需搭載 RTX 3090 或更高規(guī)格顯卡的設(shè)備,才能確保流暢地執(zhí)行推理和渲染任務(wù)。相比之下,MNN-TaoAvatar 則能夠在僅一部手機上即可運行上述所有算法模型以及 3D 模型,展現(xiàn)出極高的效率和便捷性。

MNN-TaoAvatar 具有兩個核心優(yōu)勢:端側(cè)實時對話和端側(cè)實時渲染。

端側(cè)實時對話

首先,為了實現(xiàn)端側(cè)的實時對話,需要將 ASR(自動語音識別)、TTS(文本轉(zhuǎn)換語音)和 A2BS(口型驅(qū)動)的綜合 RTF(Real Time Factor,實時因素)控制在 1 以內(nèi),即能在 1 秒內(nèi)生成 1 秒長度的語音,RTF 值越小生成速度越快。通過持續(xù)優(yōu)化,我們?nèi)〉昧艘韵峦黄疲?/span>

  • 將 281 MB 的端側(cè) ASR 模型的 RTF 優(yōu)化到了 0.18,實現(xiàn)了用戶語音在端側(cè)的實時轉(zhuǎn)文本;
  • 端側(cè)大語言模型預(yù)填充速度最快可達 165 token/s,解碼速度可達 41 token/s,確保了流暢的文本內(nèi)容生成;
  • 將 1.34 GB 的端側(cè) TTS 模型 RTF 優(yōu)化至 0.58,實現(xiàn)了文本到語音的實時合成與播放。

端側(cè)實時渲染

為了讓數(shù)字人的面部動作更為自然,渲染過程主要分為兩個關(guān)鍵步驟:首先,根據(jù)語音輸入,通過算法模型精準提取面部表情動作的系數(shù),然后將表情系數(shù)和數(shù)字人 3D 模型的預(yù)錄數(shù)據(jù)進行融合,最終借助 NNR 渲染器完成高質(zhì)量渲染。這兩部分我們做到的性能如下:

  • 成功將 368 MB 的端側(cè) A2BS 模型的 RTF 優(yōu)化至 0.34,實現(xiàn)了實時語音到面部表情系數(shù)的轉(zhuǎn)換。
  • 通過自主研發(fā)的高性能 NNR 渲染器,達到了對 25 萬點云模型以每秒 60 幀(FPS)的流暢渲染速度,確保了動畫的順滑自然。

上文提及的具體端側(cè)模型的功能及我們做到的技術(shù)指標如下(基于搭載高通驍龍 Snapdragon 8 Elite芯片的智能手機測試結(jié)果):

圖片

MNN-TaoAvatar 整體流程

在用戶尚未輸入語音的情況下,MNN-TaoAvatar 會利用 MNN-NNR 來渲染默認的數(shù)字人模型姿態(tài),生成閉唇、靜態(tài)表情或者預(yù)設(shè)動作的畫面。一旦用戶開始語音輸入,系統(tǒng)將按以下流程運行:

圖片

MNN-TaoAvatar 運行關(guān)鍵流程

基于這一流程,用戶便能夠與一個自然流暢、表情生動的數(shù)字人進行實時對話了。在該流程的背后,MNN 框架在技術(shù)實現(xiàn)和性能優(yōu)化上做出了大量的努力。接下來,我們將深入探討 MNN-TaoAvatar 的技術(shù)架構(gòu)及其關(guān)鍵優(yōu)化點。

MNN-TaoAvatar 關(guān)鍵技術(shù)

MNN-TaoAvatar 是基于 MNN 引擎構(gòu)建而成的,它集成了 MNN-LLM、MNN-NNR 以及 Sherpa-MNN(包括 MNN-ASR 和 MNN-TTS)等多種算法模塊。下圖展示了這些模塊在應(yīng)用中的架構(gòu)示意:

圖片

MNN-TaoAvatar 架構(gòu)示意圖

MNN:輕量級 AI 推理引擎

MNN(Mobile Neural Network)是一款功能強大的開源、跨平臺 AI 模型推理引擎。

圖片

MNN 架構(gòu)示意圖

它的核心優(yōu)勢如下:

  • 高性能推理:支持 CPU/GPU/NPU 等多種異構(gòu)計算方式,能夠輕松滿足增強現(xiàn)實/虛擬現(xiàn)實(AR/VR)、語音識別以及大型語言模型(LLM)等需要快速響應(yīng)的實時應(yīng)用;
  • 跨平臺兼容:支持 C++、Python、Java 和 JavaScript 等多種語言接口,并與主流系統(tǒng)平臺無縫集成;
  • 模型輕量化:內(nèi)置了量化與剪枝工具,有效壓縮了模型大小,大幅節(jié)省內(nèi)存空間并縮短加載時間。

MNN-LLM:移動端部署大模型

MNN-LLM 是基于 MNN 之上開發(fā)的 MNN-Transformer 模塊的一個子功能模塊,用于支持大語言模型與文生圖等 AIGC 任務(wù)。它包含以下關(guān)鍵技術(shù):

  • 模型導(dǎo)出工具:能一鍵將主流 LLM/Diffusion 模型轉(zhuǎn)換為 MNN 格式,大大簡化了模型的部署和使用過程;
  • 模型量化機制:將大型模型如 Qwen2.5-1.5B 從原來的 5.58 GB 壓縮至 1.2 GB,同時保持較快的解碼速度,達到每秒 45 個 token;
  • KV 緩存/LoRA 支持:利用 KV 緩存技術(shù),MNN-LLM 顯著提升了對話響應(yīng)的速度;LoRA 技術(shù)的應(yīng)用也使得模型能夠靈活適配不同的任務(wù)場景,而無需重新訓(xùn)練整個模型,從而降低了計算資源的消耗。

圖片

MNN-Transformer 架構(gòu)示意圖

MNN-Transformer 由三個核心部分構(gòu)成:導(dǎo)出工具、量化工具以及插件與引擎。

  • 導(dǎo)出工具負責將各類大型模型轉(zhuǎn)化為 MNN 格式,并創(chuàng)建必要的資源包;
  • 量化工具能有效減少 MNN 模型的體積,從而降低運行時的內(nèi)存,加快執(zhí)行速度;
  • 插件與引擎模塊則提供了 LLM/Diffusion 運行時所需的關(guān)鍵功能,如分詞、KV 緩存管理以及 LoRA 等。

在小米 14 手機(搭載高通驍龍 8 Gen 3 芯片)上進行的測試中,MNN-LLM 展現(xiàn)了卓越的 CPU 性能。其預(yù)填充速度相較于 llama.cpp 提高了 8.6 倍,較 fastllm 更是提升了 20.5 倍。在解碼速度方面,MNN-LLM 同樣表現(xiàn)優(yōu)異,分別達到了 llama.cpp 的 2.3 倍和 fastllm 的 8.9 倍。

圖片

MNN-LLM Benchmark

Sherpa-MNN:離線語音智能新方案

為提升語音識別在端側(cè)上的表現(xiàn),MNN 團隊對原始 sherpa-onnx 框架進行了深度優(yōu)化,推出 Sherpa-MNN,它支持 ASR(自動語音識別)和 TTS(文本轉(zhuǎn)語音)算法,并具備如下優(yōu)勢:

  • 性能翻倍:在 MacBook Pro M1 上(基于 arm64 架構(gòu)),單線程運行經(jīng)過量化處理的流式 ASR 模型(具體模型為 sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20)。在這一測試中,onnxruntime 的 RTF(實時因子)為 0.078,而 MNN 的 RTF 僅為 0.035,相比于 onnxruntime 快出一倍。
  • 包體積更?。涸诠δ芟嗤?、性能更優(yōu)的情況下,MNN 的體積僅為 onnxruntime 的五分之一(對于 Android arm64 架構(gòu),MNN 的體積為 3.3 MB,而 onnxruntime 則需 15 MB)。

MNN-NNR:高效神經(jīng)網(wǎng)絡(luò)渲染引擎

MNN-NNR 是 TaoAvatar 的核心 3D 渲染引擎,專為在移動設(shè)備上實時渲染高質(zhì)量數(shù)字人模型而設(shè)計。其核心的技術(shù)優(yōu)勢如下:

  • 開發(fā)簡便:通過將算法與渲染過程解耦,開發(fā)者可以更專注于算法的創(chuàng)新與優(yōu)化。使用 PyTorch 訓(xùn)練的模型可以輕松導(dǎo)出為 NNR 模型并部署,無需深厚的圖形編程經(jīng)驗。
  • 極致輕量:通過將計算邏輯離線「編譯」為深度學(xué)習(xí)模型和渲染圖,運行時只需要執(zhí)行深度學(xué)習(xí)模型和渲染圖,因此整個包體大小極?。ㄒ?Android 為例,僅需 200k)。并且首次集成后,幾乎無需變更。業(yè)務(wù)功能的擴展由離線編譯器處理,算法的迭代只需更新 NNR 文件即可,實現(xiàn)了算法迭代與引擎集成的解耦。
  • 高性能:結(jié)合 MNN 的高效執(zhí)行能力,MNN-NNR 通過引入「Dirty 機制」和免拷貝技術(shù),確保了渲染過程的高效執(zhí)行,從而實現(xiàn)流暢的渲染效果。

圖片

MNN-NNR 架構(gòu)示意圖

為了讓數(shù)字人模型能夠?qū)崿F(xiàn)高效的渲染,我們進行了以下幾項深度優(yōu)化:

  • 數(shù)據(jù)同步優(yōu)化

為了消除數(shù)據(jù)同步所需的時間,我們讓所有模型都在 MNN GPU 后端上運行,并在 NNR Runtime 中配置 MNN 所使用的 GPU 后端與渲染共享同一個上下文。這樣,MNN Tensor 的數(shù)據(jù)就直接存儲在 GPU 內(nèi)存中。NNR Runtime 實現(xiàn)了直接讀取 MNN Tensor GPU 內(nèi)存的方案,無需進行數(shù)據(jù)拷貝即可直接用于渲染,從而免除了數(shù)據(jù)同步的時間。

  • 調(diào)度優(yōu)化

在 NNR Runtime 中,我們實現(xiàn)了「Dirty 機制」,每一幀只運行輸入數(shù)據(jù)發(fā)生變化的 MNN 模型。在 TaoAvatar 場景中,深度模型包括 Base Deformer、Aligner、Deformer、Color Compute 和 Sort 等。由于動態(tài)高斯數(shù)字人重建所需的圖像是以 20 幀/秒的速度采集的,為了保持高斯數(shù)字人動作的平滑性和一致性,驅(qū)動高斯數(shù)字人動作的參數(shù)只需以 20 fps 的頻率設(shè)置即可。

因此,Base Deformer、Aligner 和 Deformer 只需以 20 fps 的頻率運行。在視角變化不大的情況下,也不需要每幀都對高斯點進行排序,所以 Sort 模型通過另一個開關(guān)來控制運行。這樣,每幀實際運行的模型就只剩下 Color Compute,從而大幅降低了整體的運行時間。

  • 模型運行時間優(yōu)化

對于使用 MNN 編譯器的模型,將輸入數(shù)據(jù)進行 fp16 壓縮,可以提升 50% 的性能。

對于高斯排序,MNN 實現(xiàn)了基于 GPU 的基數(shù)排序算法,并且利用 autotuning 技術(shù),確保在各類 GPU 上都能達到最佳性能。

在這些優(yōu)化的加持下,MNN-NNR 成功實現(xiàn)了在動畫模型僅以較低頻率(如 20 fps)更新的情況下,畫面依然能夠以 60 fps 的流暢度進行輸出。

3D 高斯數(shù)字人:小模型也能高質(zhì)量

傳統(tǒng)高斯點云重建成本高、存儲體積大,而 TaoAvatar 采用了全新的多重優(yōu)化方案:

  • StyleUnet+MLP 混合建模:通過一個功能強大的 StyleUnet 教師網(wǎng)絡(luò),學(xué)習(xí)復(fù)雜的姿勢變化,并將這些信息高效地「烘焙」到輕量級的 MLP 學(xué)生網(wǎng)絡(luò)中,極大降低了計算成本。
  • 動態(tài)高斯點云技術(shù):將單幀重建的靜態(tài)高斯點云,升級成為可復(fù)用多幀數(shù)據(jù)的動態(tài)高斯點云技術(shù)。這不僅顯著提升了渲染效果的穩(wěn)定性與清晰度,還顯著減少了渲染過程中的閃爍現(xiàn)象。
  • 高壓縮率資產(chǎn)壓縮算法:在 25 萬點云的量級下,模型文件大小僅約 160 MB,非常適合在端側(cè)設(shè)備上部署。

通過相同素材重建得到的數(shù)字人模型,在不同高斯點云數(shù)量下,會呈現(xiàn)出不同的清晰度、模型體積和渲染性能。為了找到最佳的平衡點,我們進行了多種不同點云數(shù)量模型的測試:

圖片

經(jīng)過綜合對比,25 萬高斯點云的數(shù)字人是終端側(cè)部署的最佳配置方案,它不僅確保了渲染時的高清晰度,還將單個 ID 的存儲空間精妙地控制在 100 到 200 MB 之間。

使用說明

硬件要求

雖然我們已經(jīng)進行了大量的優(yōu)化工作,但由于需要將多個模型集成到手機中,所以對手機性能還是有一定要求的。以下是 MNN-TaoAvatar 的推薦配置:

  • 需要高通驍龍 8 Gen 3 或同等性能 CPU。
  • 需要至少 8 GB 內(nèi)存用于模型運行。
  • 需要至少 5 GB 空間用于存放模型文件。

?? 性能不足的設(shè)備可能會遇到卡頓、聲音斷續(xù)或功能受限哦。

快速體驗

想要親自體驗一下嗎?只需按照以下簡單的步驟操作即可。

首先克隆項目代碼:

git clone https://github.com/alibaba/MNN.git
cd apps/Android/Mnn3dAvatar

然后構(gòu)建并部署:

連接你的安卓手機,打開 Android Studio 點擊「Run」,或執(zhí)行:

/gradlew installDebug

通過這兩個步驟,你就可以在自己的手機上體驗 MNN-TaoAvatar 數(shù)字人應(yīng)用了!趕快來試一試吧。

相關(guān)資源以及參考鏈接:

TaoAvatar Github 下載:https://github.com/alibaba/MNN/blob/master/apps/Android/MnnTaoAvatar/README_CN.md 

TaoAvatar 論文:https://arxiv.org/html/2503.17032v1

MNN LLM論文:https://arxiv.org/abs/2506.10443

TaoAvatar模型合集:https://modelscope.cn/collections/TaoAvatar-68d8a46f2e554a

LLM模型:Qwen2.5-1.5B MNN:https://github.com/alibaba/MNN/tree/master/3rd_party/NNR

TTS模型:bert-vits2-MNN:https://modelscope.cn/models/MNN/bert-vits2-MNN

基礎(chǔ)TTS模型:Bert-VITS2:https://github.com/fishaudio/Bert-VITS2

聲音動作模型:UniTalker-MNN:https://modelscope.cn/models/MNN/UniTalker-MNN

基礎(chǔ)聲音動作模型:UniTalker:https://github.com/X-niper/UniTalker

神經(jīng)渲染模型:TaoAvatar-NNR-MNN:https://modelscope.cn/models/MNN/TaoAvatar-NNR-MNN

ASR模型:Sherpa 雙語流式識別模型:https://modelscope.cn/models/MNN/sherpa-mnn-streaming-zipformer-bilingual-zh-en-2023-02-20

china3dv live demo滑動可以看到 TaoAvatar:http://china3dv.csig.org.cn/LiveDemo.html

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-03-28 15:48:39

開源模型

2015-08-03 09:47:00

2023-04-28 15:24:33

數(shù)字化轉(zhuǎn)型數(shù)字經(jīng)濟

2023-10-26 09:09:40

數(shù)字人AI驅(qū)動

2012-08-13 17:11:37

Silverlight

2024-01-11 18:00:04

模型訓(xùn)練

2020-08-03 08:48:18

技術(shù)人阿里專家

2024-09-26 14:40:45

2023-05-08 15:44:23

3D數(shù)字人

2025-07-21 09:26:00

AI開源模型

2024-12-23 15:46:59

2011-11-09 15:49:52

API

2012-10-22 21:39:31

信息交換安全隔離 天融信

2013-01-22 11:29:01

3D打印

2021-04-21 10:22:56

Python 開發(fā)編程語言

2020-08-26 10:37:21

阿里3D

2020-03-12 14:19:49

AI 數(shù)據(jù)人工智能

2013-11-21 19:36:56

暢游游戲引擎Genesis-3D

2021-07-23 14:41:58

數(shù)字孿生
點贊
收藏

51CTO技術(shù)棧公眾號