谷歌開源 3D 舞蹈生成模型 FACT
谷歌開源了其基于 AIST++ 的 3D 舞蹈生成模型 FACT。該模型不僅可以學(xué)習(xí)音樂-運動對應(yīng)關(guān)系,還可以生成以音樂為基礎(chǔ)的 3D 運動序列。
此前,谷歌層發(fā)布了大規(guī)模的多模態(tài) 3D 舞蹈動作數(shù)據(jù)集 AIST++,它包含了 1408 個序列中 5.2 小時的 3D 舞蹈動作,涵蓋了 10 種舞蹈流派,每個序列都包括已知相機姿勢的多視角視頻。而 FACT 模型則可以使用使用這些數(shù)據(jù)從音樂生成 3D 舞蹈,甚至可以幫助增強一個人的編舞能力。
根據(jù)谷歌描述,該模型首先使用單獨的運動和音頻轉(zhuǎn)換器對種子運動和音頻輸入進行編碼,然后將嵌入連接起來并發(fā)送到跨模態(tài)轉(zhuǎn)換器,該轉(zhuǎn)換器學(xué)習(xí)兩種模態(tài)之間的對應(yīng)關(guān)系并生成 N 個未來的運動序列,然后使用這些序列以自我監(jiān)督的方式訓(xùn)練模型。在測試時,將此模型應(yīng)用于自回歸框架,其中預(yù)測的運動作為下一代步驟的輸入,從而使 FACT 模型能夠逐幀生成長距離舞蹈動作。
此外,谷歌還解釋了 FACT 涉及的三個關(guān)鍵設(shè)計選擇,這些選擇對于從音樂中產(chǎn)生逼真的 3D 舞蹈動作至關(guān)重要,包括所有轉(zhuǎn)換器都使用全注意掩碼、訓(xùn)練模型會預(yù)測當(dāng)前輸入之外的 N 個未來而不僅僅是下一個動作以及采用了一個深度的12層跨模式轉(zhuǎn)換模塊。最終,F(xiàn)ACT 表現(xiàn)出了較好的運動質(zhì)量、生成多樣性、以及節(jié)拍對齊分數(shù)。
目前,用于訓(xùn)練的數(shù)據(jù) AIST++、FACT 模型代碼以及一個經(jīng)過訓(xùn)練的模型均已發(fā)布。
本文轉(zhuǎn)自O(shè)SCHINA
本文標(biāo)題:谷歌開源 3D 舞蹈生成模型 FACT
本文地址:https://www.oschina.net/news/160132/google-publish-fact
















 
 
 

















 
 
 
 