虛擬主播技術(shù)在智能問(wèn)答中的應(yīng)用
1. 基于虛擬人的元宇宙
1.1 元宇宙
Facebook更名Meta帶火了元宇宙概念,元宇宙是一個(gè)與現(xiàn)實(shí)世界平行的虛擬世界,在這個(gè)虛擬世界中,人們可以像在現(xiàn)實(shí)世界中一樣實(shí)現(xiàn)實(shí)時(shí)交互,通過(guò)逼真的人、物形象使用戶沉浸于虛擬世界之中,身臨其境地感受周遭環(huán)境并與其他用戶進(jìn)行交互。
1.2 虛擬人
虛擬人是使用數(shù)字技術(shù)合成的人類形象,早期虛擬人如初音未來(lái)、周杰倫和鄧麗君的隔空對(duì)唱。最近,隨著人工智能技術(shù)的發(fā)展,一批新一代,具有類人智能的虛擬人也應(yīng)運(yùn)而生。如可與真人對(duì)話的央視虛擬主播小C,清華大學(xué)虛擬學(xué)生華智冰,虛擬美妝達(dá)人柳夜熙等。此外,虛擬人也開始走入職場(chǎng),如阿里巴巴的頭號(hào)數(shù)字人員工AYAYI。
2. 擬人相關(guān)技術(shù)介紹
2.1 3D建模
虛擬人的3D模型一種依賴3D動(dòng)畫師的設(shè)計(jì),另外一種則來(lái)自對(duì)現(xiàn)實(shí)世界物體的三維重建。隨著虛擬人技術(shù)的不斷發(fā)展,出現(xiàn)了越來(lái)越多的個(gè)性化需求,如將用戶自己的形象只作為虛擬人等,3D建模技術(shù)也不斷發(fā)展。
傳統(tǒng)3D建模方法主要分為多目視覺(jué)、紅外和激光三種。多目視覺(jué)是通過(guò)多角度拍攝的同一物體的圖像,使用匹配特征點(diǎn)進(jìn)行建模,這種建模方式受光線、遮擋影響較大,需要從很多角度拍攝照片,才能覆蓋物體全貌;紅外建模的代表就是微軟的Kinect,使用多路紅外光照射物體表面,獲得物體上各點(diǎn)的深度信息,完成3D建模;激光建模的原理與紅外類似,只不過(guò)使用的是激光,重建精度較高,但成本也較高,一版用于精度敏感的工業(yè)領(lǐng)域。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,學(xué)界和工業(yè)界開始越來(lái)越多地使用基于“神經(jīng)輻射場(chǎng)”技術(shù)的NeRF,該方法使用深度網(wǎng)絡(luò)和多角度輻射數(shù)據(jù)對(duì)輻射場(chǎng)進(jìn)行建模,進(jìn)而獲得未覆蓋角度的圖像。
2.2 NLP
虛擬人需要具有跟現(xiàn)實(shí)世界人物一樣的語(yǔ)言理解、對(duì)話能力,ChatGPT等大語(yǔ)言模型的出現(xiàn),提供了這個(gè)可能,使虛擬人可以與虛擬和現(xiàn)實(shí)世界的人物交流,實(shí)現(xiàn)類人智能。
2.3 TTS
ChatGPT等大語(yǔ)言模型的發(fā)布,大大提升了智能對(duì)話的質(zhì)量,生成式對(duì)話模型的圖靈測(cè)試逐漸接近人類水平,這種情況下,將文字轉(zhuǎn)為語(yǔ)音,通過(guò)虛擬人“說(shuō)”出來(lái)可以大大增加身臨其境的感覺(jué)。將文字轉(zhuǎn)為語(yǔ)音的TTS技術(shù)發(fā)揮了重要作用,按處理的實(shí)時(shí)性,TTS可分為流式和非流式兩種,非流式TTS延遲較大,無(wú)法滿足實(shí)時(shí)性要求。因此,在虛擬人應(yīng)用中,一般采用流式TTS。
2.4 VR/AR
虛擬世界和現(xiàn)實(shí)世界的交互,除了傳統(tǒng)的電腦、電視、手機(jī)屏幕外,還可以通過(guò)具有3D立體效果的VR頭戴式設(shè)備和AR眼鏡等可穿戴設(shè)備進(jìn)行人機(jī)交互。
2.5 AIGC
AIGC是一種新興的人工智能內(nèi)容生成技術(shù),既包括文字,如ChatGPT,又包括圖像,如GAN和基于擴(kuò)散模型的圖像生成技術(shù)。在人機(jī)交互過(guò)程中,虛擬人對(duì)問(wèn)題的回答的文字、語(yǔ)音,以及動(dòng)作、口型、表情都需要使用AIGC技術(shù)生成。
3. 虛擬主播技術(shù)在智能問(wèn)答中的應(yīng)用
2022年8月12日,汽車之家正式宣布簽約虛擬數(shù)字人IP-“宮玖羽”擔(dān)任“汽車之家特邀AI體驗(yàn)官”。宮玖羽不僅以“機(jī)車女神”的形象滿足用戶的情感需求,同時(shí)也能完美支持虛擬直播、AR/VR相關(guān)應(yīng)用?;诖竽P偷闹悄軉?wèn)答系統(tǒng)滿足了用戶的搜索、查詢需求,虛擬數(shù)字人的引入增加了應(yīng)用的互動(dòng)屬性,有助于延長(zhǎng)用戶的留存時(shí)間。
3.1 大模型問(wèn)答系統(tǒng)
問(wèn)答系統(tǒng)能夠?yàn)橛脩籼峁┛焖俸途珳?zhǔn)的答案,可以顯著減少用戶在查找信息或解決問(wèn)題時(shí)所需的時(shí)間,提升用戶滿意度和體驗(yàn),增加用戶黏性,進(jìn)一步提升用戶留存。
大模型具備強(qiáng)大的自然語(yǔ)言理解和生成能力,但由于大模型的幻覺(jué)問(wèn)題,技術(shù)團(tuán)隊(duì)選擇使用大模型結(jié)合汽車之家搜索數(shù)據(jù)來(lái)解決用戶問(wèn)題。大模型主要關(guān)注兩方面的能力,一方面是基于若干文檔進(jìn)行總結(jié)歸納出簡(jiǎn)短摘要的能力,一方面是直接生成準(zhǔn)確答案的能力。
線上應(yīng)用了基于汽車之家垂類數(shù)據(jù)訓(xùn)練的6B參數(shù)大模型,答案輸出采用流式輸出的方式,能有效減少用戶等待時(shí)間,目前V100S顯卡上第一個(gè)token返回時(shí)間約30ms,輸出速度約25tokens/s。流程圖如下圖所示。
圖片
3.2 面部表情生成系統(tǒng)
由于智能問(wèn)答系統(tǒng)的實(shí)時(shí)性要求,技術(shù)團(tuán)隊(duì)選擇了推理時(shí)間較短的經(jīng)典音頻圖像生成網(wǎng)絡(luò)Wav2Lip,其模型結(jié)構(gòu)如下圖所示。
Wav2Lip模型使用了SyncNet的判別器和LipGAN的生成器,模型訓(xùn)練采用了兩階段的方式。在第一階段,訓(xùn)練了一個(gè)用于判斷嘴唇與聲音是否同步的判別器;在第二階段,采用編碼-解碼架構(gòu)訓(xùn)練了一個(gè)生成器和兩個(gè)判別器,其中一個(gè)判別器是第一階段預(yù)訓(xùn)好的用于判斷嘴唇與聲音是否同步的判別器,生成器由一個(gè)身份編碼器、一個(gè)語(yǔ)音編碼器和一個(gè)人臉解碼器組成,針對(duì)生成的嘴唇區(qū)域圖像模糊問(wèn)題,引入了另外一個(gè)圖像質(zhì)量判別器。
經(jīng)過(guò)技術(shù)團(tuán)隊(duì)兩個(gè)月的優(yōu)化,Nvidia V100s顯卡上單幀圖像生成時(shí)間達(dá)到10ms,峰值顯存占用3GB,綜合考慮TTS及前后處理時(shí)間,最終FPS約為25,達(dá)到了實(shí)時(shí)交互的目標(biāo)。此外,由于線上顯卡資源有限,為了盡可能滿足高并發(fā)需要,之家云部署的一個(gè)實(shí)例可以支持2個(gè)用戶,線上一塊Nvidia V100~16G顯卡可以部署5個(gè)實(shí)例,支持10個(gè)用戶并發(fā),考慮實(shí)際并發(fā)用戶量低于線上用戶總量,上線之后每塊顯卡可支持>10個(gè)用戶。
圖片
作者簡(jiǎn)介
陳心
■商業(yè)智能部-智能用車團(tuán)隊(duì)
■ 簡(jiǎn)介:2020年加入汽車之家,目前任職于商業(yè)智能部-智能用車團(tuán)隊(duì),主要負(fù)責(zé)圖像檢測(cè)、識(shí)別、生成、AR/VR相關(guān)工作。
王朋愷
■商業(yè)智能部-智能用車團(tuán)隊(duì)
■ 簡(jiǎn)介:2018年加入汽車之家,目前任職于商業(yè)智能部-智能用車團(tuán)隊(duì),主要負(fù)責(zé)搜索智能問(wèn)答系統(tǒng)、模型算法優(yōu)化等相關(guān)工作。


























