?【51CTO.com原創(chuàng)稿件】過去一年來,元宇宙成為企業(yè)和投資界和投資人共同關(guān)注的話題。對于元宇宙,各界人士都有自己的理解和關(guān)注點(diǎn),在日前51CTO主辦的MetaCon元宇宙技術(shù)大會上,商湯科技數(shù)字空間事業(yè)群數(shù)字文娛事業(yè)部產(chǎn)品總監(jiān)高瑞聲帶來了主題演講《元宇宙虛實(shí)世界的人工智能技術(shù)》,分別從市場和資本關(guān)注元宇宙的目的、元宇宙本身的市場布局以及核心的技術(shù)、打造數(shù)字人以及數(shù)字人典型的應(yīng)用場景和案例等角度來談元宇宙。
高瑞聲認(rèn)為,數(shù)字人其實(shí)可以定義為一個(gè)未來世界的超級員工,由于數(shù)字人能夠擁有人的外觀、人的肢體語言行為、人的大腦,因而代替部分的人力,甚至超過真人所能做的事情和能力,這樣就可以為企業(yè)節(jié)省人力資源成本,降本增效,同時(shí)助力城市的數(shù)字化轉(zhuǎn)型。
本文摘選并整理了其中的精彩內(nèi)容,希望可以給大家?guī)硭季S的啟迪。
一、AI引擎層的作用
構(gòu)建虛擬的平行世界,即元宇宙Metaverse,是人類一直以來的夢想,它主要有三個(gè)核心元素來組成。第一個(gè)是虛擬化身(Avatar),第二個(gè)是AI數(shù)字人(Software Agents),第三個(gè)是物理空間的三維重建(Three-Dimensional Space)。這三個(gè)核心元素組成了Metaverse元宇宙。
市場關(guān)注元宇宙主要有兩方面原因。首先是從PC端互聯(lián)網(wǎng)到移動(dòng)端的互聯(lián)網(wǎng),流量逐漸趨于枯竭,我們希望能夠從下一代比如說元宇宙挖掘到新的流量紅利。其次是技術(shù)在不斷驅(qū)動(dòng)和發(fā)展,信息從最開始的一維,比如文本、語音,到后來的二維平面,比如圖像、音視頻,再到三維,比如音視頻空間,用腦機(jī)接口實(shí)現(xiàn)的五感真實(shí)等。
從上面兩點(diǎn)可以得出,以三維全景為主要信息形態(tài)的元宇宙,就要成為我們一個(gè)新的產(chǎn)業(yè)趨勢。
元宇宙的系統(tǒng)分層主要有這幾層:基礎(chǔ)設(shè)施層、顯示硬件層、OS層、3D引擎層和應(yīng)用層。

有很多公司客戶希望能做元宇宙的一些應(yīng)用,比如說社交應(yīng)用、辦公協(xié)作等,但是他們會遇到一個(gè)非專業(yè)內(nèi)容制作的挑戰(zhàn)。要解決這個(gè)挑戰(zhàn),就涉及到AI的引擎層,也是商湯科技的定位。
怎么理解AI這個(gè)引擎層呢?可以從人腦和AI的關(guān)系來說起。人腦能做到什么呢?
一是能理解,包括對人物的認(rèn)知和理解、對場景的認(rèn)知和理解。
二是內(nèi)容生成。平常做夢能夢到一些我們腦海里的人物和場景,這就是內(nèi)容生成。一些優(yōu)秀的畫家,能畫出來自己腦海中的人物和場景。
相應(yīng)地,AI引擎層能為人物生成的數(shù)字人生成引擎,其能力主要分為這三個(gè)能力。
一是讓人輕松地?fù)碛袛?shù)字人。例如,利用拍照生成的能力,可以快速生成千人千面的虛擬形象。比如說韓式動(dòng)漫的風(fēng)格,二次元風(fēng)格以及3D超寫實(shí)風(fēng)格。
二是我們用AI去打造這種成熟的NPC群體,例如AI數(shù)字人。數(shù)字人主要有三方面的特征,首先,它有人的外貌特征,比如她是一個(gè)美麗大方可愛的小姐姐。同時(shí)它有人的面部表情和肢體語言、動(dòng)作、行為這樣的特征。其次,它有人的大腦,就是我們的多模態(tài)的人機(jī)交互NLP,它可以通過輸入外界的環(huán)境信息,在NLP大腦中進(jìn)行處理,與人進(jìn)行交互,與人進(jìn)行溝通、交流,為人提供服務(wù)。能夠部分或者全部替代人力成本,助力于城市企業(yè)去發(fā)展進(jìn)行數(shù)字化轉(zhuǎn)型。
三是三維高清的重建技術(shù),可以快速地去重建三維的數(shù)字空間。

有這三個(gè)能力我們就可以形成并打造數(shù)字世界的智慧解決方案,構(gòu)建城市不同場景的虛擬的元宇宙空間,在這個(gè)虛擬的空間內(nèi),人們可以跟朋友、家人、同事一起去跨越這種時(shí)空,跨越這種距離,來進(jìn)行面對面的沉浸式的溝通、交流和體驗(yàn)。
人們可以體驗(yàn)在哪些方面呢?可以有這幾個(gè)步驟。
第一步是虛擬人物快速生成。如果城市希望吸引年輕人,可以讓年輕人自拍,一鍵生成專屬卡通風(fēng)格的形象,比如韓式的動(dòng)漫風(fēng)格或者日式的動(dòng)漫風(fēng)格。人們可以用這個(gè)虛擬形象開啟一段虛實(shí)融合的新的旅途。

第二步是實(shí)景三維高精重建內(nèi)容的快速生成。人們可以用一個(gè)無人機(jī)飛一圈,快速重建一個(gè)三維高精的場景。同時(shí)還可以跟合作團(tuán)隊(duì)一起去重建高精的三維空間。

第三步就可以用之前建好的虛擬分身一起在虛擬的空間內(nèi)看看這個(gè)城市的風(fēng)景,比如說廈門、鼓浪嶼。

這個(gè)國外像Facebook等公司已經(jīng)做了,比如說Facebook的Oculus里邊的Horizon Worlds,里面就是重建了洛杉磯、舊金山,大家一起去構(gòu)建這個(gè)城市地標(biāo)的虛擬的元宇宙空間,可以讓用戶去跨越距離,去體驗(yàn)城市的美。
第二個(gè)場景是虛擬的政務(wù)大廳、企業(yè)大廳,比如運(yùn)營商的網(wǎng)點(diǎn)、銀行的線下網(wǎng)點(diǎn)等。企業(yè)可以創(chuàng)造一個(gè)聰明的數(shù)字人,它可以為用戶去提供便捷服務(wù),比如說迎賓、業(yè)務(wù)咨詢、信息展示、業(yè)務(wù)辦理,從而讓群眾足不出戶就可以高效地辦理業(yè)務(wù)。

第三個(gè)場景是虛擬展會。展會不能用視頻的會議軟件去看,而虛擬展會可以全景的展示。在國外,比如在Oculus里有這樣的應(yīng)用big screen。在Lobby里可以看到世界各地的人都在這個(gè)空間里邊去逛、去聊、去看最新的產(chǎn)品。

二、數(shù)字人的核心技術(shù)
數(shù)字人可以定義為一個(gè)未來世界的超級員工,它是一個(gè)基于AI的多模態(tài)的人機(jī)交互系統(tǒng)。數(shù)字人有三個(gè)特征,有人的外觀、人的肢體語言行為、人的大腦,因而代替部分的人力,比如說智能助手、智能客服、智能導(dǎo)購員、智能講解員和形象代言人。未來數(shù)字人可以全部替代人力,甚至超過真人所能做的事情和能力,這樣可以為企業(yè)節(jié)省人力資源成本,降本增效,同時(shí)助力城市的數(shù)字化轉(zhuǎn)型。
數(shù)字人的平臺能力輸出主要有三部分。
第一,可以在管理能力平臺里對數(shù)字人進(jìn)行知識體系的管理、知識的管理,比如明確數(shù)字人說什么話、做什么樣的問答、提供什么樣的服務(wù),同時(shí)對數(shù)字人的形象可以進(jìn)行配置,比如對數(shù)字人進(jìn)行遠(yuǎn)程控制、OTA升級等。
第二,在算法能力平臺,用算法模型的技術(shù)對數(shù)字人進(jìn)行渲染、驅(qū)動(dòng)等。
第三,應(yīng)用層拓展,幫助數(shù)字人在地產(chǎn)、商超、園區(qū)、酒店和各種辦公大廳進(jìn)行落地,同時(shí)可以在手機(jī)端、PC端、平板電腦、一體端、大屏、AR、VR眼鏡、車機(jī)等進(jìn)行展示和交互。
數(shù)字人可以按能力進(jìn)行分層,一個(gè)維度是自動(dòng)化的制作水平高低,另一個(gè)維度是擬人化、智能化程度的高低。

商湯科技已落地的產(chǎn)品形態(tài)和功能包括線下場景,線下場景、C端觸達(dá)場景等。
商湯科技在數(shù)字人方面有五大優(yōu)勢,一是有豐富的數(shù)字人形象;二是能快速生成和驅(qū)動(dòng)虛擬人;三是有精細(xì)的數(shù)字人還原;四是多樣驅(qū)動(dòng);五是行業(yè)領(lǐng)先的AI算法,包括讓口型更加準(zhǔn)確的自研STA的算法模型和讓問答更加智能的自研NLP系統(tǒng)。
三、數(shù)字人的應(yīng)用場景
提到數(shù)字人的典型應(yīng)用場景,第一個(gè)是虛擬代言人。
很多人從去年已經(jīng)非常深刻地感受到了這個(gè)行業(yè)的痛點(diǎn),比如真人明星的道德包括緋聞這些問題是不可控的,還有明星的排期、檔期等也是不可控的。
用傳統(tǒng)方法制作一個(gè)影視級的CG虛擬人,制作成本非常高、周期很長。商湯科技通過快速的數(shù)字人生成和驅(qū)動(dòng)方式,可以讓虛擬代言人非常便捷地去進(jìn)行多媒體資源的輸出。

第二個(gè)典型應(yīng)用場景就是金融,可分為線上和線下。線上可以將數(shù)字人嵌入到金融的App、H5、小程序里,讓數(shù)字人承擔(dān)智能客服、理財(cái)推薦等工作。線上金融有一個(gè)很大的痛點(diǎn)就是一些年長的叔叔阿姨,他們年齡大了,但是有錢也有閑,他們是絕佳的目標(biāo)用戶人選。但是這些大叔大媽不太會使用App,這時(shí)候數(shù)字人可以通過對話交互的方式,去告訴他們怎么使用App,同時(shí)通過對話交互推薦理財(cái)產(chǎn)品,來提升復(fù)購率和購買率。
線下的場景就清晰了,數(shù)字人可以減輕人力的資源成本,部分替代大堂經(jīng)理的工作,起到降本增效的作用。

第三個(gè)是新媒體創(chuàng)新應(yīng)用場景。在近幾年,虛擬直播、二次元、短視頻等新興詞匯已然不再單單是一個(gè)符號,每個(gè)詞背后所蘊(yùn)含的經(jīng)濟(jì)規(guī)模、從業(yè)人數(shù),都已經(jīng)不可同日而語。上述這些新興市場都有同一個(gè)特點(diǎn),那就是技術(shù)驅(qū)動(dòng)和內(nèi)容驅(qū)動(dòng)。針對這一特點(diǎn),商湯科技提早布局,早在這些行業(yè)方興未艾之時(shí),就已經(jīng)形成了從底層算法、SDK到平臺交付的能力與產(chǎn)品。無論是短視頻和二次元平臺的虛擬美妝和數(shù)字人Avatar,還是幫助傳統(tǒng)行業(yè)快速切入年輕化市場的數(shù)字人視頻生成平臺,我們正在不斷提供成熟且貼合客戶需求的綜合技術(shù)能力。

第四個(gè)是文旅場景。商湯科技在上海的中共一大紀(jì)念館專門做了一個(gè)數(shù)字人一體機(jī),它一方面可以對用戶進(jìn)行場館的介紹,比如說哪里可以買紀(jì)念品,展區(qū)怎么走,衛(wèi)生間在哪里等,另一方面它對中共一大的知識專門做了整體的訓(xùn)練和學(xué)習(xí),無論游客問出什么樣的中共一大的知識和問題,數(shù)字人都能夠回答。
除此之外,還有數(shù)字人超大屏,可以發(fā)揮這樣幾個(gè)作用,比如信息展示、進(jìn)行員工關(guān)懷,迎接參觀客人等。

除了上述場景之外,商湯科技的數(shù)字人也在新零售與虛擬主持人領(lǐng)域有廣泛的成功案例。商湯的數(shù)字人智能導(dǎo)購不僅可以承擔(dān)一般商超導(dǎo)購、前臺的事務(wù)性工作,其背后的人工智能技術(shù)更可以讓智能前臺成為整個(gè)商超的“百曉生”,無論是某位會員的停車位,還是當(dāng)下各個(gè)店鋪的打折優(yōu)惠信息,她都能游刃有余服務(wù)好每一位顧客?!靶阃饣壑小钡臄?shù)字人也可以承擔(dān)各類線上、線下活動(dòng)的主持人工作,并根據(jù)活動(dòng)主題變換不同外觀、服飾、甚至性格和語言風(fēng)格。

總之,數(shù)字人可以給不同行業(yè)提供解決方案,包括金融行業(yè)、政務(wù)行業(yè)、商場行業(yè)、展廳、車載、形象代言人、直播帶貨等,相信數(shù)字人在今年也會有更好更大的發(fā)展。
要想了解更多元宇宙網(wǎng)絡(luò)及運(yùn)算相關(guān)內(nèi)容信息,可查看MetaCon元宇宙技術(shù)大會官網(wǎng),地址:https://metacon.51cto.com/?

































