偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型應(yīng)用于數(shù)字人

原創(chuàng)
人工智能
數(shù)字人是未來人工智能大模型最重要的應(yīng)用入口。通過大模型的賦能,數(shù)字人的產(chǎn)品發(fā)展首先要提升自主創(chuàng)新能力,有賴于數(shù)字資產(chǎn)的確權(quán)、自有技術(shù)運營、IP的持續(xù)迭代與進化。

大模型會改變整個軟件行業(yè), 其中具有代表性的產(chǎn)品之一是數(shù)字人, 那么,什么是數(shù)字人呢?數(shù)字人涉及了哪些關(guān)鍵技術(shù)呢?大模型對數(shù)字人的發(fā)展帶來哪些影響呢?

1. 什么數(shù)字人?

數(shù)字人目前還缺乏一個相對統(tǒng)一的定義, 有人把人類的數(shù)字孿生體定義為數(shù)字人,有人把虛擬世界中具有人類行為的實體定義為數(shù)字人,有人將3D人體模型稱為數(shù)字人,例如,韓國學界對數(shù)字人的定義是:用數(shù)字化技術(shù),打造具有逼真人類長相、語言、動作姿態(tài)、身體特征的虛擬3D 人體模型。市場調(diào)研機構(gòu)IDC將數(shù)字人定義為“采用人工智能技術(shù)驅(qū)動生成的數(shù)字化的虛擬人物——具備人的外觀、感知互動能力以及表達能力”。

一般地,人們把數(shù)字人稱為數(shù)字人,是通過聚合科技創(chuàng)造的存在于虛擬世界,且具有類"人"特質(zhì)的數(shù)字形象。它是元宇宙中自然人進行虛擬時空感知的主要載體,是實現(xiàn)人機融合交互的組成部分,也是元宇宙的經(jīng)濟增值板塊。數(shù)字人與自然人、機器人共同組成了元宇宙的“三元”。

數(shù)字人能夠感知不同環(huán)境, 根據(jù)人的需求形成"化身" 形象。人機交互將被賦予智能化、情感性和思想性特征,數(shù)字人將復制人類 的知識、記憶、思維和情感,從而在社交系統(tǒng)、生產(chǎn)系統(tǒng)、經(jīng)濟系統(tǒng)上實現(xiàn)與自然人的虛實共生。

數(shù)字人的三大特征是虛擬化、擬人化和智能化。從技術(shù)上看, 數(shù)字人指存在于非物理世界中,由計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等計算機技術(shù)段創(chuàng)造,并具有多重人類特征(外貌特征、人類表演能力、人類交互能力等)的綜合產(chǎn)物。

2. 數(shù)字人的一般設(shè)計流程

數(shù)字人,在技術(shù)上分為靈活的真人驅(qū)動型和基于深度學習的計算驅(qū)動型。

2.1 真人驅(qū)動的數(shù)字人

真人驅(qū)動型在動作靈活度、互動效果等方面有明顯優(yōu)勢, 一方面能夠在影視內(nèi)容的創(chuàng)作中減低生產(chǎn)成本,為影視行業(yè)降低門檻,推動影視級內(nèi)容向消費級轉(zhuǎn)化。另一方面則多用于虛擬偶像、重要直播中,幫助數(shù)字人完成大型直播、現(xiàn)場路演等互動性、碎片化活動。

其一般設(shè)計流程如下:

  1. 形象設(shè)計及建模:繪制原畫,面部及3D建模
  2. 建模綁定:關(guān)鍵點綁定的數(shù)量及位置影響最終效果。
  3. 表演捕捉:捕捉在形體、表情、眼神、手勢等方面的關(guān)鍵點變化。
  4. 驅(qū)動及渲染:根據(jù)制作實時驅(qū)動數(shù)字人表演,特定設(shè)置語音
  5. 生成內(nèi)容,進行互動:進行直播,或錄制其動作生成內(nèi)容

2.2 計算驅(qū)動的數(shù)字人

計算驅(qū)動的數(shù)字人最終效果受到語音合成、NLP 技術(shù)、語音識別等技術(shù)的共同影響。盡管在特定方向上,各感知類技術(shù)已有的商業(yè)化能力已足以支撐,然而,但要達成理想的綜合效果, 需要該公司在三個方面同時具有較強的綜合能力。

其一般設(shè)計流程如下:

  1. 設(shè)計形象:采集數(shù)據(jù)
  2. 形象建模,進行綁定:設(shè)計形象模型,進行關(guān)鍵點綁定。
  3. 訓練各類驅(qū)動模型:利用深度學習,學習語音、形象、表情參數(shù)間的潛在映射關(guān)系。
  4. 內(nèi)容制作:基于輸入的語音預(yù)測唇動、表情等參數(shù),利用GAN 選出最最佳幀,將語音和每幀的數(shù)字人圖片進行結(jié)合。
  5. 進行渲染,生成最終內(nèi)容。

圖片圖片

3 大模型賦能數(shù)字人

生成式AI的崛起,給數(shù)字人產(chǎn)業(yè)帶來了根本性變化。

傳統(tǒng)的數(shù)字人技術(shù)主要依靠預(yù)設(shè)參數(shù)和有限的模型訓練,但大模型技術(shù)則為其提供了近乎無限的訓練參數(shù)和自主生成能力,使數(shù)字人更為真實多樣。大模型包含了數(shù)字人形象、動作、表情、口型、聲音等要素,每個用戶可以結(jié)合個人數(shù)據(jù)對數(shù)字人進行訓練。

大模型對 2D 數(shù)字人的提效顯著。AI 的生成能力天然適配 2D 數(shù)字人。市面上出現(xiàn)了許多 2D 數(shù)字人定制工具,邏輯基本一致:只要你輸入文案素材,就能生成數(shù)字人形象。

3D數(shù)字人的工作流比2D要復雜非常多,大模型能讓數(shù)字人制作成本十倍、百倍地下降,還能讓虛擬數(shù)字人生產(chǎn)周期,從動輒幾個月,縮短到小時級別。數(shù)字人的制作成本,將從百萬級降低到萬元級別。

大模型不僅直接降低了3D數(shù)字人的制作難度,更為數(shù)字人注入了靈魂。過去3D建模依賴傳統(tǒng)CG技術(shù),動作捕捉需要采集真人大量數(shù)據(jù),現(xiàn)在依托于視頻大模型的數(shù)字人工具平臺上,算法可以高效生成3D模型,處理面部細節(jié)也更加逼真,提升了面部表情以及唇形同步的質(zhì)量。

更重要的是, 大模型在很大程度上解決了數(shù)字人的自然語言理解能力,多模態(tài)大模型是數(shù)字人真正的靈魂。然而,創(chuàng)意邊界,毋庸置疑將會依靠大模型的語料庫、算力儲備,以及其所迸發(fā)的涌現(xiàn)能力來提升,效果仁者見仁智者見智。

4 數(shù)字人的評估指標

社會學中人類身體研究分為兩條主要路徑:自然主義身體觀和社會建構(gòu)論身體觀。自然主義身體觀重點強調(diào)人類的軀體屬性“肉身”, 而社會建構(gòu)論身體觀則重點強調(diào)人類的社會屬性“社身",從功能角度分析,兩種身體觀都關(guān)注了人類的工具屬性"具身”。數(shù)字人綜合指數(shù)以此為基礎(chǔ),將社會學中自然人的“身體觀”引入數(shù)字人的評估思想中,形成數(shù)字人“三身”指數(shù)評價體系。

圖片圖片

5. 數(shù)字人的產(chǎn)業(yè)鏈

國內(nèi)外在細分市場上的競爭差異較大,國內(nèi)外目前的共同市場是自動生成虛擬內(nèi)容,但在外表細節(jié)、預(yù)設(shè)模板、配 套系統(tǒng)等方面的差異較大。國外更關(guān)注情感關(guān)懷的顧問/助手類數(shù)字人和用于打造數(shù)字人的應(yīng)用,國內(nèi)更關(guān)注虛擬客服類場景,對虛擬直播的高度關(guān)注是我國特有方向。

圖片圖片

6. 數(shù)字人的類型與應(yīng)用領(lǐng)域

數(shù)字人的應(yīng)用可分為服務(wù)型數(shù)字人和身份型數(shù)字人,替代真人服務(wù)中的虛擬主播和虛擬IP中的虛擬偶像是目前的市場熱點。

圖片圖片

6.1 B端應(yīng)用

目前,數(shù)字人產(chǎn)品大多應(yīng)用于B端場景,例如幫助互聯(lián)網(wǎng)商家實現(xiàn)全天候輪播的虛擬主播、 辦事大廳內(nèi)自助辦理業(yè)務(wù)的虛擬前臺、自動處理訴求的虛擬客服等,B端消費者仍是市場的主要組成部分。

  1. 重構(gòu)內(nèi)容生產(chǎn)模式
  2. 提升數(shù)字內(nèi)容生產(chǎn)效率和質(zhì)量
  3. 重新定義粉絲經(jīng)濟
  4. 助力品牌傳播
  5. 轉(zhuǎn)變品牌形象
  6. 拉近品牌和用 戶的關(guān)系
  7. 新型帶貨賦能電商
  8. 推動數(shù)字化轉(zhuǎn)型
  9. 助力企業(yè)提質(zhì)增效

6.2 C端應(yīng)用

數(shù)字人產(chǎn)品的C 端應(yīng)用場景包括上傳照片后重現(xiàn)逝去親友的虛擬親友、服務(wù)于兒童教育的虛擬陪讀、監(jiān)管自媒體公眾號的虛擬小編等。C端應(yīng)用場景仍有較大挖掘潛力。

  1. 參與用戶的生活
  2. 追求更真實、更理想的自我
  3. 緩解真人手語主持人稀缺問題
  4. 有效解決聽障人士溝通問題
  5. 成為人們的助理、朋友甚至伴侶

7 數(shù)字人應(yīng)用示例:品牌 IP 化

IP的呈現(xiàn)是抽象化的品牌理念被具象化后的產(chǎn)物,承載了品牌希望消費者被喚起的感性共鳴,并以獨特的特質(zhì)將該品牌與其他品牌進行區(qū)分。企業(yè)品牌往往以IP形象進行傳播,動態(tài)的IP形象更能傳遞親切感,引發(fā)受眾的共情,使品牌形象更加鮮活生動,例如若干年前的海爾兄弟。如今,品牌方開始推出人形IP, 并從2D 的動畫展示進化為3D 的 立體呈現(xiàn),追求更加擬人化的效果,以拉近和受眾的距離。

但是,單向傳播無法充分調(diào)動受眾的參與感。品牌方推出加入智能語音交互的數(shù)字人IP, 使之成為幫助用戶處理具體事務(wù)的虛擬助手角色,或是陪伴角色。長時陪伴的IP使得用戶產(chǎn)生更深層的情感,甚至形成“養(yǎng)成”體驗, 增強IP的定制感。數(shù)字人IP的身份可以是寵物、伴侶、子女、同學等,用戶不僅能夠見證虛擬IP被自己塑造而發(fā)生的改變,也能洞見自身 在這一過程中的成長。

8. 數(shù)字人面臨的問題與挑戰(zhàn)

數(shù)字人同樣存在技術(shù)瓶頸,也出現(xiàn)一些新的問題。

8.1 技術(shù)挑戰(zhàn)

尤其是計算型數(shù)字人,受限于大批量、高質(zhì)量的訓練數(shù)據(jù)樣本,實現(xiàn)泛化性仍然是當前存在的挑戰(zhàn)。寫實風格的數(shù)字人在越來越像人的同時,仍需突破“恐怖谷效應(yīng)"。

情感傳達是技術(shù)瓶頸。當前仍然主要運用動作捕捉技術(shù),數(shù)字人的表情基準還是無法傳達類似于眉毛的彎曲度,肌肉顫動等微表情細節(jié),所以很難將中之人所表達的情感完全傳達出來。在人與數(shù)字人的在交流過程中只能單純的傳達文字,而背后的情感語義和情緒則沒有辦法直接傳達出來。另外,數(shù)字人缺少情感Al 算法的應(yīng)用,沒有辦法通過判斷人說話的情感來轉(zhuǎn)變回復進而改變情感傾向,實現(xiàn)更人性化的交互,基于多模態(tài)的大模型或許可以部分解決這一問題。

8.2人類友好問題

數(shù)字人所營造的新型人機關(guān)系,可能成為人類組織活動中強行嵌入的某種“異物”,人類組織對這類智能嵌入物是否有排異反應(yīng),目前還很難從個別的孤例中獲取足夠的數(shù)據(jù),做出有效的判斷。也就是說,當大量數(shù)字人,處于工作崗位、擔當工作職責的時候,組織行為將會出現(xiàn)何種變化,尚待考察。

8.3 倫理問題

智能技術(shù)的核心算法,將技術(shù)與倫理問題緊密結(jié)合在一起。某種智能算法支撐下的數(shù)字人,在深度學習、大數(shù)據(jù)浸染之下,可能具備某種價值傾向、倫理傾向,甚至可能帶有某種“邪惡”傾向。

8.4 法律問題

隱私保護是不變的主題,制作有真人原型的數(shù)字人需要抓取大量信息,而大量地、 非法地提供這些信息反映出漠視或忽略隱私保護的現(xiàn)象。隱 私安全的權(quán)利一部分屬于現(xiàn)實用戶,另一部分屬于產(chǎn)生了自我意識的數(shù)字人。利用深度合成技術(shù)可以實現(xiàn)人臉再現(xiàn),但隨著網(wǎng)絡(luò)技術(shù)逐步發(fā)展以及對肖像權(quán)保護力度的不足,大量抓取網(wǎng)絡(luò)視頻、圖像的深度合成問題成為一種法律隱患。

虛擬空間是制作數(shù)字人的底層結(jié)構(gòu),因此虛擬網(wǎng)絡(luò)的管轄 權(quán)就是客觀規(guī)劃數(shù)字人的基礎(chǔ)。法律的管轄首先需要確定網(wǎng)絡(luò)犯罪的所在地,而虛擬空間中的犯罪行為最初和最終發(fā)生在什么地方難以確定。

對應(yīng)開發(fā)者而言,“避風港原則”是一種針對網(wǎng)絡(luò)服務(wù)提供者的責任豁免原則,具體指網(wǎng)絡(luò)服務(wù)提供者接到權(quán)利人的通知后,根據(jù)法律規(guī)定斷開與侵權(quán)的作品、表演、錄音錄像制品的鏈接的,不承擔賠償責任。

9. 小結(jié)

數(shù)字人是未來人工智能大模型最重要的應(yīng)用入口。通過大模型的賦能,數(shù)字人的產(chǎn)品發(fā)展首先要提升自主創(chuàng)新能力,有賴于數(shù)字資產(chǎn)的確權(quán)、自有技術(shù)運營、IP的持續(xù)迭代與進化。同時,需要打造全媒體的多模態(tài)傳播體系和持續(xù)性事件營銷體系,為數(shù)字人的傳播內(nèi)容的生產(chǎn)、呈現(xiàn)、自傳播提供源泉,不斷提升傳播影響力。挖掘個性化傳播內(nèi)容,通過個性化吸引目標用戶并保持用戶粘性、提升忠誠度與口碑。另外,重視社會價值傳播,賦予虛擬數(shù)字人社會服務(wù)屬性,提升行業(yè)影響力和自身公信力。

如果覺得數(shù)字人過于復雜,不妨從一個語音機器人入手,臨近雙十一,推薦給大家一本本人參與的最新譯作,可以作為語音機器人產(chǎn)品經(jīng)理的案頭手冊,對于數(shù)字人的設(shè)計同樣大有裨益。

責任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2024-01-22 10:05:13

人工智能

2023-10-30 00:14:34

Agent提示工程LLM

2018-07-29 15:54:52

物聯(lián)網(wǎng)IOT物聯(lián)網(wǎng)應(yīng)用

2024-04-12 14:34:59

2009-06-10 15:57:49

AndroidMIPS架構(gòu)

2024-03-19 15:09:07

2024-10-15 14:08:06

2025-03-28 08:00:00

RAG文本檢索大模型

2024-04-23 10:24:33

3D數(shù)字孿生制造業(yè)物聯(lián)網(wǎng)

2022-10-24 10:20:28

物聯(lián)網(wǎng)智能計量

2022-01-27 15:33:11

區(qū)塊鏈金融技術(shù)

2020-12-21 14:40:10

Java技術(shù)開發(fā)

2020-03-03 08:42:18

物聯(lián)網(wǎng)技術(shù)物聯(lián)網(wǎng)IOT

2023-05-05 14:11:12

區(qū)塊鏈航空領(lǐng)域

2009-05-06 16:54:05

firefoxseo瀏覽器

2016-02-18 10:32:39

谷歌TensorFlow 機器學習

2023-05-18 13:48:13

谷歌PaLM 2

2009-12-29 18:17:32

Silverlight

2023-10-18 06:49:06

人工智能API安全

2023-09-18 18:49:45

點贊
收藏

51CTO技術(shù)棧公眾號