阿里文娛公開!AI 如何對爆款內(nèi)容未卜先知?
一、文娛產(chǎn)業(yè)趨勢及技術挑戰(zhàn)
文娛內(nèi)容不像商品有完整的量化指標體系,它是一個復雜的實體,它跟意識形態(tài)以及用戶體驗強相關,對內(nèi)容進行量化評估和衡量是非常困難的。
比如,選角兒。我們不能通過單一指標去衡量一個演員,我們需要綜合考量演員的演技、氣質(zhì)、顏值、潛力等與否與某一個角色匹配,并且能生成數(shù)據(jù)指標,以實現(xiàn)縱橫向的對比。另外,導演、主演組盤是否為最優(yōu)組合,能否成為爆款?這是更加復雜的選擇模式問題。今天面臨的技術挑戰(zhàn)是如何進行知識的抽取、挖掘以及推理,確定什么樣的組合是最優(yōu)解。
除上述兩個問題,影片的拍攝過程更是一個龐大的系統(tǒng)工程和藝術創(chuàng)作過程。以《長安十二時辰》為例,該片非群演有約1000人,群演有300到1500人,歷時7個月拍攝217天。我們參考軟件工程行業(yè),軟件工程發(fā)展了70年,主要研究三個層面:方法論、過程以及工具,然后是如何將三者組合。軟件行業(yè)的敏捷開發(fā)對于軟件工程的質(zhì)量和效率都有非常大的提升,如何將這些理論應用到內(nèi)容制作產(chǎn)業(yè),讓內(nèi)容制作敏捷起來?
內(nèi)容敏捷即知曉過程對結果造成的影響是什么,并快速地調(diào)整內(nèi)容創(chuàng)作過程,讓它更敏捷。但內(nèi)容行業(yè)面臨的獨有特點“延遲滿足”,讓用戶在內(nèi)容的某一分鐘特別嗨,可能來自于前面的30分鐘鋪墊在那一分鐘爆發(fā)了,針對內(nèi)容的這個特點,我們除了要做基本的知識圖譜語義的理解之外,還要考慮如何去做有效的對應分析,如何去做對應的知識抽取等問題。
今天這個問題加劇了,比過去還要復雜。在過去的5到10年里,UPGC加上整個內(nèi)容的生產(chǎn)量極大的發(fā)展,用戶的消費分層化、多樣化。全民爆款越來越少,用戶對內(nèi)容的需求更加個性化。相應于內(nèi)容生產(chǎn)端,就需要考慮不同用戶群的個性化需求。
二、文娛大腦基本框架:內(nèi)容認知新動力
針對上面幾大困難,我們今天在做文娛大腦——優(yōu)酷北斗星智庫來解決。我們將所有的內(nèi)容形式和用戶消費的數(shù)據(jù)都采集下來,將人工智能的技術手段、業(yè)務領域的細分理論做整合融合,構建內(nèi)容認知框架。
內(nèi)容認知框架分為兩部分,內(nèi)容和用戶。其思路就是心理學發(fā)展的基本的思路。
1)內(nèi)容側(cè):對內(nèi)容進行理解,包括外延和內(nèi)涵。外延就是內(nèi)容的各種基本屬性,比如主創(chuàng)陣容、題材類型等;內(nèi)涵主要研究內(nèi)容的戲劇理論和視聽語言,圍繞制作內(nèi)容的支撐要素,我們用傳統(tǒng)的機器學習方式對內(nèi)容進行理解,再基于戲劇理論和視聽語言構造內(nèi)容的衡量要素。
2)用戶側(cè):分析用戶的觀看行為。用戶行為來自于用戶的心理偏好、心理情緒。用戶心理偏好、心理情緒來自于生理構造,基于心理學的五大人格理論和用戶的觀看行為,構建模型建立左邊和右邊的連接,從而知道創(chuàng)造什么樣的內(nèi)容,用戶會有什么樣的感受。
三、貫穿全生命周期的文娛大腦生產(chǎn)力
基于內(nèi)容認知框架,我們在內(nèi)容生命周期的每個階段都做了具體工作:開播前提供內(nèi)容評估、藝人挖掘和內(nèi)容情緒挖掘等能力;在早期為內(nèi)容評估提供有效的數(shù)據(jù)支撐;在制作階段提供現(xiàn)場解決方案,比之前更敏捷的反饋機制;同樣在播出后也提供數(shù)據(jù)支持,實現(xiàn)更好的宣發(fā)。
1、IP/劇本分析
上圖是《長安十二時辰》的分析示例,我們把已有的劇本作為樣本,讓機器去學習,識別出劇本的所有角色,把角色直接交互的對白、行為識別出來,再進行社團的劃分?!堕L安》劇本最終劃分出來幾個群體:反恐防暴小分隊以張小敬為中心,唐朝核心管理團隊以皇上為中心。通過這種方式快速定位整個劇本的人物和人物關系的展開。
2、用戶情緒識別與成片情緒挖掘
圍繞角色關系,將整個劇本的角色情緒也識別出來,構造成如上的曲線?;趯A縿”镜姆治銮€,抽取出各個指標(出鏡率、戲份、情緒值等)并形成benchmark,對于之后的每一個劇本進行衡量,相當于對劇本進行一個“體檢”。
同樣是“體檢”的方法,對于《藥神》和《長安十二時辰》,我們做了用戶情緒的識別、體檢的掃描,參考零線的位置。我們發(fā)現(xiàn)《藥神》幾乎都是正向和負向級的,直到最后出現(xiàn)一個正向區(qū)間,基本上后期都是以眼淚為主。而《長安十二時辰》的情緒狀態(tài)比較穩(wěn)定。對照情緒高低點的具體情節(jié),我們發(fā)現(xiàn),曲線表達的情緒和具體的故事情節(jié)是非常相符的。
3、情緒強度預測與網(wǎng)絡收視率
然后我們拿更多的方式去驗證它的合理性,上圖抽取《長安十二時辰》的劇集,每集有兩條曲線,藍線是剛才預測的情緒曲線,黃線是播放指數(shù)(表示每一秒鐘有多少用戶在看),通過兩條曲線對比,我們可以發(fā)現(xiàn),兩條曲線的相關性比較高的將近60%,情緒的高峰、低谷和用戶的觀看行為狀態(tài)是吻合的,由此我們就提供了一種能力,基于這種能力對劇本或影片做情緒掃描,實現(xiàn)對影片熱度的未播先知,再對比benchmark,幫助制作者更高效的完成制作。
4、用戶情感曲線在技術上是如何實現(xiàn)的?
首先,我們把用戶觀影情緒的表述,映射到認知計算中常用的二維空間表示,也就是Valence 和Arousal。Valence表示情緒正負極性,Arousal表示情感激烈程度;
其次,基于情緒極性跟強度提供一個預測,這個是我們今年產(chǎn)出的論文。近兩年,心理學研究的核心觀點是為什么用戶會感同身受?這來自于前兩年的一個理論——靜向神經(jīng)元,所以我們選擇場景、表情、動作以及聲音作為基本的模型的輸入,對模型參數(shù)進行學習。
如上所講,內(nèi)容產(chǎn)業(yè)有強延遲滿足的問題,我們通過兩層分析來解決長短期滿足的問題,除用戶情緒分析,我們也做內(nèi)容角色的情緒識別。通過圖片表情識別模型,識別不同題材類型的影片,可以獲得不同角色刻畫的人物性格。如2004年的《反貪風暴》,時隔十多年,主創(chuàng)人物形象的臉譜還是正向的。上圖顯示的負面角色情緒以開心、害怕為主,正面形象以悲傷、生氣為主,與負面反派的開心正好相對,正面的人一直很沮喪,是一個有些壓抑角色形象。
同樣,我們分析角色的每秒情緒,形成角色的正負情緒曲線,部分影片的分析結果曲線如上圖,不同題材類型的節(jié)目會有不同的情緒密度。所以,你想放松的時候,要看的不一定是喜劇,喜劇其實不一定會放松,因為角色的正負向情緒不停交替,由于延遲滿足,大腦負荷非常大,需要做長短記憶,反而很多愛情片對大腦的占用相對低。
角色情緒檢測是一個分類問題,所以利用人臉landmark對初始圖像做識別,生成densemap作為附加通道,和原始圖片RGB三通道拼接合并后作為模型輸入,這樣可以使densemap對應的關鍵區(qū)域權重更大,更容易讓模型捕捉關鍵區(qū)域特征;合成的輸入送入到Reduced Xception 網(wǎng)絡進行特征提取;在loss方面,我們引入了基于SVM的marge loss,提升各情緒類別的類間差距,提升情緒識別的效果,具體如上圖。
基于前面對內(nèi)容的各種理解產(chǎn)生的各種緯度的內(nèi)容的量化緯度,我們構建了預測模型,可以提前預測出節(jié)目的流量走勢,如內(nèi)容認知框架中所講的,首先對內(nèi)容進行量化,然后對內(nèi)容相應的量化緯度進行提前的預測,為業(yè)務決策提供輔助支撐。 最后,分享我對未來趨勢的一些見解。在強人工智能尚遙遠的情形下,如何結合機器AI和人工經(jīng)驗將是個永恒主題。一是結合符號學派智能和鏈接學派智能,建設和完善決策引擎,包括結合人工邏輯規(guī)則和可學習數(shù)據(jù)AI,不確定性分析框架和經(jīng)久不衰的貝葉斯因果決策,以及神經(jīng)元化的混合智能計算框架。二是量化的心理學研究也越來越重要,如何結合大數(shù)據(jù)應用價值非常大。這也是阿里文娛大腦探索的方向。