偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

貓眼電影李明輝:機(jī)器學(xué)習(xí)在票房預(yù)估中的實(shí)戰(zhàn)

原創(chuàng)
開發(fā) 項(xiàng)目管理 機(jī)器學(xué)習(xí)
高風(fēng)險(xiǎn)且投資回報(bào)率難以預(yù)測(cè),很多時(shí)候大投入未必有大產(chǎn)出。在電影票房方面,預(yù)測(cè)工具的缺失,導(dǎo)致電影票房預(yù)測(cè)處于一個(gè)真空地帶。

【51CTO.com原創(chuàng)稿件】近幾年我國(guó)票房市場(chǎng)成倍增長(zhǎng),2011 年近 150 億,2016 年 450 億,預(yù)計(jì) 2020 年前后會(huì)達(dá)千億規(guī)模。但這樣的市場(chǎng)規(guī)模僅接近美國(guó)市場(chǎng)的一半左右,原因在于中國(guó)電影主要收入來(lái)源于電影票房本身,而美國(guó)電影衍生品的收入高達(dá)電影相關(guān)產(chǎn)業(yè)總收入的 70%,中國(guó)在這塊卻幾乎空白。所以說(shuō),中國(guó)電影市場(chǎng)未來(lái)還有很大的成長(zhǎng)空間。

誠(chéng)然,機(jī)遇與風(fēng)險(xiǎn)并存,票房市場(chǎng)呈暴增趨勢(shì),問題也隨之顯現(xiàn)。當(dāng)下,我國(guó)投入發(fā)行上映的電影有很多,每周都有近十部電影上映,但大部分電影不賺錢,賠本成常態(tài)。

高風(fēng)險(xiǎn)且投資回報(bào)率難以預(yù)測(cè),很多時(shí)候大投入未必有大產(chǎn)出。在電影票房方面,預(yù)測(cè)工具的缺失,導(dǎo)致電影票房預(yù)測(cè)處于一個(gè)真空地帶。

票房預(yù)測(cè)的意義、難點(diǎn)及影響票房的因素

票房預(yù)測(cè)的意義

票房預(yù)測(cè)非常重要,在每個(gè)階段,都會(huì)起到很關(guān)鍵的作用:

  • 電影上映前,此時(shí)投資方準(zhǔn)備投放一部電影,如可提前預(yù)估投資回報(bào)率,就能夠有效控制風(fēng)險(xiǎn)。
  • 電影發(fā)行期,對(duì)電影進(jìn)行廣告和營(yíng)銷,如可依據(jù)電影票房規(guī)模制訂不同營(yíng)銷方案,就能夠控制成本。
  • 電影上映期,可根據(jù)票房預(yù)估結(jié)果,進(jìn)行智能排片,趨近利益最大化的目標(biāo)。

票房預(yù)測(cè)的難點(diǎn)

目前,票房預(yù)測(cè)達(dá)不到預(yù)期效果,是因?yàn)槊媾R如下幾大難點(diǎn):

  • 中國(guó)電影正處于野蠻生長(zhǎng)期,市場(chǎng)不夠成熟。
  • 可使用的數(shù)據(jù)和參考的信息非常龐大,噪音卻很多,想從互聯(lián)網(wǎng)、搜索引擎、社交網(wǎng)絡(luò)等渠道獲得的大量電影信息中,挖掘?qū)ζ狈坑杏玫臄?shù)據(jù)很難。
  • 可供參考和學(xué)習(xí)的樣本比較少,這是利用機(jī)器學(xué)習(xí)解決票房預(yù)測(cè)時(shí)遇到的最大問題。如若沒有樣本和數(shù)據(jù),再好的方法、再高級(jí)的模型,也難以應(yīng)用。
  • 有些感性特征難以量化,如通常憑借口碑來(lái)評(píng)價(jià)一部電影的好壞,但口碑如何來(lái)度量?如國(guó)慶、暑假對(duì)電影上映的影響,又如何度量?

影響票房的因素

票房高低,會(huì)受到很多方面的影響。如下,是一些關(guān)鍵因素

  • 題材。這部電影是動(dòng)畫片、文藝片、動(dòng)作片、還是國(guó)際好萊塢大片,題材不同導(dǎo)致受眾范圍不同,直接影響票房高低。
  • 卡司陣容。演員、導(dǎo)演的陣容,會(huì)形成粉絲群范圍,不排除有些電影質(zhì)量、內(nèi)容不是很好,但因?yàn)橛幸恍┍容^有號(hào)召力的演員參演,帶來(lái)可觀票房的現(xiàn)象。
  • 影片質(zhì)量。影片的質(zhì)量、口碑,大家公認(rèn)較好,且在社交上傳播廣泛,也會(huì)帶來(lái)票房的增量。
  • 檔期。受到同期上映電影的競(jìng)爭(zhēng),會(huì)影響某部電影的票房。
  • 宣傳力度。營(yíng)銷用多少成本,廣告花費(fèi)多少,電影上映時(shí)候投入票補(bǔ)多少,也會(huì)影響票房。
  • 非市場(chǎng)因素。比如官方因素,前期給某部電影設(shè)立出售目標(biāo)或出現(xiàn)國(guó)家較反對(duì)的內(nèi)容,買、偷票房數(shù)據(jù)等因素都會(huì)影響票房。

貓眼票房預(yù)測(cè)的整體技術(shù)體系

從最早期 1915 年前后的電影膠片時(shí)代到現(xiàn)在,在票房預(yù)測(cè)的整個(gè)發(fā)展過程中,我們經(jīng)歷了三大階段,涉及到很多預(yù)測(cè)方式,具體細(xì)節(jié)見下圖:

2013 年之后,當(dāng)前的電影票房預(yù)測(cè)涉及全國(guó)實(shí)時(shí)票房、影院級(jí)實(shí)時(shí)票房、天極票房和總票房等部分。貓眼目前重點(diǎn)關(guān)注上映前一天、上映第一天以及上映當(dāng)周周末這幾個(gè)重要時(shí)間點(diǎn)的票房效果。

如下圖,是貓眼票房預(yù)測(cè)的整體技術(shù)體系:

機(jī)器學(xué)習(xí)在票房預(yù)估中的實(shí)戰(zhàn)

  • 實(shí)時(shí)票房,是每部電影在上映階段,當(dāng)天產(chǎn)生的票房。還有排片、人次、平均票價(jià)等各種細(xì)密度數(shù)據(jù)。
  • 天級(jí)票房,是預(yù)測(cè)每部影片在全國(guó)放映次日的票房,目前貓眼能做到在前一日 17 點(diǎn)、21 點(diǎn)預(yù)測(cè)第二天的票房。
  • 總票房,是指每部影片在整個(gè)上映周期的全國(guó)票房預(yù)測(cè),以首映日、首周末日為時(shí)間節(jié)點(diǎn)。
  • 實(shí)時(shí)票房、天極票房和總票房三者之間存在一定的關(guān)系。實(shí)時(shí)票房提供實(shí)時(shí)和未來(lái)預(yù)測(cè)的數(shù)據(jù),為天級(jí)票房提供數(shù)據(jù)的基礎(chǔ)。天極票房預(yù)測(cè)某一天的票房,為總票房預(yù)測(cè)提供數(shù)據(jù)的基礎(chǔ)。

如下圖,是基礎(chǔ)數(shù)據(jù)、預(yù)測(cè)服務(wù)和貓眼專業(yè)版三個(gè)子模塊的相關(guān)關(guān)系:

機(jī)器學(xué)習(xí)在票房預(yù)估中的實(shí)戰(zhàn)

如圖中所示,基于合作影院售票數(shù)據(jù)、貓眼售票平臺(tái)交易數(shù)據(jù)等這些基礎(chǔ)數(shù)據(jù),可對(duì)全國(guó)實(shí)時(shí)票房及每個(gè)影院的實(shí)時(shí)票房進(jìn)行預(yù)測(cè),當(dāng)然獲得的數(shù)據(jù)還需要進(jìn)行一些降噪處理。

得到全國(guó)每個(gè)影院的實(shí)時(shí)票房后,可以做到城市地區(qū)實(shí)時(shí)票房的預(yù)測(cè)。重點(diǎn)是天級(jí)票房和總票房的預(yù)測(cè),需要相對(duì)復(fù)雜的方法來(lái)做,處理后的數(shù)據(jù)都會(huì)展示在貓眼專業(yè)版,提供給電影從業(yè)者,影院經(jīng)理、片方等進(jìn)行參考。

如下圖,是貓眼工具首頁(yè):

機(jī)器學(xué)習(xí)在票房預(yù)估中的實(shí)戰(zhàn)

工具首頁(yè)顯示的是實(shí)時(shí)票房,點(diǎn)擊進(jìn)入就會(huì)看到天級(jí)票房和總票房的預(yù)測(cè)結(jié)果。當(dāng)然,在這些數(shù)據(jù)背后,也會(huì)存在一些問題和解決方法,下面我們從實(shí)時(shí)票房開始,依次分析天極票房、總票房背后分別有哪些技術(shù)在支撐。

實(shí)時(shí)票房

實(shí)時(shí)票房數(shù)據(jù)對(duì)于電影從業(yè)者很重要,通過貓眼工具可看到電影在所有影院里的排片、分布和實(shí)時(shí)票房數(shù)據(jù)。如果沒有這樣的工具,這些數(shù)據(jù)只能等待第二天國(guó)家電影票房的公布。

我們與 90% 的電影院合作、對(duì)接 18 種售票系統(tǒng)、詳細(xì)的影院場(chǎng)次及座位數(shù)據(jù)等等,這些是貓眼做實(shí)時(shí)票房的優(yōu)勢(shì)。用貓眼買過票的人,一定對(duì)下圖所示 UI 很熟悉。

機(jī)器學(xué)習(xí)在票房預(yù)估中的實(shí)戰(zhàn)

在購(gòu)票過程中,紅色不能賣,那是不是說(shuō)把全國(guó)所有影院紅色數(shù)據(jù)加起來(lái),就趨近實(shí)時(shí)票房了?

看起來(lái)是這樣一個(gè)簡(jiǎn)單的道理,但事實(shí)上,紅色數(shù)據(jù)并不代表全部銷售,像電影院預(yù)留的電影票,想留一些好座位或自己售賣獲得更高收益,也會(huì)呈現(xiàn)紅色。

給這個(gè)問題定義就是已知貓眼合作影院(占全國(guó)約 90%)每部電影、每個(gè)場(chǎng)次的實(shí)時(shí)座位圖數(shù)據(jù),如何準(zhǔn)確預(yù)測(cè)每部電影在全國(guó)全部影院的實(shí)時(shí)票房總和。這里難點(diǎn)有兩個(gè):

  • 位置圖中狀態(tài)不明確,導(dǎo)致數(shù)據(jù)噪音大。
  • 不是全部影院,數(shù)據(jù)不完備。

針對(duì)這兩個(gè)問題,貓眼的解決方案是進(jìn)行數(shù)據(jù)抽樣,以部分樣本為基礎(chǔ),估計(jì)全量。

如下圖,是實(shí)時(shí)票房的統(tǒng)計(jì)模型

機(jī)器學(xué)習(xí)在票房預(yù)估中的實(shí)戰(zhàn)

有很多影院與貓眼合作,設(shè)共有 n 個(gè)場(chǎng)次,從這些影院中抽樣出“高質(zhì)量”的影院,設(shè)共有m個(gè)場(chǎng)次。

什么是高質(zhì)量呢?就是看到的紅色位置數(shù)據(jù)和第二天上報(bào)的數(shù)據(jù)相接近。統(tǒng)計(jì) m 場(chǎng)次的售票數(shù)量,設(shè)為 X。通過右上角紅色框內(nèi)的公式,可得到全國(guó)的售票總量,其中X、m、n 抽取高質(zhì)量影院的數(shù)據(jù)是確定的,只有 α 是未知。

這時(shí),可使用前一天或歷史的 α 值來(lái)模擬今天的 α 值。帶入如圖中的公式,就可得出當(dāng)天的預(yù)估值,這是票房最核心的統(tǒng)計(jì)模型。

如下,是實(shí)時(shí)票房整個(gè)的框架圖

機(jī)器學(xué)習(xí)在票房預(yù)估中的實(shí)戰(zhàn)

為了可以很好的提供實(shí)時(shí)服務(wù),面對(duì)龐大的計(jì)算量,可以把計(jì)算分為離線和在線兩部分。

α 值相對(duì)穩(wěn)定,采用離線計(jì)算的方式即可。在線部分需要做數(shù)據(jù)清洗、票價(jià)處理,以及實(shí)時(shí)票數(shù)、票房的計(jì)算等。影院、地區(qū)實(shí)時(shí)票房計(jì)算是另一個(gè)相對(duì)獨(dú)立的部分,算法也比較類似,這里不再詳細(xì)介紹。

天級(jí)票房

基于在線售票系統(tǒng)可獲得直接交易的數(shù)據(jù),預(yù)售票房、排片場(chǎng)次等細(xì)粒度數(shù)據(jù)和精準(zhǔn)的實(shí)時(shí)票房為天級(jí)票房預(yù)測(cè)提供可靠的特征,這是貓眼在天級(jí)票房預(yù)測(cè)方面的優(yōu)勢(shì)。

天級(jí)票房是指預(yù)測(cè)未來(lái)某一天的票房,貓眼目前可以達(dá)到提前一天預(yù)測(cè)第二天票房,如下圖是《速度與激情 8》首映票房走勢(shì)

機(jī)器學(xué)習(xí)在票房預(yù)估中的實(shí)戰(zhàn)

從圖中可以看到前一天 21 點(diǎn)預(yù)測(cè)票房,比例約占全天的 30% 左右的份額。貓眼在 30% 左右的售出情況下預(yù)測(cè)整體,難度系數(shù)很高,因?yàn)槊坎侩娪罢急炔煌?/p>

一個(gè)基本假設(shè)為票房 = 票價(jià)*人次 = 票價(jià)*場(chǎng)次*場(chǎng)均人次,可以看出很多特征均是乘積關(guān)系的。

做對(duì)數(shù)變換后,特征與目標(biāo)之間就有了線性關(guān)系,可以利用線性模型來(lái)解決這個(gè)問題,如下是方程式

log(票房) = log(票價(jià))+log(場(chǎng)次)+log(場(chǎng)均人次)

y=w1*x1+w2*x2+...

如下是對(duì)數(shù)特征與目標(biāo)之間的關(guān)系圖:

log(票房) = log(票價(jià))+log(場(chǎng)次)+log(場(chǎng)均人次)  y=w1*x1+w2*x2+...

通過這兩幅圖,可以看出前一日預(yù)售 VS 次日票房和前一日排片場(chǎng)次 VS 次日票房之間存在很強(qiáng)的線性相關(guān)。

特征和目標(biāo)變量之間的關(guān)系是線性的,就可以采用線性回歸模型來(lái)擬合票房,如下圖:

左側(cè)圖為一元線性回歸,右側(cè)為多元線性回歸。它們是回歸分析預(yù)測(cè)法中最簡(jiǎn)單和最常用的方法。目標(biāo)為平方誤差,求解方法有最小二乘法、梯度下降等。這里引入正則化可防止過擬合。

如下圖所示,為天級(jí)票房預(yù)測(cè)主要用到的特征

一方面是實(shí)時(shí)票房提供的特征,另一方面是貓眼自身售票系統(tǒng)帶來(lái)的票房相關(guān)特征。還有一些其他特征,如節(jié)假日、特征的組合等。

因?yàn)槊刻斓囊?guī)律都不相同,采用單一線性回歸模型來(lái)擬合票房預(yù)測(cè)效果并不好。所以貓眼采用的方式是找到票房衰減規(guī)律,分段建模。

根據(jù)不同時(shí)間單獨(dú)建模型,對(duì)首映日、非首映日,節(jié)假日、周幾都會(huì)進(jìn)行單獨(dú)考慮。

總票房

先來(lái)看一個(gè)比較明顯的總票房預(yù)測(cè)對(duì)比,如下圖:

圖中所示兩條曲線,分別是《速度與激情 8》與《摔跤吧!爸爸》的票房走勢(shì)。

第一張《速度與激情 8》的票房走勢(shì)是相對(duì)正常的,但第二幅《摔跤吧!爸爸》后期因?yàn)榭诒粩喟l(fā)酵,導(dǎo)致票房曲線不斷上揚(yáng)。這樣的情況,前期很難預(yù)測(cè)票房可以上漲多少。

總票房重點(diǎn)在首映日、首周末兩個(gè)時(shí)間節(jié)點(diǎn)來(lái)預(yù)測(cè)票房總量。如下圖,是總票房預(yù)測(cè)的層次模型

總票房根據(jù)預(yù)測(cè)日的不同進(jìn)行區(qū)別,如首映日、首周末一定要進(jìn)行拆分。在不同的時(shí)間段上映,所用的模型也有所區(qū)別,都需要單獨(dú)建模。

如下圖,是總票房預(yù)測(cè)用到的特征

總票房特征與天級(jí)票房特征差別很大,涉及影片屬性、檔期、競(jìng)爭(zhēng)等。

如下圖,是總票房預(yù)測(cè)用到的支持向量回歸模型:

機(jī)器學(xué)習(xí)在票房預(yù)估中的實(shí)戰(zhàn)

此模型的優(yōu)點(diǎn)有三個(gè):

  • 特征維度大于樣本數(shù)時(shí),仍然適用。
  • 小樣本情況下,模型泛化性強(qiáng)。
  • 非線性核函數(shù),可解決非線性的回歸問題。

未來(lái)工作展望

在票房預(yù)測(cè)的基礎(chǔ)方面,貓眼需要提高效果、提前時(shí)間點(diǎn)和進(jìn)行方法創(chuàng)新。細(xì)則有如下幾點(diǎn):

  • 洞察票房?jī)?nèi)在規(guī)律,不斷探索新的方法。
  • 正在嘗試預(yù)測(cè)票房走勢(shì)、預(yù)售比。
  • 交互式預(yù)測(cè)系統(tǒng):支持總票房、天級(jí)票房的預(yù)測(cè)。
  • 天級(jí)票房再提前 1~2 天的小目標(biāo)。
  • 總票房預(yù)測(cè)提前 1 個(gè)月的大目標(biāo)。

在應(yīng)用拓展方面,細(xì)則也有如下幾點(diǎn):

  • 影片排片:排片助手=>智能排片。
  • 發(fā)行營(yíng)銷:參與營(yíng)銷計(jì)劃,進(jìn)行票補(bǔ)的優(yōu)化。
  • 樹立票房預(yù)測(cè)的行業(yè)標(biāo)桿。

以上內(nèi)容根據(jù)李明輝老師在WOTI全球創(chuàng)新技術(shù)峰會(huì)——巔峰論壇的演講內(nèi)容整理。

[[206175]]

2016 年加入貓眼大數(shù)據(jù)部,負(fù)責(zé)票房預(yù)測(cè)方向。2007 年畢業(yè)于哈爾濱工業(yè)大學(xué),并獲得計(jì)算機(jī)應(yīng)用博士學(xué)位,后就職于微軟、百度、阿里等互聯(lián)網(wǎng)公司,研究和工作領(lǐng)域包括自然語(yǔ)言處理、計(jì)算廣告、機(jī)器學(xué)習(xí)、人工智能等。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

本月熱文推薦TOP4

東方金信CTO石棋玲:淺析大數(shù)據(jù)風(fēng)險(xiǎn)分析與控制應(yīng)用

民生銀行高級(jí)數(shù)據(jù)分析師張丹:用R語(yǔ)言把數(shù)據(jù)玩出花樣

一下科技CTO湯力嘉:技術(shù)人的產(chǎn)品創(chuàng)新力

徹底透視CDN痛點(diǎn),互聯(lián)網(wǎng)老兵聊聊CDN的那些事兒!

 

 

責(zé)任編輯:王雪燕 來(lái)源: 51CTO
相關(guān)推薦

2017-07-25 18:36:00

機(jī)器學(xué)習(xí)WOT票房

2019-06-06 08:52:00

2018-07-30 11:18:54

西虹市首富電影數(shù)據(jù)

2017-04-14 08:33:47

2021-07-21 11:25:17

機(jī)器學(xué)習(xí)?AI人工智能

2022-03-18 17:53:14

機(jī)器學(xué)習(xí)物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)

2022-04-18 11:36:43

機(jī)器學(xué)習(xí)制造業(yè)人工智能

2017-11-29 19:28:04

大數(shù)據(jù)數(shù)據(jù)分析國(guó)產(chǎn)片票房

2021-12-08 14:02:46

小數(shù)據(jù)機(jī)器學(xué)習(xí)人工智能

2020-02-27 14:47:11

人工智能機(jī)器學(xué)習(xí)故障檢測(cè)

2021-04-13 09:00:00

機(jī)器學(xué)習(xí)鐵路技術(shù)

2017-09-12 16:57:43

機(jī)器學(xué)習(xí)K-means算法Python

2022-09-19 09:53:37

機(jī)器學(xué)習(xí)實(shí)踐

2019-11-01 14:19:02

大數(shù)據(jù)機(jī)器學(xué)習(xí)工具

2022-08-25 11:11:17

模型應(yīng)用

2013-10-30 10:19:18

2021-02-03 09:21:59

SQL機(jī)器學(xué)習(xí)ML

2020-10-13 14:38:50

機(jī)器學(xué)習(xí)數(shù)據(jù)

2023-02-23 08:00:00

Python機(jī)器學(xué)習(xí)編程代碼

2022-12-21 14:39:35

機(jī)器學(xué)習(xí)案發(fā)決策樹
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)