偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于機(jī)器學(xué)習(xí)方法對(duì)銷售預(yù)測(cè)的研究

大數(shù)據(jù)
在開始今天的分享之前,我首先跟大家簡(jiǎn)單的聊一下,剛剛過(guò)去的雙十一,大家可能更關(guān)心的是雙十一的折扣,什么商品打了什么折扣。但是對(duì)于天貓而言,他們可能更關(guān)心的是雙十一當(dāng)天的銷售額是多少,因?yàn)橹冷N售額,他就能提前做一個(gè)準(zhǔn)備,做到未雨綢繆。

[[180094]]

很高興“InfoQ”團(tuán)隊(duì)和“百分點(diǎn)大數(shù)據(jù)學(xué)院”牽頭舉辦此次活動(dòng)。“百分點(diǎn)大數(shù)據(jù)學(xué)院”是由百分點(diǎn)發(fā)起的大數(shù)據(jù)領(lǐng)域?qū)I(yè)、開放的分享交流平臺(tái),通過(guò)定期舉辦線上線下活動(dòng),邀請(qǐng)大數(shù)據(jù)領(lǐng)域?qū)W術(shù)專家、技術(shù)領(lǐng)袖、企業(yè)高層,分享行業(yè)、技術(shù)、應(yīng)用等方面最前沿的經(jīng)驗(yàn)與見(jiàn)解。也非常感謝InfoQ的團(tuán)隊(duì)能夠提供這么好的一個(gè)機(jī)會(huì)給大家做一次分享。我分享的主題是《基于機(jī)器學(xué)習(xí)方法對(duì)銷售預(yù)測(cè)的研究》,從百分點(diǎn)運(yùn)用機(jī)器學(xué)習(xí)落地服務(wù)的角度,介紹機(jī)器學(xué)習(xí)的核心思路和實(shí)踐。

首先我先自我介紹一下,在加入百分點(diǎn)之前,曾在生物信息公司中負(fù)責(zé)生物大數(shù)據(jù)的分析和數(shù)據(jù)挖掘;在百分點(diǎn)負(fù)責(zé)在金融領(lǐng)域的征信模塊開發(fā)、銷售預(yù)測(cè)領(lǐng)域預(yù)測(cè)模型研究,以及零售類用戶畫像的研發(fā)等工作。

銷售預(yù)測(cè)的基本情況 

在開始今天的分享之前,我首先跟大家簡(jiǎn)單的聊一下,剛剛過(guò)去的雙十一,大家可能更關(guān)心的是雙十一的折扣,什么商品打了什么折扣。但是對(duì)于天貓而言,他們可能更關(guān)心的是雙十一當(dāng)天的銷售額是多少,因?yàn)橹冷N售額,他就能提前做一個(gè)準(zhǔn)備,做到未雨綢繆。

我們這邊有三組數(shù)據(jù),第一組是在雙十一的前十天,網(wǎng)上有一個(gè)專家預(yù)測(cè),雙十一是1180億,7天以后馬云放出豪言,說(shuō)今年的雙十一可能要突破1500億,去年是920多億。在雙十一的前一天,網(wǎng)上有一個(gè)專家預(yù)測(cè)了今年的雙十一是1200億,最后雙十一是1207億。 

 

 

 

這里有兩個(gè)問(wèn)題,第一個(gè)問(wèn)題,預(yù)測(cè)是怎么做出來(lái)的?第二個(gè)問(wèn)題是:對(duì)于同一件事情它是預(yù)測(cè)出不同的結(jié)果,什么結(jié)果是好與壞?第一個(gè)問(wèn)題是怎么預(yù)測(cè)的問(wèn)題,第二個(gè)問(wèn)題是預(yù)測(cè)的效果好與壞的問(wèn)題。這就引出了我的主題,《機(jī)器學(xué)習(xí)對(duì)銷售預(yù)測(cè)的研究》。

機(jī)器學(xué)習(xí)是常用的日常分析的方法,另一方面機(jī)器學(xué)習(xí)在海量數(shù)據(jù)中挖掘其中的規(guī)律效果非常好。

首先,說(shuō)說(shuō),銷售預(yù)測(cè)的現(xiàn)狀和痛點(diǎn)。銷售只是一個(gè)商業(yè)問(wèn)題,要做的是滿足用戶的需求,同時(shí)對(duì)后續(xù)的運(yùn)營(yíng)做主導(dǎo)。而且它的目的并不僅是增加企業(yè)的銷量,而是能夠讓企業(yè)能夠獲利,利潤(rùn)增加,所以它是一個(gè)商業(yè)問(wèn)題。 

 

 

 

對(duì)于這樣一個(gè)商業(yè)問(wèn)題,它在商業(yè)環(huán)境里面地位是顯而易見(jiàn)的,這里面有物流、庫(kù)存、促銷、財(cái)務(wù)等等四個(gè)方面的作用。對(duì)于銷售預(yù)測(cè)的痛點(diǎn),有三方面:①商業(yè)環(huán)境變化莫測(cè),要做到預(yù)測(cè)非常準(zhǔn)確可能會(huì)比較困難;②銷售預(yù)測(cè)并不是一個(gè)純粹的銷售預(yù)測(cè),它與企業(yè)的整體的反應(yīng)鏈相關(guān)的;③有企業(yè)產(chǎn)品比較單一,或者是服務(wù)比較單一,想要通過(guò)這個(gè)銷售預(yù)測(cè)來(lái)做這個(gè)指導(dǎo),來(lái)指導(dǎo)研發(fā)新的產(chǎn)品,或者是通過(guò)價(jià)格進(jìn)行動(dòng)態(tài)定價(jià)。

在我看來(lái),我覺(jué)得核心的痛點(diǎn)就是預(yù)測(cè)的精確性的問(wèn)題,也就是第一個(gè)痛點(diǎn)。如果第一個(gè)痛點(diǎn)很好的解決掉,后面痛點(diǎn)就很好解決。預(yù)測(cè)的精確性為什么是核心的痛點(diǎn)呢?這里面就要從預(yù)測(cè)開始講起,我們對(duì)一個(gè)事件進(jìn)行預(yù)測(cè)是這樣一個(gè)過(guò)程,就是基于歷史的情況進(jìn)行推演出一個(gè)規(guī)律,通過(guò)這個(gè)規(guī)律來(lái)進(jìn)行推演到未來(lái)。它的特點(diǎn)就是我的短期的預(yù)測(cè)的精度要遠(yuǎn)遠(yuǎn)高于長(zhǎng)期的預(yù)測(cè)的精度,即,未來(lái)一周的預(yù)測(cè)要比未來(lái)三個(gè)月的精度要高。

同時(shí)對(duì)于預(yù)測(cè)的話,我們會(huì)有幾個(gè)方面的假設(shè),第一方面是變化模式,其實(shí)就是數(shù)據(jù)里面的規(guī)律,它是我們對(duì)于這個(gè)待預(yù)測(cè)事物的了解因素。比如說(shuō)你要去預(yù)測(cè)明天彩票的號(hào)碼,我們已經(jīng)通過(guò)對(duì)彩票的分析我們知道沒(méi)有因素是可以影響它的,所以我們是預(yù)測(cè)不了明天的彩票。這是第一個(gè)變化模式。

第二方面,我們要基于數(shù)據(jù)來(lái)做,你的數(shù)據(jù)量太少,我們這邊也做不了,就是一定要達(dá)到數(shù)據(jù)量的級(jí)別我們才能做數(shù)據(jù)挖掘,或者機(jī)器學(xué)習(xí)。

第三方面,我們做機(jī)器學(xué)習(xí),我們做預(yù)測(cè),都會(huì)有一個(gè)理論框架,在整個(gè)理論框架下我們才能做,才能落地。所以這三方面就構(gòu)成了我們今天要講的銷售預(yù)測(cè)的體系框架。銷售預(yù)測(cè)體系框架到底是什么呢?

其框架就是銷售預(yù)測(cè)的基本步驟,即確定預(yù)測(cè)目標(biāo)、收集和理解數(shù)據(jù)、建立模型和評(píng)價(jià)指標(biāo)。

銷售預(yù)測(cè)的基本步驟  

 

 

 

第一步,確定預(yù)測(cè)目標(biāo):首先要研究一下它的預(yù)測(cè)的對(duì)象,比如我要預(yù)測(cè)衣服,衣服是冬天的衣服,肯定是有季節(jié)性的,預(yù)測(cè)對(duì)象不一樣,場(chǎng)景不一樣,我們預(yù)測(cè)的方法也會(huì)不一樣。

同時(shí),做銷售預(yù)測(cè)一般會(huì)有一個(gè)預(yù)期,我們希望這預(yù)測(cè)做未來(lái)4周的預(yù)測(cè),還是未來(lái)5天的預(yù)測(cè),這是有一個(gè)短期的預(yù)測(cè)和長(zhǎng)期的預(yù)測(cè)。如果是希望太高的話我們可能達(dá)不到,希望太小,我們花費(fèi)了這么多的時(shí)間和精力。通常而言,你要預(yù)測(cè)未來(lái)一個(gè)月的銷量,至少需要兩年的數(shù)據(jù)。

此外,因?yàn)樾枰鷺I(yè)務(wù)進(jìn)行對(duì)接,所以業(yè)務(wù)目標(biāo)也很重要。一方面是模型的精確性,即,我們可以給出一個(gè)精確度,另一方面是模型的可解釋性,即,我們的結(jié)果更多是要根據(jù)后面的業(yè)務(wù)部門來(lái)進(jìn)行交接,進(jìn)行溝通,這時(shí)候你就不能解釋,好與不好為什么,這要帶有可解釋性。

綜上所需,確定預(yù)測(cè)目標(biāo)要分兩方面進(jìn)行權(quán)衡,即預(yù)測(cè)精確性和模型可解釋性。 

 

 

 

第二步,收集數(shù)據(jù)或理解數(shù)據(jù)階段。而這一步通常包括三個(gè)小的子步驟,即:收集數(shù)據(jù)、數(shù)據(jù)探索和數(shù)據(jù)預(yù)處理。要盡可能多的獲得數(shù)據(jù),同時(shí),還要理解數(shù)據(jù)背后的故事與含義。這里有一個(gè)小故事:我當(dāng)時(shí)在做項(xiàng)目的時(shí)候,我當(dāng)時(shí)電商的銷售預(yù)測(cè)的時(shí)候,我看了一下庫(kù)存,一般來(lái)說(shuō)你賣出一件商品庫(kù)存就會(huì)減,但是我在數(shù)據(jù)庫(kù)里看庫(kù)存為什么是負(fù)值呢?我就和業(yè)務(wù)部門進(jìn)行溝通,原來(lái)他們把庫(kù)存的默認(rèn)值就是負(fù)值。這就是對(duì)于我們?cè)谧鲱A(yù)測(cè)的時(shí)候,對(duì)數(shù)據(jù)背后的含義一定要理解清楚。這是一個(gè)數(shù)據(jù)探索。

而數(shù)據(jù)探索,其目的是為了更好地發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,對(duì)應(yīng)用建模提供一個(gè)指導(dǎo)方案。

數(shù)據(jù)預(yù)處理是因?yàn)橥瑫r(shí)收集的原始數(shù)據(jù)可能非常臟、質(zhì)量非常差,需要做數(shù)據(jù)清洗。數(shù)據(jù)預(yù)處理的方法很多,這里主要介紹兩個(gè)數(shù)據(jù)預(yù)處理方法,缺失值處理和數(shù)據(jù)轉(zhuǎn)換。缺失值處理是指,發(fā)現(xiàn)缺失值的時(shí)候,需要理解缺失背后的原因是什么,是數(shù)據(jù)庫(kù)的技術(shù)問(wèn)題還是真正業(yè)務(wù)的原因?qū)е滤笔?如果是后者業(yè)務(wù)原因?qū)е氯笔?,我們?cè)賮?lái)考慮怎么處理缺失值,處理缺失值的方法大體有兩類:直接刪除法和插補(bǔ)法。直接刪除法是將缺失率較高的特征或樣本數(shù)據(jù)進(jìn)行刪除,而插補(bǔ)法是通過(guò)已有的數(shù)據(jù)對(duì)缺失值進(jìn)行填補(bǔ)。而數(shù)據(jù)變換是指數(shù)據(jù)的分布與我們假設(shè)的數(shù)學(xué)模型會(huì)不一樣,這樣的數(shù)據(jù)將會(huì)對(duì)預(yù)測(cè)精度會(huì)有一定的影響。因此,導(dǎo)入模型之前我們就要把數(shù)據(jù)進(jìn)行變換,一般有兩種方法:直接對(duì)數(shù)據(jù)進(jìn)行變換、Box-Cax變換。 

 

 

 

第三步是應(yīng)用建模。銷售預(yù)測(cè)的方法有很多種類,本報(bào)告主要是介紹以下三類:第一類就叫主觀預(yù)測(cè)法,即,專家法;第二類是時(shí)間序列法,即指數(shù)平滑法和自回歸移動(dòng)模型;第三類是機(jī)器學(xué)習(xí)中的回歸算法。

銷售預(yù)測(cè)的基本方法 

 

 

 

專家法是指通過(guò)人的判斷,人的經(jīng)驗(yàn)對(duì)于未來(lái)的銷售做一個(gè)預(yù)測(cè),它的優(yōu)點(diǎn)是比較快速,比較簡(jiǎn)單,就是很快就能夠給一個(gè)結(jié)果。缺點(diǎn)就是我們預(yù)測(cè)的結(jié)果跟你預(yù)測(cè)的結(jié)果都不一樣,帶有差異性。這個(gè)專家法其實(shí)很多公司在前期他們都是用專家法來(lái)進(jìn)行預(yù)測(cè)的。還有我們的客戶他們?cè)趧偝闪⒌碾娚蹋彩怯脤<曳▉?lái)做的。

時(shí)間序列的方法中最簡(jiǎn)單是指數(shù)平滑法。它的特點(diǎn)是“重近輕遠(yuǎn) ”,即通過(guò)不同的權(quán)重來(lái)控制預(yù)測(cè)的精度。優(yōu)點(diǎn)是簡(jiǎn)單、適合于趨勢(shì)預(yù)測(cè);缺點(diǎn)是精確率不高。

ARIMA模型是相對(duì)比較復(fù)雜一點(diǎn),其原理是用銷量去預(yù)測(cè)未來(lái)銷量 

 

 

 

無(wú)論是指數(shù)平滑還是ARIMA模型,其預(yù)測(cè)對(duì)于趨勢(shì)性較強(qiáng)的數(shù)據(jù)集效果比較好,但如果遇到趨勢(shì)不那么強(qiáng)的數(shù)據(jù)集,則效果不太理想,這時(shí),可以考慮用機(jī)器學(xué)習(xí)的方法進(jìn)行銷售預(yù)測(cè)。 

 

 

 

機(jī)器學(xué)習(xí)的整體流程為:首先,將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其次,對(duì)于訓(xùn)練集做特征篩選,提取有信息量的特征變量,而篩除掉無(wú)信息等干擾特征變量,再次,應(yīng)用算法建立模型,最后,結(jié)合測(cè)試集對(duì)算法模型的輸出參數(shù)進(jìn)行優(yōu)化。

這里主要介紹線性回歸模型、決策樹(回歸樹)模型、隨機(jī)森林、xgboost、神經(jīng)網(wǎng)絡(luò)、支持向量回歸等六種算法模型。 

 

 

 

線性回歸模型:假設(shè)銷量與影響銷量的因素是線性關(guān)系的,包括誤差分布、線性方程和激活函數(shù)等。 

 

 

 

決策樹(回歸):其原理是通過(guò)if-then規(guī)則對(duì)特征變量進(jìn)行逐步?jīng)Q策來(lái)構(gòu)建的模型。此處,可以舉一個(gè)例子來(lái)簡(jiǎn)單講解決策樹算法的思想是什么?比如說(shuō)我想給一個(gè)妹紙進(jìn)行顏值評(píng)分,分值范圍為[0,10]。評(píng)分的第一輪判斷是五官是否端正?如果為否,打3分;如果為是,則進(jìn)行第二輪判斷,即身材,身材不好則打5分。身材好的話再進(jìn)入第三輪判斷,即是否有錢,有錢就是典型的白富美,就是9分。沒(méi)錢則為7分。從圖中可以看出,其判斷決策的過(guò)程倒過(guò)來(lái)看是一個(gè)樹,紅色是它的葉子,葉子對(duì)應(yīng)他的分值,黃色是變量。 

 

 

 

隨機(jī)森林是從決策樹演變而成的一個(gè)算法,但其思想與決策樹相比增加了集成思想。同時(shí),其“隨機(jī)”具有兩層含義,第一層是對(duì)特征變量進(jìn)行隨機(jī)選擇。第二層是,對(duì)訓(xùn)練集樣本進(jìn)行隨機(jī)選擇。 

 

 

 

xgboost是基于傳統(tǒng)的GBDT算法進(jìn)行了優(yōu)化的集成算法,它是數(shù)據(jù)挖掘大賽上面得分非常高的算法。它的思想是這樣的,我給一個(gè)數(shù)據(jù)集,我現(xiàn)在有一個(gè)問(wèn)題,就是要看他一家人當(dāng)中是否會(huì)喜歡電子游戲,也是通過(guò)構(gòu)建樹的情況進(jìn)行判斷,比如年齡、性別進(jìn)行判斷,它會(huì)反映這個(gè)家庭成員對(duì)應(yīng)的我們的樣本會(huì)打一個(gè)分,最后男孩給2分,女孩給1分。有時(shí)候我們一棵樹確定不了,我們就規(guī)定多棵樹,樹1和樹2之間并不是獨(dú)立的,第一棵樹的時(shí)候?qū)颖咀龅谝淮闻袛?,判斷的時(shí)候有對(duì)和錯(cuò),但是我會(huì)更關(guān)注于我判斷錯(cuò)的那一部分,我在規(guī)定第2棵樹的時(shí)候,我把預(yù)測(cè)錯(cuò)的更多的考慮一下,就會(huì)變成第2棵樹,我會(huì)過(guò)多的關(guān)注那些預(yù)測(cè)錯(cuò)的,再依次的來(lái)進(jìn)行優(yōu)化。 

 

 

神經(jīng)網(wǎng)絡(luò)是指模擬大腦神經(jīng)元的工作的非線性模型,神經(jīng)網(wǎng)絡(luò)是現(xiàn)在最火的一個(gè)深度學(xué)習(xí)的基礎(chǔ)。其包括三個(gè)部分:輸入層、隱藏層和輸出層。輸入層在銷售預(yù)測(cè)中則為影響銷量變換的各相關(guān)因素變量;輸出層為銷量;中間隱藏層為各相關(guān)因素變量到銷量之間的一個(gè)非線性映射關(guān)系,通常為一個(gè)函數(shù)

神經(jīng)網(wǎng)絡(luò)是在反欺詐領(lǐng)域用得比較多,像現(xiàn)在的銀行、互聯(lián)網(wǎng)金融,有的人進(jìn)行欺騙性的貸款,就用神經(jīng)網(wǎng)絡(luò)可以很快的把他發(fā)現(xiàn)出來(lái)。還有檢測(cè)病人也可以用到神經(jīng)網(wǎng)絡(luò)。 

 

 

 

支持向量回歸其本質(zhì)是跟SVM是一樣,即尋找能使回歸局域更大的margin,其適用于小數(shù)據(jù)集和高維數(shù)據(jù)集。

到目前為止,已經(jīng)簡(jiǎn)單介紹了六種常用于銷售預(yù)測(cè)的機(jī)器學(xué)習(xí)方法,這些算法也就很好地回答了前面“雙十一”銷售額例子的第一個(gè)問(wèn)題,即如何進(jìn)行銷售預(yù)測(cè)?

銷售預(yù)測(cè)效果評(píng)估 

 

 

 

 

第四步是評(píng)價(jià)指標(biāo),即預(yù)測(cè)效果好與壞的問(wèn)題。對(duì)此問(wèn)題,我想從兩個(gè)方面跟大家進(jìn)行分享,即評(píng)估方法論和評(píng)估的定量指標(biāo)。第一方面,方法論K折交叉驗(yàn)證。其基本思想為:將總數(shù)據(jù)集均勻劃分為k等份(假設(shè)取k=10),第一次對(duì)數(shù)據(jù)集進(jìn)行劃分過(guò)程為:第一份作為測(cè)試值,驗(yàn)證這個(gè)模型,剩下第2到第10個(gè)做訓(xùn)練集。第二次劃分過(guò)程為:把第2個(gè)作為測(cè)試值,剩下9個(gè)作為訓(xùn)練集,然后依次進(jìn)行訓(xùn)練集和數(shù)據(jù)集劃分,一共會(huì),得到10個(gè)模型,選擇最小的作為我們最終的模型。 

 

 

 

第二方面是評(píng)估指標(biāo)RMSE,值越小,說(shuō)明預(yù)測(cè)值與真實(shí)值之間的差異就越小,模型效果就越好。

至此,已經(jīng)把銷售預(yù)測(cè)的四大步驟均已經(jīng)介紹完畢了,下面就以某電商網(wǎng)站的銷售預(yù)測(cè)案例作為理論實(shí)戰(zhàn)分享。

項(xiàng)目案例 

下面我們進(jìn)入機(jī)器學(xué)習(xí)的實(shí)戰(zhàn)部分。我會(huì)大家看一下案例在上述理論框架的效果怎么樣。 

 

 

 

第一步,確定預(yù)測(cè)目標(biāo)是為某類商品歷史銷量排行前20的單個(gè)商品進(jìn)行未來(lái)7天的預(yù)測(cè)。 

 

 

 

第二步,收集和理解數(shù)據(jù),本案例一種為六大維度72個(gè)指標(biāo)。其實(shí),影響銷量變化的因素錯(cuò)中復(fù)雜,除了本身歷史銷量外,還有一些:比如說(shuō)競(jìng)爭(zhēng)對(duì)手的因素、促銷因素、新聞熱點(diǎn)因素、口碑因素、隨機(jī)事件因素、非技術(shù)因素等等,但是,對(duì)于算法建模而言,我們需要把有數(shù)據(jù)支持的、并且能夠可控的影響銷量的相關(guān)因素考慮進(jìn)去,因此,才得出了六大維度72個(gè)指標(biāo)(特征變量)體系。 

 

 

 

我們對(duì)72個(gè)指標(biāo)(特征變量)進(jìn)行了數(shù)據(jù)探索,這里以節(jié)假日等級(jí)與銷量的關(guān)系為例,通過(guò)對(duì)數(shù)據(jù)探索發(fā)現(xiàn)了一條規(guī)律,即:節(jié)假日等級(jí)越高,銷量會(huì)越好。 

 

 

 

第三步為應(yīng)用建模,我們使用了6個(gè)機(jī)器學(xué)習(xí)模型和1個(gè)ARIMA模型對(duì)該案例進(jìn)行了預(yù)測(cè)建模,其結(jié)果如上圖所示,該結(jié)果對(duì)比圖橫坐標(biāo)是真實(shí)銷量值,縱坐標(biāo)為算法模型預(yù)測(cè)值。不同顏色的線對(duì)應(yīng)不同的算法預(yù)測(cè)結(jié)果擬合線,中間45°虛線為參考線,與參考線越近的算法,其效果越好。從圖可以看出xgboost和隨機(jī)森林兩個(gè)算法的效果是比較好的。 

 

 

 

第四步為評(píng)價(jià)指標(biāo),這里不僅輸出RMSE值,而且還將歷史銷量與未來(lái)預(yù)測(cè)銷量進(jìn)行可視化展示,即如上圖所示。 

 

 

 

我們對(duì)所有的預(yù)測(cè)算法進(jìn)行了總結(jié),包括預(yù)處理、變量篩選方法、可解釋性和精確性等內(nèi)容。 

 

 

 

同時(shí),我們也對(duì)基于機(jī)器學(xué)習(xí)對(duì)銷售預(yù)測(cè)的研究進(jìn)行了總結(jié),主要分機(jī)器學(xué)習(xí)、數(shù)據(jù)、效果和業(yè)務(wù)四個(gè)方面。

第一方面是機(jī)器學(xué)習(xí)層面,即機(jī)器學(xué)習(xí)可能更多的是關(guān)注相關(guān)關(guān)系。做銷售預(yù)測(cè),我們只用到了跟銷量變化有關(guān)的因素變量,而不是因果變量。有些客戶會(huì)問(wèn)我們:現(xiàn)在我要提高商品銷量,請(qǐng)你們算法人員告訴我調(diào)哪些參數(shù)能夠讓銷量增加?其實(shí)這就是一個(gè)不合理的需求,因?yàn)槲沂亲鲱A(yù)測(cè)的時(shí)候我們用到機(jī)器學(xué)習(xí)的模型,我只是用到像庫(kù)存、價(jià)格、節(jié)假日,是跟銷量無(wú)關(guān)系的,但是并不是默認(rèn)認(rèn)為庫(kù)存高就一定會(huì)影響銷量的增加,庫(kù)存低就一定影響銷量減小。因?yàn)楹笳咚且粋€(gè)因果關(guān)系,而我們做機(jī)器學(xué)習(xí)用的是一個(gè)相關(guān)性的關(guān)系。

第二方面是數(shù)據(jù)的層面,沒(méi)有數(shù)據(jù)或數(shù)據(jù)質(zhì)量差,效果就會(huì)較差,業(yè)界流行一句話“垃圾進(jìn)垃圾出”就是指數(shù)據(jù)。

第三方面是效果層面。其實(shí),效果是評(píng)估一個(gè)模型對(duì)于好與壞。對(duì)于銷售預(yù)測(cè)而言,其效果可能主要體現(xiàn)在是否增加企業(yè)的利潤(rùn)。但是這樣的效果不太好評(píng)論,因?yàn)檫@不僅僅要考慮預(yù)測(cè)的精度、模型的可解釋性等算法效果,還要考慮企業(yè)的供應(yīng)鏈、整體能力等。不能將機(jī)器學(xué)習(xí)的預(yù)測(cè)效果作為衡量企業(yè)是否增加利潤(rùn)的惟一標(biāo)準(zhǔn)。

第四方面是業(yè)務(wù)層面,即在機(jī)器學(xué)習(xí)訓(xùn)練之前的數(shù)據(jù)預(yù)處理、訓(xùn)練之中以及訓(xùn)練之后的模型評(píng)估都需要一定的業(yè)務(wù)理論作為指導(dǎo)。嘗若業(yè)務(wù)理論偏弱,則可能會(huì)影響整個(gè)建模過(guò)程,其效果也會(huì)受到影響。而且我們是從算法的角度,解決的是算法的問(wèn)題,但是算法的問(wèn)題,最終還是要回到我們業(yè)務(wù)問(wèn)題,在銷售預(yù)測(cè)上我們要回到怎么樣提高業(yè)績(jī)。

銷售預(yù)測(cè)終究還是一個(gè)商業(yè)問(wèn)題,我們只是從數(shù)據(jù)層面,從算法層面很難能夠很好的把這個(gè)商業(yè)問(wèn)題解決掉。我們認(rèn)為這個(gè)效果已經(jīng)比較好了,其實(shí)是比那種大數(shù)據(jù)的精準(zhǔn)營(yíng)銷、精準(zhǔn)預(yù)測(cè)還是有一段的距離要走。這是我們對(duì)于用機(jī)器學(xué)習(xí)來(lái)做產(chǎn)業(yè)落地的一個(gè)展望和規(guī)劃。

我的分享就到這兒。謝謝大家!

答疑環(huán)節(jié) 

提問(wèn)1:銷售預(yù)測(cè)的銷售指標(biāo)如何定?通過(guò)哪些維度預(yù)測(cè)?預(yù)測(cè)周期大概多長(zhǎng)?

答:銷量預(yù)測(cè)的指標(biāo)體系的整理主要是通過(guò)業(yè)務(wù)邏輯和待預(yù)測(cè)商品本身的數(shù)據(jù)情況而確定的。比如電商類某商品的銷量預(yù)測(cè),從業(yè)務(wù)上進(jìn)行商業(yè)分析可以得出,庫(kù)存因素、價(jià)格因素、口碑因素、節(jié)假日因素、促銷廣告因素、新聞熱點(diǎn)因素(比如三鹿奶粉被新聞曝光,導(dǎo)致國(guó)產(chǎn)奶粉在線上銷售受阻)、國(guó)家政策因素(主要是指跨境電商,國(guó)家稅率的高低)等等因素,同時(shí),也需要結(jié)合待預(yù)測(cè)商品本身的數(shù)據(jù)情況,如果以上的幾個(gè)業(yè)務(wù)上分析的因素,只有庫(kù)存因素和節(jié)假日因素,那就只能用這兩個(gè)因素進(jìn)行預(yù)測(cè)了,后期等獲取到其他因素的數(shù)據(jù)再進(jìn)行補(bǔ)充。

而預(yù)測(cè)周期的確定需要業(yè)務(wù)部門結(jié)合企業(yè)的整體供應(yīng)鏈能力以及盤點(diǎn)本身歷史數(shù)據(jù)情況而定,如果企業(yè)的數(shù)據(jù)質(zhì)量較好,歷史數(shù)據(jù)量又較多(比如超過(guò)2年以上的數(shù)據(jù)),那么預(yù)測(cè)周期可以設(shè)置長(zhǎng)一點(diǎn)。但是對(duì)于銷量預(yù)測(cè)而言,有一個(gè)特點(diǎn),即短期預(yù)測(cè)的精度要遠(yuǎn)高于長(zhǎng)期預(yù)測(cè)的精度,也就是說(shuō)預(yù)測(cè)未來(lái)一周的精確率要比預(yù)測(cè)未來(lái)三個(gè)月要高得多。

提問(wèn)2:電商類銷量預(yù)測(cè),有什么特殊的要求和使用的場(chǎng)景?比如樣本量,準(zhǔn)確性?

答:電商類的銷量預(yù)測(cè)與實(shí)體的銷量預(yù)測(cè)的主要區(qū)別在于用戶體驗(yàn)上,我們稱電商銷售預(yù)測(cè)為線上預(yù)測(cè),而實(shí)體的銷量預(yù)測(cè),比如衣服的銷量預(yù)測(cè)、藥店的銷量預(yù)測(cè)和文具的銷量預(yù)測(cè)等都屬于線下預(yù)測(cè);而對(duì)于線上預(yù)測(cè),除了本身的商業(yè)環(huán)境影響(價(jià)格、庫(kù)存、質(zhì)量、評(píng)價(jià)等等)外,還有一部分影響銷量的因素是互聯(lián)網(wǎng)上的用戶行為數(shù)據(jù),主要包括瀏覽、點(diǎn)擊和收藏等數(shù)據(jù),這些用戶行為數(shù)據(jù)主要是通過(guò)布碼技術(shù)活動(dòng)的(通過(guò)將抓取的代碼部署在web端或PC端),同時(shí),還需要考慮用戶行為數(shù)據(jù)的滯后性,即某用戶收藏了該商品,但是需要經(jīng)過(guò)一定時(shí)間才能下單購(gòu)買,這個(gè)時(shí)候需要把具有滯后性的變量進(jìn)行拆分,再加入到機(jī)器學(xué)習(xí)模型中去。

對(duì)于樣本量的多少,需要以預(yù)測(cè)的目標(biāo)而定,預(yù)測(cè)目標(biāo)較短,則所需要的訓(xùn)練集就少一些,如果預(yù)測(cè)目標(biāo)較長(zhǎng)(超過(guò)5天),一般則需要1年以上的歷史數(shù)據(jù)。至于準(zhǔn)確性,需要結(jié)合數(shù)據(jù)情況而定,準(zhǔn)確性的指標(biāo)通常用RMSE,RMSE越小則準(zhǔn)確性越好。

講師介紹 

唐新春 百分點(diǎn)數(shù)據(jù)科學(xué)家,清華大學(xué)碩士學(xué)歷,曾負(fù)責(zé)完成中國(guó)某兵器研究院的大型激光器相關(guān)算法的研發(fā)項(xiàng)目,在加入百分點(diǎn)之前,曾在生物信息公司中負(fù)責(zé)生物大數(shù)據(jù)的分析和數(shù)據(jù)挖掘;在百分點(diǎn)負(fù)責(zé)在金融領(lǐng)域的征信模塊開發(fā)、銷售預(yù)測(cè)領(lǐng)域預(yù)測(cè)模型研究,以及零售類用戶畫像的研發(fā)等工作?,F(xiàn)研究興趣為運(yùn)用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)在產(chǎn)業(yè)界的落地實(shí)踐,為不同行業(yè)提供大數(shù)據(jù)服務(wù)。 

責(zé)任編輯:龐桂玉 來(lái)源: 大數(shù)據(jù)雜談
相關(guān)推薦

2023-01-12 12:28:52

2020-04-27 09:52:03

預(yù)測(cè)銷售機(jī)器學(xué)習(xí)ML

2023-02-16 12:14:19

2018-08-30 14:58:12

機(jī)器學(xué)習(xí)磁盤故障

2015-07-28 15:41:06

機(jī)器學(xué)習(xí)算法數(shù)據(jù)挖掘

2024-09-04 16:36:48

2012-08-06 09:04:01

決策樹建模

2021-07-01 15:56:42

深度學(xué)習(xí)人工智能互聯(lián)網(wǎng)

2017-05-08 23:02:56

敏捷學(xué)習(xí)GitHubissue

2021-04-01 12:20:10

機(jī)器學(xué)習(xí)AI人工智能

2023-07-05 07:21:34

時(shí)間序列學(xué)習(xí)框架模型

2016-09-30 15:33:02

集成學(xué)習(xí)機(jī)器學(xué)習(xí)算法

2009-09-28 10:40:28

.NET學(xué)習(xí)

2018-03-26 20:28:24

深度學(xué)習(xí)

2018-03-15 15:40:39

廣告點(diǎn)擊率PaddlePaddlTensorflow

2009-09-08 09:25:46

思科認(rèn)證學(xué)習(xí)方法思科認(rèn)證

2009-09-16 10:16:29

CCNA學(xué)習(xí)方法CCNA

2010-05-04 17:48:53

2009-06-17 15:06:39

Java 學(xué)習(xí)方法

2010-01-11 14:13:03

C++學(xué)習(xí)方法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)