偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

大數(shù)據(jù) 數(shù)據(jù)分析 Spark
盡管數(shù)據(jù)科學(xué)家經(jīng)常通過分布式云計(jì)算來處理數(shù)據(jù),但是即使在一般的筆記本電腦上,只要給出足夠的內(nèi)存,Spark也可以工作正常(在這篇文章中,我使用2016年MacBook Pro / 16GB內(nèi)存,分配給Spark 8GB內(nèi)存)。

盡管數(shù)據(jù)科學(xué)家經(jīng)常通過分布式云計(jì)算來處理數(shù)據(jù),但是即使在一般的筆記本電腦上,只要給出足夠的內(nèi)存,Spark也可以工作正常(在這篇文章中,我使用2016年MacBook Pro / 16GB內(nèi)存,分配給Spark 8GB內(nèi)存)。

此外,通過Maxcompute及其配套產(chǎn)品,低廉的大數(shù)據(jù)分析僅需幾步。

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

亞馬遜的商品評論和評分是一個非常重要的業(yè)務(wù)。 亞馬遜上的客戶經(jīng)?;谶@些評論做出購買決定,并且單個不良評論可以導(dǎo)致潛在購買者重新考慮。 幾年前,我寫了一篇非常受歡迎的博客文章,題為“120萬亞馬遜評論統(tǒng)計(jì)分析“。

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

當(dāng)時,我只限于1200萬評論,因?yàn)閲L試處理更多的數(shù)據(jù)會導(dǎo)致內(nèi)存不足,以至于我的R語言代碼需要運(yùn)行幾個小時。

Apache Spark是一個高效的開源大數(shù)據(jù)計(jì)算框架,在過去幾年中已經(jīng)非常流行(對于使用Spark和Python的好教程,我推薦免費(fèi)的eDX課程)。盡管數(shù)據(jù)科學(xué)家經(jīng)常通過分布式云計(jì)算來處理數(shù)據(jù),但是即使在一般的筆記本電腦上,只要給出足夠的內(nèi)存,Spark也可以工作正常(在這篇文章中,我使用2016年MacBook Pro / 16GB內(nèi)存,分配給Spark 8GB內(nèi)存)。

我寫了一個簡單的Python腳本,用來合并Julian McAuley、Rahul Pandey和Jure Leskovecucehua在2015年發(fā)布“Inferring Networks of Substitutable and Complementary Products”論文時準(zhǔn)備的亞馬遜產(chǎn)品評論數(shù)據(jù)集中每個類別的評級數(shù)據(jù) 。成果是一個4.53 GB的CSV,肯定不能在Microsoft Excel中打開。選取和整合的數(shù)據(jù)集包括:留下評論的用戶的用戶名,指明是哪一個接收評論亞馬遜產(chǎn)品的id,從1到5的用戶給出的評級,以及評論寫入的時間(精確到天)。 我們還可以從數(shù)據(jù)子集的名稱推斷已評價產(chǎn)品的類別。

然后,使用面對R語言的新的升級包,我可以使用一個spark_connect()命令輕松啟動本地Spark集群,并使用單個spark_read_csv()命令很快將整個CSV加載到集群中。

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

在數(shù)據(jù)集中總共有8074萬條記錄,即8.074e + 07條。如果使用傳統(tǒng)工具(如dplyr或甚至Python pandas)高級查詢,這樣的數(shù)據(jù)集將需要相當(dāng)長的時間來執(zhí)行。

使用sparklyr,操作實(shí)際很大的數(shù)據(jù)就像對只有少數(shù)記錄的數(shù)據(jù)集執(zhí)行分析一樣簡單(并且比上面提到的eDX類中教授的Python方法簡單一個數(shù)量級)。

試探性分析

(您可以查看用于Spark處理數(shù)據(jù)的R代碼,并在此R Notebook中生成可視化數(shù)據(jù))有20,368,412個有效id的用戶在此數(shù)據(jù)集中提供評論。 其中51.9%的用戶只寫了一篇評論。

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

相應(yīng)地,此數(shù)據(jù)集中有8,210,439個單獨(dú)的產(chǎn)品,其中43.3%只有一個評論。

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

刪除幾個重復(fù)的評分后,我為每個評分添加了幾個函數(shù),這可能有助于說明審核行為隨時間的變化:一個能表示給定該評論的作者的#評論排名值(作者的***次評論,第二次評論等),一個指示給定接到該評論的產(chǎn)品已經(jīng)接收到的#評論(產(chǎn)品的***評論,產(chǎn)品的第二評論等)的評級值以及進(jìn)行評論的月份和年份。

前兩個添加的函數(shù)需要非常大的處理能力,這突出Spark的性能事實(shí)上,Spark使用默認(rèn)情況下所有的CPU核心,而典型的R / Python方法是單線程的!)

這些更改被緩存到Spark DataFrame df_t中。 如果我想確定哪個亞馬遜產(chǎn)品類別獲得***平均評論評分,我可以按類別整合數(shù)據(jù),計(jì)算每個類別的平均評分,然后排序。多虧Spark的強(qiáng)大功能,這個數(shù)百萬記錄的數(shù)據(jù)處理需要幾秒鐘。

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

也可以使用ggplot2以圖表形式顯示:

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

數(shù)字音樂/ CD產(chǎn)品平均獲得***評價,而視頻游戲和手機(jī)得到***平均評價,評分范圍為0.77。 這確實(shí)說明了一些直觀的聯(lián)系; 購買數(shù)字音樂和CD這類產(chǎn)品時,你知道你會得到什么,沒有產(chǎn)生隨機(jī)缺陷機(jī)會,而手機(jī)和配件根據(jù)背后的第三方賣家的會有不同的質(zhì)量(電子游戲尤其容易由于微小的不合理而產(chǎn)生評論的“爆炸”)。

我們可以將每個條細(xì)分分成從1-5的每個評級的百分比,更利于該可視化。 也可以將餅圖圖表劃分成不同類別,但像這樣碼成條形圖再縮放到100%能看起來更清爽。

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

新的圖表確實(shí)有助于支持上述理論; 頂部的類別的4/5星評級的百分比顯著高于底部類別,并且1/2/3***評分的比例低得多,底部類別與之相反。那么這些故障如何隨時間而改變? 還有其他因素在發(fā)揮嗎?

隨時間變化的評級

也許出現(xiàn)在二十世紀(jì)二十年代社會媒體中的二元評級“喜歡/不喜歡”已經(jīng)轉(zhuǎn)化為五***評論系統(tǒng)的行為。 以下是從2000年1月至2014年7月每月撰寫的評論的評分細(xì)目:

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

投票行為在一段時間內(nèi)非常輕微地振蕩,沒有清晰的尖峰或拐點(diǎn),這與該理論沖突。

平均值分布

我們應(yīng)該看看亞馬遜的產(chǎn)品分?jǐn)?shù)的全球平均值(即客戶在購買產(chǎn)品時看到的),以及給出分級的用戶。在我們期望中兩者分布匹配,所以任何偏差都會很有趣。關(guān)注至少評級5的產(chǎn)品時,有4.16平均總評級:

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

當(dāng)查看反應(yīng)用戶給出的總體評分類似的圖表時(5個評級***),平均評級略高于4.20。

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

這兩種分配的主要區(qū)別是亞馬遜客戶只有5星評價的比例明顯更高。歸納和總結(jié)兩個圖表可以清楚突出了差異。

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

特別的評論

幾個帖子前,我討論了Reddit帖子的***個評論為何比以后的評論有更大的影響。 在做出越來越多的評論后,用戶評分行為是否會改變? 同一件產(chǎn)品的***次評價,與典型的評級行為是否不同?這里是某個用戶給出的幾個亞馬遜評論的評分細(xì)目:

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

***個用戶評論的評分比之后的評價稍高。其他情況下,評級行為大部分是相同的,雖然用戶給4星而不是5星評價的比例增加,由于這樣更舒適。相比之下,這里是某亞馬遜產(chǎn)品收到的幾個評論的評分細(xì)目:

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

***個產(chǎn)品評論是5星評價的可能略高于隨后的評論。 然而,在第10次審查之后,評級分布沒有變化,這意味著特殊評級行為獨(dú)立于該閾值之后的當(dāng)前評分。

總結(jié)

的確,這篇博文中使用數(shù)據(jù)多于分析它。 在未來技術(shù)發(fā)布中,可能更有趣的是特定條件下的行為,例如根據(jù)該產(chǎn)品/該用戶以前的評價,預(yù)測評論的評級。 然而,這篇文章表明,雖然“大數(shù)據(jù)”可能現(xiàn)在仍是一個令人費(fèi)解的流行語,但即使你不必為一家財(cái)富500強(qiáng)公司工作,也能夠理解它。 即使數(shù)據(jù)集由5個簡單的函數(shù)組成,您也可以歸納大量的結(jié)論。

而這篇文章甚至不需要查看亞馬遜的產(chǎn)品評論的文本或與產(chǎn)品相關(guān)的元數(shù)據(jù)! 只要有想法,就能完成。

您可以在R Notebook中查看所有用于可視化Amazon數(shù)據(jù)的R和ggplot2代碼。您還可以在此GitHub存儲庫中查看用于此帖子的鏡像/數(shù)據(jù)。

原文鏈接>>>

責(zé)任編輯:未麗燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2011-10-14 10:22:03

e值

2018-02-26 17:10:57

深度學(xué)習(xí)

2015-09-23 09:24:56

spark數(shù)據(jù)分析

2021-10-18 13:37:35

谷歌勒索軟件網(wǎng)絡(luò)安全

2021-03-14 09:36:35

數(shù)據(jù)泄露黑客信息安全

2009-08-27 10:51:15

ibmdw云計(jì)算

2014-01-07 09:25:31

Amazon云計(jì)算Kinesis

2021-10-15 06:22:07

勒索軟件攻擊數(shù)據(jù)泄露

2018-03-09 10:37:48

詩歌代碼寫詩

2018-07-10 15:28:44

Python爬蟲數(shù)據(jù)分析

2015-12-16 18:10:49

京東

2015-08-05 16:12:39

大數(shù)據(jù)商品

2019-06-19 16:01:14

Spark數(shù)據(jù)分析SparkSQL

2015-03-12 09:32:42

2016-02-02 10:05:39

2025-05-26 08:48:00

2012-07-27 09:27:04

Instagram

2011-09-27 07:26:33

程序員

2009-08-27 10:52:36

ibmdw云計(jì)算

2017-12-05 16:26:36

爬蟲大數(shù)據(jù)共享單車
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號