偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="kxfmc"></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

用Spark分析Amazon的8000萬商品評價(內(nèi)含數(shù)據(jù)集、代碼、論文)

作者：Max Woolf 2017-02-09 14:34:25

大數(shù)據(jù) 數(shù)據(jù)分析 Spark

盡管數(shù)據(jù)科學(xué)家經(jīng)常通過分布式云計(jì)算來處理數(shù)據(jù)，但是即使在一般的筆記本電腦上，只要給出足夠的內(nèi)存，Spark也可以工作正常(在這篇文章中，我使用2016年MacBook Pro / 16GB內(nèi)存，分配給Spark 8GB內(nèi)存)。

盡管數(shù)據(jù)科學(xué)家經(jīng)常通過分布式云計(jì)算來處理數(shù)據(jù)，但是即使在一般的筆記本電腦上，只要給出足夠的內(nèi)存，Spark也可以工作正常(在這篇文章中，我使用2016年MacBook Pro / 16GB內(nèi)存，分配給Spark 8GB內(nèi)存)。

此外，通過Maxcompute及其配套產(chǎn)品，低廉的大數(shù)據(jù)分析僅需幾步。

亞馬遜的商品評論和評分是一個非常重要的業(yè)務(wù)。亞馬遜上的客戶經(jīng)?；谶@些評論做出購買決定，并且單個不良評論可以導(dǎo)致潛在購買者重新考慮。幾年前，我寫了一篇非常受歡迎的博客文章，題為“120萬亞馬遜評論統(tǒng)計(jì)分析“。

當(dāng)時，我只限于1200萬評論，因?yàn)閲L試處理更多的數(shù)據(jù)會導(dǎo)致內(nèi)存不足，以至于我的R語言代碼需要運(yùn)行幾個小時。

Apache Spark是一個高效的開源大數(shù)據(jù)計(jì)算框架，在過去幾年中已經(jīng)非常流行(對于使用Spark和Python的好教程，我推薦免費(fèi)的eDX課程)。盡管數(shù)據(jù)科學(xué)家經(jīng)常通過分布式云計(jì)算來處理數(shù)據(jù)，但是即使在一般的筆記本電腦上，只要給出足夠的內(nèi)存，Spark也可以工作正常(在這篇文章中，我使用2016年MacBook Pro / 16GB內(nèi)存，分配給Spark 8GB內(nèi)存)。

我寫了一個簡單的Python腳本，用來合并Julian McAuley、Rahul Pandey和Jure Leskovecucehua在2015年發(fā)布“Inferring Networks of Substitutable and Complementary Products”論文時準(zhǔn)備的亞馬遜產(chǎn)品評論數(shù)據(jù)集中每個類別的評級數(shù)據(jù) 。成果是一個4.53 GB的CSV，肯定不能在Microsoft Excel中打開。選取和整合的數(shù)據(jù)集包括：留下評論的用戶的用戶名，指明是哪一個接收評論亞馬遜產(chǎn)品的id，從1到5的用戶給出的評級，以及評論寫入的時間(精確到天)。我們還可以從數(shù)據(jù)子集的名稱推斷已評價產(chǎn)品的類別。

然后，使用面對R語言的新的升級包，我可以使用一個spark_connect()命令輕松啟動本地Spark集群，并使用單個spark_read_csv()命令很快將整個CSV加載到集群中。

在數(shù)據(jù)集中總共有8074萬條記錄，即8.074e + 07條。如果使用傳統(tǒng)工具(如dplyr或甚至Python pandas)高級查詢，這樣的數(shù)據(jù)集將需要相當(dāng)長的時間來執(zhí)行。

使用sparklyr，操作實(shí)際很大的數(shù)據(jù)就像對只有少數(shù)記錄的數(shù)據(jù)集執(zhí)行分析一樣簡單(并且比上面提到的eDX類中教授的Python方法簡單一個數(shù)量級)。

試探性分析

(您可以查看用于Spark處理數(shù)據(jù)的R代碼，并在此R Notebook中生成可視化數(shù)據(jù))有20,368,412個有效id的用戶在此數(shù)據(jù)集中提供評論。其中51.9%的用戶只寫了一篇評論。

相應(yīng)地，此數(shù)據(jù)集中有8,210,439個單獨(dú)的產(chǎn)品，其中43.3%只有一個評論。

刪除幾個重復(fù)的評分后，我為每個評分添加了幾個函數(shù)，這可能有助于說明審核行為隨時間的變化：一個能表示給定該評論的作者的#評論排名值(作者的***次評論，第二次評論等)，一個指示給定接到該評論的產(chǎn)品已經(jīng)接收到的#評論(產(chǎn)品的***評論，產(chǎn)品的第二評論等)的評級值以及進(jìn)行評論的月份和年份。

前兩個添加的函數(shù)需要非常大的處理能力，這突出Spark的性能事實(shí)上，Spark使用默認(rèn)情況下所有的CPU核心，而典型的R / Python方法是單線程的!)

這些更改被緩存到Spark DataFrame df_t中。如果我想確定哪個亞馬遜產(chǎn)品類別獲得***平均評論評分，我可以按類別整合數(shù)據(jù)，計(jì)算每個類別的平均評分，然后排序。多虧Spark的強(qiáng)大功能，這個數(shù)百萬記錄的數(shù)據(jù)處理需要幾秒鐘。

也可以使用ggplot2以圖表形式顯示：

數(shù)字音樂/ CD產(chǎn)品平均獲得***評價，而視頻游戲和手機(jī)得到***平均評價，評分范圍為0.77。這確實(shí)說明了一些直觀的聯(lián)系; 購買數(shù)字音樂和CD這類產(chǎn)品時，你知道你會得到什么，沒有產(chǎn)生隨機(jī)缺陷機(jī)會，而手機(jī)和配件根據(jù)背后的第三方賣家的會有不同的質(zhì)量(電子游戲尤其容易由于微小的不合理而產(chǎn)生評論的“爆炸”)。

我們可以將每個條細(xì)分分成從1-5的每個評級的百分比，更利于該可視化。也可以將餅圖圖表劃分成不同類別，但像這樣碼成條形圖再縮放到100%能看起來更清爽。

新的圖表確實(shí)有助于支持上述理論; 頂部的類別的4/5星評級的百分比顯著高于底部類別，并且1/2/3***評分的比例低得多，底部類別與之相反。那么這些故障如何隨時間而改變? 還有其他因素在發(fā)揮嗎?

隨時間變化的評級

也許出現(xiàn)在二十世紀(jì)二十年代社會媒體中的二元評級“喜歡/不喜歡”已經(jīng)轉(zhuǎn)化為五***評論系統(tǒng)的行為。以下是從2000年1月至2014年7月每月撰寫的評論的評分細(xì)目：

投票行為在一段時間內(nèi)非常輕微地振蕩，沒有清晰的尖峰或拐點(diǎn)，這與該理論沖突。

平均值分布

我們應(yīng)該看看亞馬遜的產(chǎn)品分?jǐn)?shù)的全球平均值(即客戶在購買產(chǎn)品時看到的)，以及給出分級的用戶。在我們期望中兩者分布匹配，所以任何偏差都會很有趣。關(guān)注至少評級5的產(chǎn)品時，有4.16平均總評級：

當(dāng)查看反應(yīng)用戶給出的總體評分類似的圖表時(5個評級***)，平均評級略高于4.20。

這兩種分配的主要區(qū)別是亞馬遜客戶只有5星評價的比例明顯更高。歸納和總結(jié)兩個圖表可以清楚突出了差異。

特別的評論

幾個帖子前，我討論了Reddit帖子的***個評論為何比以后的評論有更大的影響。在做出越來越多的評論后，用戶評分行為是否會改變? 同一件產(chǎn)品的***次評價，與典型的評級行為是否不同?這里是某個用戶給出的幾個亞馬遜評論的評分細(xì)目：

***個用戶評論的評分比之后的評價稍高。其他情況下，評級行為大部分是相同的，雖然用戶給4星而不是5星評價的比例增加，由于這樣更舒適。相比之下，這里是某亞馬遜產(chǎn)品收到的幾個評論的評分細(xì)目：

***個產(chǎn)品評論是5星評價的可能略高于隨后的評論。然而，在第10次審查之后，評級分布沒有變化，這意味著特殊評級行為獨(dú)立于該閾值之后的當(dāng)前評分。

總結(jié)

的確，這篇博文中使用數(shù)據(jù)多于分析它。在未來技術(shù)發(fā)布中，可能更有趣的是特定條件下的行為，例如根據(jù)該產(chǎn)品/該用戶以前的評價，預(yù)測評論的評級。然而，這篇文章表明，雖然“大數(shù)據(jù)”可能現(xiàn)在仍是一個令人費(fèi)解的流行語，但即使你不必為一家財(cái)富500強(qiáng)公司工作，也能夠理解它。即使數(shù)據(jù)集由5個簡單的函數(shù)組成，您也可以歸納大量的結(jié)論。

而這篇文章甚至不需要查看亞馬遜的產(chǎn)品評論的文本或與產(chǎn)品相關(guān)的元數(shù)據(jù)! 只要有想法，就能完成。

您可以在R Notebook中查看所有用于可視化Amazon數(shù)據(jù)的R和ggplot2代碼。您還可以在此GitHub存儲庫中查看用于此帖子的鏡像/數(shù)據(jù)。

原文鏈接>>>

責(zé)任編輯：未麗燕來源： 36大數(shù)據(jù)

亞馬遜大數(shù)據(jù)Spark

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<kbd id="mfsk4"></kbd>