偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Python分布式抓取和分析京東商城評(píng)價(jià)

大數(shù)據(jù) 數(shù)據(jù)分析 分布式
互聯(lián)網(wǎng)購(gòu)物現(xiàn)在已經(jīng)是非常普遍的購(gòu)物方式,在互聯(lián)網(wǎng)上購(gòu)買(mǎi)商品并且使用之后,很多人都會(huì)回過(guò)頭來(lái)對(duì)自己購(gòu)買(mǎi)的商品進(jìn)行一些評(píng)價(jià),以此來(lái)表達(dá)自己對(duì)于該商品使用后的看法。商品評(píng)價(jià)的好壞對(duì)于一個(gè)商品的重要性顯而易見(jiàn),大部分消費(fèi)者都以此作為快速評(píng)判該商品質(zhì)量?jī)?yōu)劣的方式。所以,與此同時(shí),有些商家為了獲得好評(píng),還會(huì)做一些 “好評(píng)優(yōu)惠” 或者 “返點(diǎn)” 活動(dòng)來(lái)刺激消費(fèi)者評(píng)價(jià)商品。

Python分布式抓取和分析京東商城評(píng)價(jià)

互聯(lián)網(wǎng)購(gòu)物現(xiàn)在已經(jīng)是非常普遍的購(gòu)物方式,在互聯(lián)網(wǎng)上購(gòu)買(mǎi)商品并且使用之后,很多人都會(huì)回過(guò)頭來(lái)對(duì)自己購(gòu)買(mǎi)的商品進(jìn)行一些評(píng)價(jià),以此來(lái)表達(dá)自己對(duì)于該商品使用后的看法。商品評(píng)價(jià)的好壞對(duì)于一個(gè)商品的重要性顯而易見(jiàn),大部分消費(fèi)者都以此作為快速評(píng)判該商品質(zhì)量?jī)?yōu)劣的方式。所以,與此同時(shí),有些商家為了獲得好評(píng),還會(huì)做一些 “好評(píng)優(yōu)惠” 或者 “返點(diǎn)” 活動(dòng)來(lái)刺激消費(fèi)者評(píng)價(jià)商品。

既然商品評(píng)價(jià)對(duì)于消費(fèi)者選購(gòu)商品而言至關(guān)重要,那么我想試試可以從這些評(píng)價(jià)信息中獲取到怎樣的價(jià)值,來(lái)幫助消費(fèi)者快速獲取到關(guān)于該商品的一些重要信息,給他們的購(gòu)物帶來(lái)更加可靠地保證?

所以,我認(rèn)為,一種快速、全面、高提煉度和高對(duì)比度的信息獲取和展示方式將會(huì)非常必要。 于是,我采用分布式快速抓取京東的評(píng)價(jià)信息,然后使用 pandas 對(duì)抓取到的數(shù)據(jù)進(jìn)行分析。

話不多說(shuō)先附上使用地址

體驗(yàn)地址:http://awolfly9.com/jd/

想要分析京東商城的商品評(píng)價(jià)信息,那么需要做些什么呢

  • 采用分布式抓取,盡量在短時(shí)間內(nèi)抓取需要分析的商品足夠多的評(píng)價(jià)信息
  • 將抓取到的評(píng)價(jià)信息都存儲(chǔ)到數(shù)據(jù)庫(kù)
  • 從數(shù)據(jù)庫(kù)中取出所有數(shù)據(jù)進(jìn)行數(shù)據(jù)分析
    • 生成好評(píng)的詞云,并且獲取關(guān)鍵字
    • 生成中評(píng)的詞云,并且獲取關(guān)鍵字
    • 生成差評(píng)的詞云,并且獲取關(guān)鍵字
    • 分析購(gòu)買(mǎi)該商品不同顏色的比例,生成柱狀圖
    • 分析購(gòu)買(mǎi)該商品不同配置的比例,生成柱狀圖
    • 分析該商品的銷(xiāo)售數(shù)量和評(píng)論數(shù)量和時(shí)間的關(guān)系,生成時(shí)間則線圖
    • 分析該商品不同省份購(gòu)買(mǎi)的的比例,生成柱狀圖
    • 分析該商品不同渠道的銷(xiāo)售比例,生成柱狀圖
  • 利用 Django 搭建后臺(tái),將數(shù)據(jù)抓取和數(shù)據(jù)分析連起來(lái)
  • 前端顯示數(shù)據(jù)抓取和分析結(jié)果

分布式抓取京東商城的評(píng)價(jià)信息

采用分布式抓取的目的是快速的在短時(shí)間內(nèi)盡量抓取足夠多的商品評(píng)價(jià),使分析結(jié)果更精確

  1. 找出評(píng)價(jià)請(qǐng)求 URL 規(guī)律,獲取到如下 URL 組合鏈接
  2. 利用 Chrome 插件 Postman 測(cè)試鏈接是否可用,發(fā)現(xiàn)京東獲取評(píng)價(jià)信息并沒(méi)有驗(yàn)證 Cookie 之類(lèi)的反爬措施
  3. 開(kāi)始編碼利用 scrapy 抓取京東商城的商品評(píng)價(jià)信息并存入數(shù)據(jù)庫(kù)以備使用

數(shù)據(jù)分析

  1. 從數(shù)據(jù)庫(kù)中取出相應(yīng)數(shù)據(jù),開(kāi)始分析
  2. 使用 python 的擴(kuò)展庫(kù) wordcloud 分別提取好評(píng)、中評(píng)、差評(píng)的關(guān)鍵字,并且生成相應(yīng)的詞云圖片
  3. 分析該商品不同顏色的銷(xiāo)量占比,并且生成柱狀圖,例如 iphone7 的不同顏色金色、玫瑰金色、銀色、黑色、亮黑色、還有***出的紅色的占比
  4. 分析該商品不同配置的銷(xiāo)量占比,并且生成柱狀圖,例如 iphone7 32G 、 64G、128G 存儲(chǔ)
  5. 分析該商品銷(xiāo)售和評(píng)論時(shí)間并且生成折線圖,分析出商品在什么時(shí)間最暢銷(xiāo)
  6. 分析用戶購(gòu)買(mǎi)該商品的渠道,例如用戶通過(guò)京東 Android 客戶端、微信京東購(gòu)物、京東 iPhone 客戶端購(gòu)物的比例,并且生成柱狀圖
  7. 分析購(gòu)買(mǎi)該商品的用戶的地域省份。例如北京、上海、廣州那個(gè)城市在京東上購(gòu)買(mǎi) iPhone7 的人更多
  8. 將以上分析結(jié)果都存儲(chǔ)保留

Django 后臺(tái) WEB

使用 Django 搭建一個(gè)簡(jiǎn)易的后臺(tái) jd_analysis,將分布式抓取數(shù)據(jù)和數(shù)據(jù)分析連起來(lái),并且將分析結(jié)果返回前端顯示。

  1. jd_analysis 提供一個(gè)接口接受用戶請(qǐng)求分析的京東商城商品的 URL 鏈接
  2. jd_analysis 接受到商品鏈接后開(kāi)啟爬蟲(chóng)進(jìn)程開(kāi)始抓取需要分析的商品的名稱(chēng)和評(píng)價(jià)數(shù)量
  3. 組合出完整的評(píng)價(jià)鏈接插入到 redis 中,實(shí)現(xiàn)分布式爬蟲(chóng)抓取,盡可能在短時(shí)間內(nèi)抓取足夠多的該商品評(píng)價(jià)信息(我現(xiàn)在是 30s 時(shí)間大概可以抓取 3000 條評(píng)價(jià)信息)
  4. 主服務(wù)器等待一定的抓取時(shí)間,例如主服務(wù)器等待 30s,30s 后一定要給前端返回分析結(jié)果,所以等 30s 后清空 redis 中該商品的鏈接,從服務(wù)器沒(méi)有讀取不到需要抓取的鏈接也就自動(dòng)關(guān)閉
  5. 開(kāi)啟分析進(jìn)程,開(kāi)始分析抓取到的所有數(shù)據(jù),并且生成圖標(biāo)等信息

前端展示

在客戶端***次請(qǐng)求時(shí),生成一個(gè) GUID,并且存儲(chǔ)在 cookie 中。然后開(kāi)啟一個(gè)定時(shí)器,帶上 GUID 不斷的向 jd_analysis 后臺(tái)請(qǐng)求結(jié)果。jd_analysis 后臺(tái)利用請(qǐng)求的 GUID 從 redis 中獲取抓取信息和分析結(jié)果的所有內(nèi)容,返回給前端。前端顯示請(qǐng)求到的結(jié)果。

***附上兩張效果圖

購(gòu)買(mǎi)和評(píng)論時(shí)間折線圖

 

購(gòu)買(mǎi)渠道柱狀圖

 

大功告成

以上就是完整的抓取京東商品的評(píng)價(jià)信息并且使用 pandas 分析評(píng)價(jià)然后利用 Django 搭建后臺(tái)前端顯示抓取和分析結(jié)果的所有步驟。 

責(zé)任編輯:龐桂玉 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2018-01-09 14:43:37

Python機(jī)器學(xué)習(xí)數(shù)據(jù)抓取

2017-01-10 16:18:26

分布式存儲(chǔ)建設(shè)

2017-01-16 14:51:26

京東分布式服務(wù)CallGraph

2019-05-13 09:20:02

京東云RedisMongoDB

2019-10-10 09:16:34

Zookeeper架構(gòu)分布式

2023-05-29 14:07:00

Zuul網(wǎng)關(guān)系統(tǒng)

2017-09-01 05:35:58

分布式計(jì)算存儲(chǔ)

2019-06-19 15:40:06

分布式鎖RedisJava

2017-09-11 15:17:01

分布式集群負(fù)載均衡

2015-09-23 14:32:30

NFV分布式數(shù)據(jù)環(huán)境

2021-07-16 07:57:34

ZooKeeperCurator源碼

2017-10-27 08:40:44

分布式存儲(chǔ)剪枝系統(tǒng)

2013-10-16 11:36:08

分布式大數(shù)據(jù)

2023-10-26 18:10:43

分布式并行技術(shù)系統(tǒng)

2022-12-28 09:48:09

分布式系統(tǒng)關(guān)鍵路徑

2024-03-18 00:00:01

分布式搜索引擎

2023-05-05 08:16:56

SeaweedFS分布式文件

2023-07-05 00:09:13

分布式存儲(chǔ)架構(gòu)

2024-03-05 09:52:57

2018-07-17 08:14:22

分布式分布式鎖方位
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)