偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

大數(shù)據(jù) 數(shù)據(jù)分析
本次數(shù)據(jù)樣本共13041條,本別采集了北京、上海、廣州、深圳、杭州的某一天出行數(shù)據(jù),由于手動(dòng)操作難以保證取樣的公平性,所以不能對(duì)全部數(shù)據(jù)結(jié)果的準(zhǔn)確性做保證,本文以提供思路參考為主,先放一張路線(xiàn)圖:

目錄

  • 前言
  • 統(tǒng)計(jì)結(jié)果
  • 爬蟲(chóng)思路
  • 統(tǒng)計(jì)思路
  • 后記

前言

很早之前發(fā)過(guò)一篇關(guān)于某拼車(chē)平臺(tái)爬蟲(chóng)的文章,因?yàn)楣ぷ鞅容^忙,一直沒(méi)有下文。最近年底稍微空了些,加上碰上春節(jié)返鄉(xiāng)大潮,剛好再拿過(guò)來(lái)寫(xiě)一下數(shù)據(jù)分析的思路。

本次數(shù)據(jù)樣本共13041條,本別采集了北京、上海、廣州、深圳、杭州的某一天出行數(shù)據(jù),由于手動(dòng)操作難以保證取樣的公平性,所以不能對(duì)全部數(shù)據(jù)結(jié)果的準(zhǔn)確性做保證,本文以提供思路參考為主,先放一張路線(xiàn)圖:

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

統(tǒng)計(jì)結(jié)果

好了,知道大家比較關(guān)心結(jié)果,所以先把結(jié)果放一放,后面再接著講分析過(guò)程。

乘客性別

先單獨(dú)把性別拎出來(lái)看一下,后面再根據(jù)城市進(jìn)行分析,結(jié)果顯示,拋開(kāi)未設(shè)置性別的乘客不論,總體來(lái)看順風(fēng)車(chē)的用戶(hù)群中,男性(占比49.39%)還是多于女性(占比31.55%)的。畢竟跨城順風(fēng)車(chē),大過(guò)年的,女性乘客對(duì)于安全性的憂(yōu)慮還是要有的。

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

城市訂單

真實(shí)數(shù)據(jù)的話(huà)訂單數(shù)量應(yīng)該是深圳 > 北京 > 廣州 > 上海 > 杭州,但是同一個(gè)城市內(nèi)的乘客性別比例應(yīng)該還是具有一定的參考價(jià)值的,可以看到北京、上海、深圳的女性乘客數(shù)量占比都是高于男性的。

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

客單價(jià)

原本是想比較一下平均路程長(zhǎng)度,但是想想這個(gè)事情太折騰了,由于平臺(tái)主要還是依靠路程來(lái)計(jì)算拼車(chē)費(fèi)用的,所以通過(guò)計(jì)算客單價(jià)的話(huà)大概也能反映一下平均形成長(zhǎng)度(我猜的,然后結(jié)果是這樣的,沒(méi)想到廣州是最高的,也可能是我統(tǒng)計(jì)錯(cuò)誤)。

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

哪里乘客最壕

有時(shí)候有些偏遠(yuǎn)地區(qū)訂單或者順路司機(jī)少,乘客會(huì)加價(jià)希望司機(jī)接單,于是統(tǒng)計(jì)了一下各城市加價(jià)訂單的占比和平均的加價(jià)額度,得出如下結(jié)果:

占比最高的城市是深圳,平均加價(jià)額度最高的城市也是深圳,看來(lái)深圳的小哥哥小姐姐們的確出手闊綽,然而加價(jià)比例最低的是北京,不過(guò)這也不能說(shuō)明帝都人民不壕氣,可能就是人家繁華,司機(jī)多。

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

返鄉(xiāng)路線(xiàn)圖

最后放幾張返鄉(xiāng)的路線(xiàn)圖

北京

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

上海

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

 

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

廣州

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

 

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

深圳

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

杭州

杭州明顯有別于其他幾個(gè)城市,一個(gè)是杭州的數(shù)據(jù)樣本多,另外一個(gè)平臺(tái)上杭州黃牛多,那些最遠(yuǎn)的單子就是黃牛廣告單。

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

分析了一萬(wàn)多條拼車(chē)數(shù)據(jù),看看北上廣深的各位都回哪過(guò)年

爬蟲(chóng)思路

注冊(cè)成為司機(jī),利用mitm抓包存儲(chǔ)拼車(chē)單。

統(tǒng)計(jì)思路

數(shù)據(jù)的話(huà),我是通過(guò)本地Mongodb存儲(chǔ),所以直接用python操作Mongodb數(shù)據(jù)。

Pymongo

關(guān)于Mongodb數(shù)據(jù)庫(kù)的連接,直接上代碼:

  1. client = MongoClient('mongodb://localhost:27017'
  2. spring = client.spring 
  3. collection = spring['orders'

以上代碼的意思就是連接本地Mongodb-spring數(shù)據(jù)庫(kù)-orders文檔集合。

Pyecharts

Pyecharts(http://pyecharts.org)是大名鼎鼎的Echarts的Python可視化圖表庫(kù),用起來(lái)挺順手的,而且文檔規(guī)范,基本上可以零門(mén)檻入門(mén),具體實(shí)現(xiàn)請(qǐng)移步文檔。

這里介紹一下關(guān)于Pyecharts的圖表樣式配置,為了保持各圖表的樣式統(tǒng)一(偷懶),Pyecharts提供了一個(gè)Style類(lèi),可用于在同一個(gè)圖或者多個(gè)圖內(nèi)保持統(tǒng)一的風(fēng)格。

  1. from pyecharts import Style,Geo 
  2.  
  3. style = Style( 
  4.    title_color="#fff"
  5.    title_pos="center"
  6.    width=1100, 
  7.    height=600, 
  8.    background_color='#404a59' 
  9. # style.init_style 會(huì)返回類(lèi)初始化的風(fēng)格配置字典 
  10. geo = Geo("全國(guó)主要城市空氣質(zhì)量""data from pm2.5", **style.init_style) 

這樣,就創(chuàng)建了一個(gè)Geo地理坐標(biāo)系圖表。

代碼解讀

因?yàn)槿看a有點(diǎn)長(zhǎng),所以抽了一段舉個(gè)例子,主要思路就是從Mongodb取出指定數(shù)據(jù),或者通過(guò)$group管道對(duì)數(shù)據(jù)進(jìn)行處理,最后通過(guò)pyecharts生成相應(yīng)的圖表,呈現(xiàn):

  1. from pymongo import MongoClient 
  2. from pyecharts import Style,GeoLines 
  3.  
  4. def getLines(self): 
  5.    # 連接數(shù)據(jù)庫(kù) 
  6.    client = MongoClient('mongodb://localhost:27017'
  7.    spring = self.client.spring 
  8.    collection = self.spring['orders'
  9.     
  10.    # Mongodb的操作,$match-篩選出'from_poi.city.city_name''杭州'的文檔, 
  11.    # 再通過(guò)$group管道,按照目標(biāo)城市統(tǒng)計(jì)出匯總數(shù)量 
  12.    line_hangzhou = collection.aggregate([ 
  13.        {'$match': {'from_poi.city.city_name''杭州'}}, 
  14.        {'$group': {'_id''$to_poi.city.city_name''count': {'$sum': 1}}} 
  15.    ]) 
  16.    # 按照Geolines圖表的數(shù)據(jù)格式格式化數(shù)據(jù) 
  17.    line_hangzhou_ = [] 
  18.    for line in line_hangzhou: 
  19.        line_hangzhou_.append(["杭州", line['_id'], line['count']]) 
  20.         
  21.    # 創(chuàng)建一個(gè)GeoLines圖表 
  22.    citylines = GeoLines("春節(jié)遷移路線(xiàn)圖", **style.init_style) 
  23.    # 添加數(shù)據(jù)以及樣式 
  24.    citylines.add("從杭州出發(fā)"
  25.                  line_hangzhou_, 
  26.                  **geo_style) 
  27.    # 生成html文件 
  28.    citylines.render("results/citylines.html"

后記

這是一篇遲到很久的文章,本來(lái)沒(méi)打算再寫(xiě),但是總覺(jué)得下半部分沒(méi)寫(xiě)完心里有個(gè)結(jié),所以還是抽時(shí)間補(bǔ)上。另外作為一個(gè)非專(zhuān)業(yè)技術(shù)人員,多記多練免得過(guò)幾天自己就忘了。

責(zé)任編輯:未麗燕 來(lái)源: InThirty
相關(guān)推薦

2011-12-22 09:53:44

溝通科技

2020-11-18 09:37:07

程序員技術(shù)996

2020-12-01 10:03:22

程序員技能開(kāi)發(fā)者

2019-03-01 13:24:12

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2017-07-03 14:39:41

開(kāi)發(fā)者故事

2018-11-21 14:09:31

可視化天氣霧霾

2018-06-11 18:15:51

快應(yīng)用聯(lián)盟

2019-12-19 17:07:44

程序員工程師技術(shù)

2019-02-26 14:37:43

互聯(lián)網(wǎng)大齡程序員二線(xiàn)城市

2020-07-28 17:27:02

互聯(lián)網(wǎng)北上廣城市

2018-07-13 10:56:06

互聯(lián)網(wǎng)城市北上廣

2013-07-08 09:48:01

云計(jì)算北上廣

2017-08-14 15:53:33

大數(shù)據(jù)數(shù)據(jù)分析

2018-07-04 11:09:09

程序員北漂欲望

2018-11-12 14:21:35

2018-02-26 17:42:58

大數(shù)據(jù)一線(xiàn)城市北上廣深

2020-05-14 15:24:27

計(jì)算機(jī)人工智能 就業(yè)

2010-08-30 10:38:40

蟻?zhàn)?/a>逃離

2021-09-06 08:24:17

年齡焦慮程序員

2015-03-27 11:39:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)