簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案
上次做了一個知乎的用戶學(xué)校分析,到底知乎用戶是不是人均985呢?引起了很大的討論。
其實,國內(nèi)的UGC平臺,知乎是領(lǐng)軍人物,但是又因為它太受歡迎,導(dǎo)致很多其他綜合性平臺都被忽略了。那么其他平臺都有哪些呢?
就拿簡書來說吧,這是一個和知乎差不多的綜合性平臺,但因為沒有“人在美國,剛下飛機”的這種梗,于是就被人們慢慢遺忘.....
簡書上有哪些優(yōu)質(zhì)用戶?有多少大V粉絲數(shù)上萬,獲贊數(shù)上萬?哪些文章的閱讀數(shù)最高?熱門專欄里又有哪些是最受用戶歡迎的呢?
一、獲取數(shù)據(jù)
不得不說,數(shù)據(jù)肯定得是用Python來爬,找到我們想爬取的數(shù)據(jù),簡潔代碼直接走天下~
具體的代碼就在文末給大家奉上。
由于簡書官方對數(shù)據(jù)有所保護(hù)和限制,僅能獲取單個用戶的900名關(guān)注者(粉絲亦然),以及前1900篇左右的文章。在通過2-3層數(shù)據(jù)爬取后,共獲得261277條用戶信息,具體數(shù)據(jù)有:用戶名、主頁url、是否為簽約作者、粉絲數(shù)、獲贊數(shù)、關(guān)注數(shù)、文章數(shù)、總字?jǐn)?shù)等等。
同時,但根據(jù)這1916篇文章獲贊數(shù)降序可知,排名第一的文章,獲贊數(shù)為:17076;排名最后的為488。由此可見,簡書上最熱門的文章可能都已經(jīng)獲取到了(其實并沒有)。
二、BI分析
一般來說,用Python取好數(shù)之后,就是數(shù)據(jù)可視化了。
說到數(shù)據(jù)可視化,可謂是百花齊放,一時之間前端界出現(xiàn)了琳瑯滿目的第三方庫: Highcharts , Echarts , Chart.js , D3.js 等。但是,萬變不離其宗:需要不錯的代碼知識,而且這些產(chǎn)品其實并不是真正的開源。
那對于我們這種不會代碼的小白有什么方法呢?
這就是我今天要說的BI了,也叫商業(yè)智能。百度搜索BI,就感覺內(nèi)容鋪天滿地而來,讓人摸不著頭腦。其實BI真正做的好的少之又少,但國內(nèi)和國外還是有一些優(yōu)秀產(chǎn)品的。
國外代表是Tableau,157億美金被收購,足以說明它的強大,但是對于國內(nèi)來說,它不適用:
- 基于數(shù)據(jù)查詢的工具,實時數(shù)據(jù)分析功能還很欠缺
- 價格很貴(土豪繞道),都是代理商所以售后服務(wù)非常差
- 本身沒有后端數(shù)據(jù)倉庫,宣稱自己是內(nèi)存BI,實際用起來對硬件要求極高,對于超千萬條的數(shù)據(jù)分析,必須借助于其他ETL工具處理好數(shù)據(jù)再進(jìn)行前端分析
- 無法支持中國式復(fù)雜表樣
所以我選擇了國內(nèi)的BI產(chǎn)品FineBI,一款企業(yè)級的數(shù)據(jù)分析軟件,最重要的是它個人版免費(文末有鏈接):
- 自動建模,建模簡單,模型靈活性很強
- 豐富的可視化和前端分析操作,能可視化地進(jìn)行數(shù)據(jù)鉆取,數(shù)據(jù)切片和數(shù)據(jù)旋轉(zhuǎn)等多維分析操作
- 內(nèi)置ETL,實時數(shù)據(jù)分析,同時對大數(shù)據(jù)能夠做到飛速處理
三、數(shù)據(jù)可視化
上面說了,F(xiàn)ineBI雖然是企業(yè)級的數(shù)據(jù)分析軟件,但是對于個人來說是免費的。同時,F(xiàn)ineBI支持多種形式的數(shù)據(jù)源,不同連接模式,處理數(shù)據(jù)完全無壓力。
我下好并激活之后,將Python爬出來的數(shù)據(jù)插入FineBI中,就開始了愉快的分析。
1、簽約作者分析
既然作為自媒體平臺,那么里面寫字人的目的就是成為簽約作者。在這26w+較優(yōu)質(zhì)用戶里,共有126人的主頁上明確地掛有“簽約作者”的標(biāo)簽。
這個比例可以說是很少了,也可以從側(cè)面說明簡書對于作者的要求有多嚴(yán)格。
單人貢獻(xiàn)5篇及以上熱門文章的,共有69名作者,也說明寫作不容易。
2、用戶粉絲情況
這是一個類金字塔的分析圖,這26w+用戶里:粉絲數(shù)大于10w+的有5人,均是萬中挑一的人物;其他各梯度人數(shù)看圖即可,不再贅述。值得一提的是粉絲數(shù)10-100區(qū)間的人數(shù)占比最大,為40.38%,而非0粉或1粉的用戶,這進(jìn)一步說明了本次本次爬取的數(shù)據(jù)較為優(yōu)質(zhì)。
3、熱門文章24小時分析
11點鐘文章最多,覺得蠻奇怪的,作為一只喜歡在晚上發(fā)布文章的小透明,原本覺得晚上才是創(chuàng)作的大好時光啊,11點鐘已經(jīng)屬于飯點,難道是上午潛心創(chuàng)作,一天之計在于晨,將當(dāng)天的寫作任務(wù)早早的完成,一身輕松?再是24小時都有人發(fā)布文章并成為熱點,
4、閱讀數(shù)、喜歡數(shù)與評論數(shù)
一篇文章的熱門程度,直觀地體現(xiàn)在喜歡數(shù)和評論數(shù)里,從圖上來看也確實是這樣。