數(shù)據(jù)分析實戰(zhàn):使用Python分析新型冠狀病毒的發(fā)展趨勢
這次疫情的情況大家也都了解了,各地也都延遲開學(xué)或者延遲開工,對于我們來說,正好是一次深入學(xué)習(xí)的機(jī)會。今天,我就帶領(lǐng)大家分析一下新型冠狀病毒的爆發(fā)趨勢,也借此作為一次數(shù)據(jù)分析課程的實戰(zhàn)案例,從 數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)可視化再到產(chǎn)出數(shù)據(jù)結(jié)論,完整的走一遍數(shù)據(jù)分析流程。
這次使用的數(shù)據(jù)是霍普金斯大學(xué)收集的世界范圍內(nèi)的病毒爆發(fā)數(shù)據(jù)。
導(dǎo)入所需的包和數(shù)據(jù)


數(shù)據(jù)清洗
第一:刪除不需要的數(shù)據(jù)列
從數(shù)據(jù)中我們可以看出,第一列相當(dāng)于編號,第五列是數(shù)據(jù)更新的最后時間,這兩列對我們的分析來說沒有實際意義,所以先把這兩列進(jìn)行刪除操作:

第二:對數(shù)據(jù)集中的空值進(jìn)行處理
先來看一下數(shù)據(jù)的整體情況:

我們發(fā)現(xiàn),只有省份這一個字段是有空值的,那我們再來看一下具體的空值有哪些:

經(jīng)過篩選發(fā)現(xiàn),空缺的都是一些國外的省份,這是由于數(shù)據(jù)收集過程中產(chǎn)生的,并且我們無從推斷到底是什么,所以,這里的空值我們選擇不處理。
第三:刪除重復(fù)數(shù)據(jù)

通過使用dumplicate方法,我們發(fā)現(xiàn)這個人工整理的數(shù)據(jù)集不存在重復(fù)情況,所以也不需要進(jìn)行去重操作。
數(shù)據(jù)洞察
我們首先來看一下,截止到數(shù)據(jù)完成時間,世界上總共有多少國家已經(jīng)「淪陷」了:

通過統(tǒng)計發(fā)現(xiàn),總共只有32個國家已經(jīng)有了確診患者,但是,細(xì)心的同學(xué)可能會發(fā)現(xiàn),國家列表當(dāng)中有「China」和「Mainland China」,第二個表示的是「中國大陸」,其實也是中國,所以我們應(yīng)該把「Mainland China」也改為「China」統(tǒng)一口徑,在實際工作過程中,跨部門的數(shù)據(jù)經(jīng)常會出現(xiàn)這種情況,所以,處理這種數(shù)據(jù)噪音也是數(shù)據(jù)分析師的日常工作之一。
接著,我們看一下時間字段,時間字段的處理也是數(shù)據(jù)分析過程中不可或缺的一個步驟:

這里的時間,都是精確到「小時」的,為了便于統(tǒng)計,我們把它改成精確到「日」:

接下來,我們以國家作為維度,來統(tǒng)計一下每個國家的確診人數(shù):

排名第一的肯定是中國,排名靠前的基本都是中國臨近的亞洲國家,歐美國家當(dāng)中,排名第一的是德國,如果是真正工作過程中,德國這一點就是「異常點」,肯定要深入挖掘,在這里我們只是做一個示例。
之后我們以時間作為維度,分析一下每天的感染人群數(shù)量的變化:

從這里可以看到,14天之內(nèi)感染人數(shù)就從555人增長到24503個人,增長速度還是很快的,那我們接著也要具體分析一下,每天新增的確診人數(shù)有多少人,這里我們需要用到diff( )方法:

數(shù)據(jù)可視化

首先來看每天的確診人數(shù),基本上是指數(shù)增長的一個走勢,符合傳染病的爆發(fā)規(guī)律,我們要做的就是根據(jù)之后的數(shù)據(jù),洞察拐點的到來。

接著,我們看一下,每天的「死亡人數(shù)」和「治愈人數(shù)」的走勢,從這個數(shù)據(jù)上來看,治愈人數(shù)的增長趨勢已經(jīng)超過的死亡人數(shù),所以,從「最好」和「最壞」兩個方面來說的話,總體趨勢還是向好發(fā)展,大家也不必過于擔(dān)心。
總結(jié)
以上分析只是拋磚引玉,使用一部分?jǐn)?shù)據(jù)來引導(dǎo)大家參與到數(shù)據(jù)分析的實戰(zhàn)流程當(dāng)中,歡迎大家在留言區(qū)一起討論學(xué)習(xí)。















 
 
 

 
 
 
 