隔離太無聊?每天一個數(shù)據(jù)科學項目,數(shù)據(jù)集都準備好了!
大數(shù)據(jù)文摘出品
來源:medium
編譯:張大筆茹、夏雅薇
首先,我想向所有的護士,醫(yī)生,超市員工,公共管理人員以及其他冒著生命危險為我們服務的人致敬。
不要把這一切當成理所當然的,他們做出了很大的貢獻,而我們能做的是盡可能在此期間花些時間學習新技能,讀書和提高自己。對于那些對數(shù)據(jù),數(shù)據(jù)分析或數(shù)據(jù)科學感興趣的人,我提供了一份可以利用業(yè)余時間完成的數(shù)據(jù)科學項目清單,一共14個!
項目分為三種類型:
- 可視化項目
- 探索性數(shù)據(jù)分析(EDA)項目
- 預測建模
一、可視化項目
最容易上手的就是數(shù)據(jù)可視化, 以下三個數(shù)據(jù)集可以用于創(chuàng)建一些有意思的的可視化效果并加到你的簡歷中。
1. 新冠病毒可視化
學習如何使用Plotly構(gòu)建動態(tài)可視化數(shù)據(jù),展示冠狀病毒是如何在全球范圍內(nèi)傳播的。Plotly很好用,它可以做動態(tài)可視化,好看且操作簡單。
- 難易程度:簡單
- 數(shù)據(jù)集:https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
- 教程:https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5
2. 澳洲大火數(shù)據(jù)可視化
2019-2020年的叢林大火季,也稱為黑色夏天,由2019年6月開始的幾場極端野火組成的。據(jù)維基百科統(tǒng)計,這場大火燒毀了約1,860萬公頃的土地和5,900多座建筑物。
這是一個有趣的項目,可以利用Plotly或Matplotlib數(shù)據(jù)可視化工具來可視化野火的規(guī)模和對地理的影響。
- 難易程度:簡單
- 數(shù)據(jù)集:https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland
3. 地表溫度可視化
你是否懷疑過全球變暖的觀點?創(chuàng)建一些數(shù)據(jù)可視化效果,顯示地球表面溫度如何隨時間變化,并可以通過創(chuàng)建折線圖或其他動畫的Choropleth貼圖來實現(xiàn)!也可以創(chuàng)建一個預測模型來預測未來五十年內(nèi)地球的溫度。
- 難易程度:介于簡單到中等之間
- 數(shù)據(jù)集:https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels
二、探索性數(shù)據(jù)分析項目
探索性數(shù)據(jù)分析(EDA),也稱為數(shù)據(jù)挖掘,意思是數(shù)據(jù)分析過程中使用了多種技術來更好理解數(shù)據(jù)。
4. 紐約Airbnb數(shù)據(jù)挖掘
自2008年以來,Airbnb使游客和房東出行更方便,提出更多個性化的體驗世界的方式。該數(shù)據(jù)集包含有關2019年紐約出租的信息以及包含其地理信息,價格,評論數(shù)量等。
可以分析的一些角度如下:
- 哪些區(qū)域生意最好,為什么?
- 哪些區(qū)域的流量比其他區(qū)域大,為什么?
- 價格,評論數(shù)量和預訂天數(shù)之間是否存在一些關系?
難易程度:中等
數(shù)據(jù)集:https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
5. 哪些因素與員工離職和績效有關
IBM公開了一個綜合數(shù)據(jù)集,可以使用它來了解各種因素如何影響員工的流失率和滿意度。一些變量包括教育程度,工作相關性,績效評估和工作生活平衡程度等。
分析此數(shù)據(jù)集,找到任何確實影響員工滿意度的變量,另外,還可以看看是否可以對變量進行重要程度排名。
- 難易程度:簡單
- 數(shù)據(jù)集:https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset
6. 世界大學排名
你認為你的國家擁有世界上最好的大學嗎?成為“最好”大學的衡量標準是什么?該數(shù)據(jù)集包含三個全球大學排名方式。使用此數(shù)據(jù),你是否可以回答以下問題:
- 頂尖的大學都在哪些國家?
- 決定世界排名的主要因素是什么?
- 難易程度:簡單
- 數(shù)據(jù)集:https://www.kaggle.com/mylesoneill/world-university-rankings
7. 飲酒與在校表現(xiàn)
喝酒會影響學生的成績嗎?如果不會,那有什么別的影響嗎?這個數(shù)據(jù)是從中學數(shù)學和葡萄牙語課程的學生進行的一項調(diào)查中獲得的。它包含幾個變量,例如飲酒量,家庭人數(shù),參與課外活動。
利用這些數(shù)據(jù),挖掘?qū)W校成績與各種因素之間的關系。另外,看看是否可以根據(jù)其他變量來預測學生的成績!
- 難易程度:簡單
- 數(shù)據(jù)集:https://www.kaggle.com/uciml/student-alcohol-consumption
8. 寵物小精靈數(shù)據(jù)挖掘
對所有游戲玩家來說,這是一個包含來自七代802個 Pokemon的信息數(shù)據(jù)集。試著回答以下幾個問題!
- 哪一代寵物小精靈最強?哪代最弱?
- 哪種類型神奇寶貝最強?哪種最弱?
- 能否建立分類器來識別神奇寶貝?
- 身體特征與力量狀態(tài)(進攻,防守,速度等)之間是否有相關性?
難易程度:簡單
數(shù)據(jù)集:https://www.kaggle.com/rounakbanik/pokemon
9. 探索影響預期壽命的因素
世衛(wèi)組織建立了一段時間內(nèi)所有國家健康狀況的數(shù)據(jù)集,其中包括預期壽命,成人死亡率等方面的統(tǒng)計數(shù)據(jù)。使用此數(shù)據(jù)集,探索各種變量之間的關系,預測對預期壽命的最大影響因素是什么?
請嘗試回答以下問題:
- 最初選擇的各種預測因素是否真的影響預期壽命?實際影響預期壽命的預測變量有哪些?
- 預期壽命值低于(<65)的國家是否應該增加其醫(yī)療保健支出以改善其平均壽命?
- 嬰兒和成人死亡率如何影響預期壽命?
- 預期壽命與飲食習慣,生活方式,運動,吸煙,飲酒等是正相關還是負相關?
- 是否接受教育對人類壽命有何影響?
- 預期壽命與飲酒是正相關還是負相關?
- 人口稠密的國家的預期壽命是否有降低的趨勢?
- 免疫覆蓋率對預期壽命有什么影響?
難易程度:簡單
數(shù)據(jù)集:https://www.kaggle.com/kumarajarshi/life-expectancy-who
三、預測模型
10. 能源消耗的時間序列預測
該數(shù)據(jù)集由美國區(qū)域傳輸組織PJM網(wǎng)站上的功耗數(shù)據(jù)組成,使用此數(shù)據(jù)集,查看是否可以構(gòu)建時間序列模型來預測能耗。除此之外,還可以查看是否可以找到一天中每個小時的趨勢,假日用電量以及長期趨勢!
- 難度:中高級
- 數(shù)據(jù)集:https://www.kaggle.com/robikscube/hourly-energy-consumption
11. 貸款預測
該數(shù)據(jù)集取自Analytics Vidhya,包括 615行和13列有關已批準和尚未批準的歷史貸款信息。你是否可以創(chuàng)建一個模型來預測貸款是否會獲批。
- 難易程度:簡單
- 數(shù)據(jù)集:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
12. 二手車價格計算器
Craigslist是全球最大的二手車經(jīng)銷商,該數(shù)據(jù)集由Craigslist的抓取數(shù)據(jù)組成,每隔幾個月更新一次。使用此數(shù)據(jù)集,查看是否可以創(chuàng)建一個數(shù)據(jù)集來預測一輛汽車價格是否被高估或低估了。
- 難易程度:中等
- 數(shù)據(jù)集:https://www.kaggle.com/austinreese/craigslist-carstrucks-data
13. 信用卡欺詐檢測
該數(shù)據(jù)集顯示了兩天內(nèi)發(fā)生的交易,其中284,807筆交易中有492筆欺詐。數(shù)據(jù)高度正態(tài)分布,欺詐占所有交易的0.172%。學習如何使用不正太的數(shù)據(jù)集并建立信用卡欺詐檢測模型。
- 難易程度:中高級
- 數(shù)據(jù)集:https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets
14. 皮膚癌圖像檢測
通過10,000多張圖像來構(gòu)建神經(jīng)網(wǎng)絡來檢測皮膚癌。這絕對是最難的項目,需要有關神經(jīng)網(wǎng)絡和圖像識別的儲備知識。
- 難易程度:難
- 數(shù)據(jù)集:https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000
相關報道:
https://towardsdatascience.com/14-data-science-projects-to-do-during-your-14-day-quarantine-8bd60d1e55e1
【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】