偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)科學之旅:初學數(shù)據(jù)科學所希望知道的5件事

大數(shù)據(jù)
兩年來,我一直都在獨立研究數(shù)據(jù)科學的概念。寫這篇文章的初衷是想向那些迷茫的人介紹我的觀點,希望能與初入行的數(shù)據(jù)科學家分享這兩年中的收獲。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。

兩年來,我一直都在獨立研究數(shù)據(jù)科學的概念。寫這篇文章的初衷是想向那些迷茫的人介紹我的觀點,希望能與初入行的數(shù)據(jù)科學家分享這兩年中的收獲。

[[348315]]

先成為一名優(yōu)秀的程序員和統(tǒng)計學家

了解數(shù)據(jù)科學的基本原理會讓生活更加輕松,并且從長遠來看可以節(jié)省時間。幾乎所有的機器學習概念和算法都基于統(tǒng)計和概率,除此之外,許多其他數(shù)據(jù)科學概念(例如A/B測試)也屬于純統(tǒng)計范疇。

歸根結(jié)底,編程和統(tǒng)計知識影響一名數(shù)據(jù)科學家的能力上限。在學習其他內(nèi)容之前,必須具有良好的編程和統(tǒng)計基礎。從長遠來看,它將為你節(jié)省更多時間。

將更多的時間花在個人數(shù)據(jù)科學項目上,而非在線訓練營

這可能是一個有爭議的觀點,請容許我先提出幾點聲明:

  • 這完全基于我聽聞的實例以及我對同行的觀察。
  • 這里指的并不包括一些優(yōu)秀在線課程,例如deeplearning.ai的課程。
  • 當然,如果沒有其他選擇,參加訓練營有勝于無。

在線訓練營存在一些問題。就內(nèi)容的深度而言,它們往往非常淺顯。不僅如此,而且它們還容易使人對所學材料產(chǎn)生錯誤的理解。

它們也不太適合保留學習信息?;ㄙM越多的時間學習某個課題,就越想留存相關(guān)信息。但這些訓練營,尤其是那些宣傳為“在5周內(nèi)成為專家”的訓練營,沒有給你足夠的時間來真正沉淀所學的知識。

他們通常沒有足夠的挑戰(zhàn)性。許多訓練營和課程只是要求你遵循并重復他們的代碼,而不進行批判性或深入性的思考。

而個人數(shù)據(jù)科學項目使你不得不獨自批判性地思考問題和解決方案,這是一種很好的學習方法。這樣學到的知識遠超過任何訓練營所教授的。你將學會如何提出正確的問題,如何用Google查詢正確的問題,如何構(gòu)建自己想要的數(shù)據(jù)科學項目,如何變得有條理等。

投放更多精力到自己的項目中,你也會更有動力去學習更多知識、投入更多時間,從而形成積極的反饋循環(huán)。因此,少花時間參加數(shù)據(jù)科學訓練營,將更多的時間用于個人數(shù)據(jù)科學項目吧。

[[348316]]

專注于一些精選工具

大量數(shù)據(jù)科學包和工具讓你得以組建適合自己的個性化數(shù)據(jù)科學工具箱。然而,這也使人易于在一條錯誤的路上一去不復返:過于追求軟件包和工具的學習數(shù)量。精通一些工具比使用不熟練的工具做表面工作要好得多。在簡歷中列出所有技能和工具不應該是最終目標!

舉個例子,這些數(shù)據(jù)可視化軟件包都很優(yōu)質(zhì):Matplotlib、Seaborn、Plotly、Bokeh等等,但你不需要花時間去掌握所有,這是在浪費寶貴而有限的時間。

如果你想用Pandas來處理數(shù)據(jù),那就要好好地利用它。如果你更喜歡NumPy,那就用NumPy。的確,理想情況下你能同時擅長Pandas和NumPy,但我認為,專注其中一個并精通它比左顧右盼要好得多。

同樣的道理也適用于:

  • Python與R
  • Tensorflow與 Pythorch
  • Postgresql與MySQL

我建議你建立自己的數(shù)據(jù)科學工具箱并專注于此,精通5個工具比不熟練使用20個工具要好。

了解各種機器學習算法僅占數(shù)據(jù)科學的一小部分

就個人而言,數(shù)據(jù)科學吸引我的是所有不同的機器學習模型,它們?nèi)绾喂ぷ饕约八鼈內(nèi)绾伟l(fā)揮效用。我花了至少六個月的時間來學習和嘗試幾種不同的機器學習模型,才意識到它是數(shù)據(jù)科學家所需了解內(nèi)容的一小部分。

數(shù)據(jù)建模只是整個機器學習生命周期的一部分。你還需要了解數(shù)據(jù)收集,數(shù)據(jù)準備,模型評估,模型部署和模型調(diào)優(yōu)。在實際項目中,大部分時間都消耗在了數(shù)據(jù)準備而不是數(shù)據(jù)建模(機器學習建模)上。

除此之外,你還需要學習其他一些知識,例如版本控制(Git),從API中提取數(shù)據(jù),了解云計算等等。不要將所有時間都花在嘗試掌握每種機器學習算法上。

負擔綜合癥非常常見

[[348317]]

圖源:unsplash

從我開始學習數(shù)據(jù)科學的第一天到如今,我經(jīng)常體會到負擔綜合癥,但我知道那是完全正常的。為什么對數(shù)據(jù)科學家來說,負擔綜合癥很常見也很正常?

  • “數(shù)據(jù)科學”是一個非常模糊的術(shù)語,它是一個跨學科的領域,包括統(tǒng)計學、程序設計、數(shù)學、商業(yè)理解、數(shù)據(jù)工程等。除此之外,數(shù)據(jù)科學家還有很多同義詞(數(shù)據(jù)分析員、數(shù)據(jù)工程師、研究科學家、應用科學家)。你永遠無法成為數(shù)據(jù)科學所涵蓋所有領域的專家,你也不應該覺得自己必須做到這一點。
  • 與編程和技術(shù)領域的其他學科一樣,數(shù)據(jù)科學也在不斷發(fā)展。20年前,Pandas還沒有被創(chuàng)造出來。5年前,Tensorflow才發(fā)布??倳粩嘤行枰銓W習的新技術(shù)出現(xiàn)。
  • 你不可能在所有領域成為專家,這意味著總會有人在你花更少時間的事情上做得更好,這沒有什么關(guān)系。

作為一名數(shù)據(jù)科學家,你時常會感覺到負擔綜合癥,放輕松,專注于自己的事業(yè)。

數(shù)據(jù)科學之旅教會我很多道理,希望這些道理能幫助迷茫的你突破瓶頸。

 

責任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2015-09-15 09:32:50

2020-06-16 09:13:27

數(shù)據(jù)科學數(shù)據(jù)大數(shù)據(jù)

2024-09-06 13:55:45

2017-10-11 18:14:13

數(shù)據(jù)收集大數(shù)據(jù)系統(tǒng)建模

2011-04-02 13:11:35

JARJava

2021-11-11 13:39:53

存儲數(shù)據(jù)存儲技術(shù)

2012-03-14 21:15:16

Siri

2010-08-24 14:08:33

喬布斯

2020-01-14 17:31:46

數(shù)據(jù)科學誤區(qū)人工智能

2011-04-02 13:35:21

多線程編程多線程java

2010-09-02 18:56:09

NoSQL數(shù)據(jù)庫DBA

2018-06-29 16:00:56

數(shù)據(jù)科學家數(shù)據(jù)清理數(shù)據(jù)分析

2019-10-25 11:02:01

安全內(nèi)部威脅網(wǎng)絡

2024-01-09 14:57:22

2014-11-14 17:39:23

云計算

2023-03-29 10:03:59

2019-12-11 19:19:19

算法數(shù)據(jù)科學家代碼

2017-07-04 08:59:35

2021-03-30 22:31:00

遠程辦公工具安全

2011-04-02 14:00:45

命令行JVMJava
點贊
收藏

51CTO技術(shù)棧公眾號