如何成為一名數(shù)據(jù)科學(xué)家?或許你該聽聽這些知名數(shù)據(jù)科學(xué)家們給出的建議
最近,我在讀Sebastian Gutierrez’s “Data Scientists at Work”這本書,他采訪16個不同行業(yè)的16位數(shù)據(jù)科學(xué)家了解他們?nèi)绾螐睦碚撍伎紗栴}和如何解決實(shí)際問題,數(shù)據(jù)是怎樣發(fā)揮作用,并且是如此成功。
16位受訪者在如何理解和從大量公共和私人企業(yè)類型的公司提取數(shù)據(jù)價(jià)值都處在前列位置,公司類型橫跨剛剛起步的初創(chuàng)公司,到主要的研究機(jī)構(gòu)和人道主義非盈利組織,包含大量行業(yè):廣告,電子商務(wù),電子郵件營銷,企業(yè)云計(jì)算,時尚業(yè),工業(yè)互聯(lián)網(wǎng),互聯(lián)網(wǎng)電視和娛樂,音樂,非營利組織,神經(jīng)生物學(xué),報(bào)紙和媒體,專業(yè)的社交網(wǎng)絡(luò),零售業(yè),智能銷售和風(fēng)險(xiǎn)投資。
尤其是,Sebastia提出了開放式的問題,以便每位受訪者的個性和自發(fā)的思考過程能夠清楚和準(zhǔn)確的分享。書中涉及的從業(yè)者分享數(shù)據(jù)科學(xué)對他們的意義,及他們怎么理解它的,他們的建議關(guān)于怎樣加入這個領(lǐng)域,和他們在領(lǐng)域內(nèi)獲得數(shù)據(jù)科學(xué)家必須深刻理解才能成功的經(jīng)驗(yàn)的智慧。
在這一篇文章,我想去分享這些數(shù)據(jù)科學(xué)家如下問題的最佳答案:
你對開始學(xué)習(xí)數(shù)據(jù)科學(xué)的人有什么建議?
1 —Chirs Wiggins,紐約時報(bào)首席數(shù)據(jù)科學(xué)家,哥倫比亞應(yīng)用數(shù)學(xué)專業(yè)副教授
“創(chuàng)造力和有心。你必須真正喜歡一些事你才原意長時間的思考它。當(dāng)然,某種程度地質(zhì)疑。因此這就是我喜歡博士生的一個原因-五年時間足夠培養(yǎng)探索能力,然后你能意識到你用某些方法做某件事情的是有問題的。反復(fù)經(jīng)歷’冰火兩重天‘的感覺,犯一系列的錯誤并且修復(fù)它們是很棒的事情。我想博士生經(jīng)歷的這個過程對于培養(yǎng)對看似正確的事情仍然抱有懷疑是非常有幫助的,特別是研究領(lǐng)域。我認(rèn)為這是有幫助的,你可能快速地且輕易地走上錯誤的路徑,僅僅是因?yàn)榈谝粋€這條路上的相遇者看起來是言之鑿鑿的。
盡管這是一個令人生厭的答案,事實(shí)是你必須具備技術(shù)深度。數(shù)據(jù)科學(xué)不僅僅包括一個領(lǐng)域,因此目前還沒有認(rèn)證。機(jī)器學(xué)習(xí)方面,獲得維基百科水平理解很容易。為了真正做到這一點(diǎn),你需要了解針對現(xiàn)在的工作,什么才是合適的工具,而且你需要深刻理解每種工具的局限性。獲得上述的經(jīng)驗(yàn)是沒用捷徑的。你肯定會犯很多錯誤。你可能會強(qiáng)行把分類問題塞進(jìn)聚類問題,或者是把聚類問題轉(zhuǎn)換假設(shè)檢驗(yàn)問題。
一旦自己嘗試一些方法,對自己的方法無比自信,但最后你意識到自己完全不對,經(jīng)歷過很多次上述的過程-你發(fā)現(xiàn)這需要經(jīng)驗(yàn)的積累,但不幸的是并沒有捷徑。你僅需要不斷地實(shí)踐,不斷犯錯,這是我喜歡在這個領(lǐng)域有若干年工作經(jīng)驗(yàn)人的另一個原因。某些領(lǐng)域里要成為一名專家需要很長時間。犯錯誤會持續(xù)很多年的時間。幾個世紀(jì)以來都是這樣。著名物理學(xué)家Niels Bohr(尼爾斯.玻爾)有句名言是這樣說的,他斷定成為領(lǐng)域內(nèi)專家的方式就是犯過這個領(lǐng)域的每一個可能的錯誤。”
2 —Caitlin Smallwood,Netfilx的科學(xué)和算法部門的副總裁
“我想說做任何事情之前,硬著頭皮了解數(shù)據(jù)的基礎(chǔ)素質(zhì),盡管這不迷人也不有趣。換句話說,要努力理解是怎樣捕捉數(shù)據(jù),準(zhǔn)確搞懂?dāng)?shù)據(jù)是怎樣定義,并且搞懂什么時候會造成數(shù)據(jù)缺失。如果數(shù)據(jù)缺失,這是不是意謂有些東西發(fā)生變化?數(shù)據(jù)僅僅是在這種特定情況下缺失嗎?這些細(xì)小的,微妙數(shù)據(jù)陷阱真的會影響你。他們真的會。
你可以用現(xiàn)存的最復(fù)雜算法,但它是古老的,垃圾的東西。你不能對原始數(shù)據(jù)視而不見,不管你進(jìn)入到建模的步驟有多興奮。你需要對細(xì)節(jié)一絲不茍,在模型研發(fā)之前,你要檢查基礎(chǔ)數(shù)據(jù)的每一個細(xì)節(jié)。
隨著時間的推移,我所學(xué)到的另一件事情在一個系統(tǒng)環(huán)境中,混合算法總是比單一算法的表現(xiàn)要好,因?yàn)椴煌夹g(shù)探索科研數(shù)據(jù)模式不同方面,尤其針對是復(fù)雜的大數(shù)據(jù)集。因盡管你可以單一的特殊的算法,通過迭代達(dá)到更好的效果,我?guī)缀蹩偸亲⒁獾剑夯旌纤惴ńM合往往比單一算法的表現(xiàn)更好。”
3 —Yann LeCun,F(xiàn)acebook人工智能研究總監(jiān),紐約大學(xué)數(shù)據(jù)科學(xué)/計(jì)算機(jī)科學(xué)/神經(jīng)科學(xué)教授
“我經(jīng)常被問到這個問題,往往我給相同的建議。我的建議是:如果你是本科生,學(xué)習(xí)一門盡可能多修數(shù)學(xué)和物理課程的專業(yè)。不幸的是,并且必須是有用的課程。我接下來要說的聽起來是自相矛盾的,但是攻讀工程學(xué)或物理學(xué)專業(yè)可能比數(shù)學(xué)、計(jì)算機(jī)科學(xué)或者是經(jīng)濟(jì)學(xué)專業(yè)更合適。當(dāng)然,你需要學(xué)習(xí)編程,因此你需要學(xué)習(xí)大量的計(jì)算機(jī)科學(xué)課程去學(xué)習(xí)編程機(jī)制。隨后,完成數(shù)據(jù)科學(xué)的畢業(yè)項(xiàng)目。學(xué)習(xí)本科階段的機(jī)器學(xué)習(xí),人工智能或者是計(jì)算機(jī)視覺課相關(guān)技術(shù),因?yàn)槟阈枰醪教剿鬟@些技術(shù)。接下來,盡可能學(xué)習(xí)接觸到的數(shù)學(xué)和物理課程。尤其是會持續(xù)應(yīng)用的數(shù)學(xué)課程:優(yōu)化,因?yàn)槟闶菫閷碛龅降奶魬?zhàn)做著準(zhǔn)備。
數(shù)據(jù)科學(xué)或AI領(lǐng)域有大量不同類型的工作,做什么樣的準(zhǔn)備取決于你想到達(dá)什么樣的高度。人們應(yīng)該思考什么是他們真正想做的,然后再學(xué)習(xí)相關(guān)課程。目前熱門話題是深度學(xué)習(xí),意謂著要用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和了解的經(jīng)典問題,學(xué)習(xí)優(yōu)化,線性代數(shù)和相似的課程。這會幫你學(xué)習(xí)每天都會遇到的基礎(chǔ)的數(shù)據(jù)知識和基礎(chǔ)概念。”
4 —Erin,Shellman,Zymergen的數(shù)據(jù)科學(xué)主管,Nordstrom數(shù)據(jù)實(shí)驗(yàn)室和 AWS S3的前數(shù)據(jù)科學(xué)家
“對于一直堅(jiān)持要去學(xué)習(xí)的人,我必須說科學(xué)(Science)、技術(shù)(Technology)、工程(Engineering)及數(shù)學(xué)(Mathematics)領(lǐng)域是不假思索就能想到的主意,特別是技術(shù)(Technology)、工程(Engineering)及數(shù)學(xué)(Mathematics)學(xué)科。學(xué)習(xí)上述課程將會給你提供檢驗(yàn)和了解世界的工具。那就是我怎樣看待數(shù)學(xué),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。對于數(shù)學(xué)本身,我不是特別感興趣,我感興趣的是如何應(yīng)用數(shù)學(xué)來描繪事物。畢竟有現(xiàn)成的工具包,如果你對數(shù)學(xué)和統(tǒng)計(jì)不是很熱衷,學(xué)習(xí)這兩個學(xué)科并且思考如何在你熱衷的事情應(yīng)用它們也是非常值得的。
對于像我一樣立志轉(zhuǎn)型的人,我會說它會很難。意識到改變行業(yè)是很困難的和你需要非常努力。改變是很難的并不僅限于數(shù)據(jù)科學(xué)領(lǐng)域---這就是生活。和數(shù)據(jù)科學(xué)領(lǐng)域沒有任何聯(lián)系是更加艱難的,但是你可以通過與樂于助人的人士見面或喝咖啡建立連接。我生活中首要準(zhǔn)則就是‘跟隨’。如果你和具備你關(guān)注的素質(zhì)的人談話,那就是在不斷進(jìn)步。
數(shù)據(jù)科學(xué)家的帖子是很嚇人的,大多數(shù)的帖子讀起來像是數(shù)據(jù)科學(xué)的詞匯表。事實(shí)是技術(shù)改變非??欤灾劣跊]有人具備一切并且把他們寫到帖子中的經(jīng)驗(yàn)。當(dāng)你閱讀的時候,它讓人喘不過氣來,并且你也許能感覺到:這不是我要找的。我沒有任何技能并且我沒有什么可貢獻(xiàn)的。我將鼓勵你們反對這種思維方式,只要你一直改變并且學(xué)習(xí)新的東西,你就是很不錯的。
最重要的是,公司需要的是可以嚴(yán)格定義問題和設(shè)計(jì)解決方案的人。他們也需要善于學(xué)習(xí)的人。我認(rèn)為這是核心技能。”
5 — Daniel Tunkelang,Twiggle首席搜索傳播者,領(lǐng)英的前搜索質(zhì)量負(fù)責(zé)人
“針對來自數(shù)學(xué)和物理背景的同學(xué),我則建議他們在學(xué)習(xí)軟件技能方面投入-特別是Hadoop 和R,它們是目前最廣泛使用的工具。軟件工程背景的同學(xué)應(yīng)該參與機(jī)器學(xué)習(xí)的相關(guān)課程,參與真實(shí)數(shù)據(jù)的工程項(xiàng)目,這些都有大量的免費(fèi)資源。正如很多前人所說,成為數(shù)據(jù)科學(xué)家的最好方式就是從事數(shù)據(jù)科學(xué)的相關(guān)工作。數(shù)據(jù)就在那里,且科學(xué)是不難以學(xué)習(xí)的,特別是數(shù)學(xué),科學(xué)或工程背景的同學(xué)。
閱讀“The Unreasonable Effectiveness of Data”,一篇來自來自谷歌研究人員 : Alon Halevy, Peter Norvig和 Fernando Pereir 的經(jīng)典論文。論文總結(jié)到:大數(shù)據(jù)比算法更有效。全文是值得閱讀的,文章提供最近使用網(wǎng)絡(luò)整合規(guī)模的數(shù)據(jù)從而提高語音識別和機(jī)器翻譯的成功的調(diào)查。然后是優(yōu)秀的測度方法,聽聽Monica Rogati 提到較高質(zhì)量的數(shù)據(jù)大數(shù)據(jù)有效。理解和內(nèi)在化這兩個觀點(diǎn),你就會在成為數(shù)據(jù)科學(xué)家的路上更加順暢。”
6 — John Foreman,產(chǎn)品管理副總裁,MailChimp前首席數(shù)據(jù)科學(xué)家
“我發(fā)現(xiàn)找到和雇傭到合適的伙伴是困難的。這是一件特別難做的事情,因?yàn)楫?dāng)我們談?wù)摯髮W(xué)系統(tǒng)時,不論是在校大學(xué)生還是畢業(yè)的大學(xué)生,你僅專注在一件事情-你的專業(yè)。但是數(shù)據(jù)科學(xué)家有點(diǎn)像文藝復(fù)興從事人員,因?yàn)閿?shù)據(jù)科學(xué)是內(nèi)在的,多學(xué)科交叉的。
這就導(dǎo)致:數(shù)據(jù)科學(xué)家比計(jì)算機(jī)編程人員懂得更多的統(tǒng)計(jì),且比統(tǒng)計(jì)學(xué)家善于編程的角色這樣的大笑話。這個笑話說明什么?它說明數(shù)據(jù)科學(xué)家是兩種知識都知道一點(diǎn)的人。但我要強(qiáng)調(diào)的是,他要比這兩個事情知道的更多。他們同樣知道怎樣進(jìn)行溝通。他們同樣需要知道不僅僅是基礎(chǔ)統(tǒng)計(jì)知識,他們需要了解概率論,離散數(shù)學(xué),微積分等??梢暬侄我膊粫鸱醋饔谩K麄兺瑯有枰私庠鯓訑[弄數(shù)據(jù),使用數(shù)據(jù)庫,甚至是一點(diǎn)OR。他們需要很多方面的知識。所以找到這樣的人變得很難,因?yàn)樗麄冃枰佑|過很多學(xué)科,且他們能夠機(jī)智地表達(dá)他們的經(jīng)驗(yàn)。這對任何申請人都是很高的要求。
雇人需要花費(fèi)很長時間,這也是為什么我認(rèn)為人們?yōu)槭裁磿恢闭f現(xiàn)在聰明絕頂?shù)奶觳艛?shù)據(jù)科學(xué)家還未出世。我認(rèn)為某種程度上來說這是真的。我認(rèn)為一些現(xiàn)存的程序會開始發(fā)揮作用。但是盡管如此,這些程序的出現(xiàn),但對Wimbledon來說:在數(shù)據(jù)科學(xué)領(lǐng)域如何應(yīng)用多學(xué)科的經(jīng)驗(yàn)表達(dá)和溝通是特別的一棵。我希望立志成為一位數(shù)據(jù)科學(xué)家的路上,程序員更注意工作中溝通和合作的能力。”
7 — Roger Ehrenberg, IA風(fēng)投合伙人
“我認(rèn)為充斥最多機(jī)會的領(lǐng)域同樣伴隨最多的挑戰(zhàn)。在PII 和隱私方面,健康醫(yī)療數(shù)據(jù)顯而易見存在最大的問題。不僅如此,還有僵硬的官僚體制,固化的基礎(chǔ)設(shè)施和數(shù)據(jù)倉庫,讓需要很多數(shù)據(jù)集來解決苦難多問題變得困難。它將會發(fā)生的,我認(rèn)為大量的,我們在這里談到的科學(xué)技術(shù)將會直接作用于提高我們的健康管理,價(jià)格更加親民,分配更加合理。我將之視為一代人的機(jī)會。
早些時候另一個巨大的領(lǐng)域是風(fēng)險(xiǎn)管理-不論是金融,交易或保險(xiǎn)。當(dāng)你談到把這些新數(shù)據(jù)納入到風(fēng)險(xiǎn)評估的時候,如果把新數(shù)據(jù)集納入到風(fēng)險(xiǎn)評估時,這是一個很大的問題-特別是當(dāng)把新技術(shù)應(yīng)用于像保險(xiǎn),健康管理等存在隱私問題和官僚體制的數(shù)據(jù)受限的領(lǐng)域。同時,這些古老的僵化的公司剛剛開始開放,和剛剛開辦如何在社區(qū)進(jìn)行交互,來應(yīng)用新技術(shù)。這是另一個讓我難以置信的興奮領(lǐng)域。
第三個讓我熱衷的領(lǐng)域是重塑手工業(yè)使之變得更加高效。一直存才讓手工制造業(yè)回返回陸的趨勢。一個強(qiáng)大的手工業(yè)部門是通向重新創(chuàng)造美國活躍的中產(chǎn)階級的一道橋。我認(rèn)為科技可以幫助加速這個惠益的趨勢。”
8 — Claudia Perlach,Dstillery首席科學(xué)家
“我認(rèn)為本質(zhì)上,學(xué)習(xí)數(shù)據(jù)科學(xué)好比學(xué)習(xí)滑雪。你必須實(shí)踐。你可以僅僅聽很多視頻,觀察其發(fā)生。在白天結(jié)束時,你必須拿上你糟糕的滑板沖下山頭。你會在路上橫沖直撞很多次,這沒關(guān)系。這是學(xué)習(xí)的必經(jīng)之路。實(shí)際上,我更偏好詢問面試者他們不順利的經(jīng)歷,而不是他們成功的工作經(jīng)驗(yàn),因?yàn)檫@告訴我他們在過程中學(xué)習(xí)到什么。
不論什么時候人們過來問我:“我應(yīng)該做些什么?” 我回答,“嗯,當(dāng)然,可以參加機(jī)器學(xué)習(xí)技術(shù)的線上課程。” 毫無疑問那是有幫助的。顯而易見你需要會編程,至少是一點(diǎn)點(diǎn)。你不必成為一位Java編程人員,但不論怎樣需要學(xué)些編程,我不在意以什么方式學(xué)習(xí)。
本質(zhì)上,無論是在 DataKind 的NGOS項(xiàng)目貢獻(xiàn)你的時間來幫助他們,或者是去Kaggle 網(wǎng)站,參加他們的數(shù)據(jù)挖掘比賽-在實(shí)際中獲得經(jīng)驗(yàn)。特別是Kaggle,閱讀討論區(qū)來看看其他參賽者關(guān)于問題的討論,因?yàn)槟憧梢詫W(xué)習(xí)到其他人的方法,什么方法對他們是有效的,什么是無效的。所以任何你在數(shù)據(jù)相關(guān)工作獲得的經(jīng)驗(yàn),即使你沒有從中獲得報(bào)酬,都是超棒的事情。
記住,你必須從山上滑下來。沒有其他辦法。你不能學(xué)習(xí)除此之外的其它方法。所以貢獻(xiàn)你的時間,在你思考的路上摸爬滾打,如果你能得到實(shí)習(xí)的機(jī)會就更完美啦。除此之外,有很多你可以開始的機(jī)會。所以開始吧!”
9 — Jonathan Lenaghan, PlaceIQ首席科學(xué)家和產(chǎn)品研發(fā)部門高級副總裁
”首先且最重要的是:自我批評是非常重要。質(zhì)疑你的假設(shè),偏執(zhí)地對待你的輸出。這是容易的部分。談到在數(shù)據(jù)科學(xué)領(lǐng)域成功的必備技能,優(yōu)秀的的軟件工程能力是必備的。所以盡管我們會雇傭幾乎沒有編程背景的人,我們做很多工作讓他們迅速掌握工程中重要的實(shí)際能力,工程實(shí)踐和很多靈活的編程訓(xùn)練。這對他們和我們都是有幫助的,現(xiàn)在這也在大多數(shù)一對一的數(shù)據(jù)科學(xué)場景中應(yīng)用。
若你看看現(xiàn)今的開發(fā)運(yùn)維,它們已有了像持續(xù)集成、持續(xù)構(gòu)建、自動化測試和測試框架的玩意——所有的這些都能很好、很輕易地將開發(fā)運(yùn)維映射到數(shù)據(jù)運(yùn)維(一個我從RedMonk那偷來的詞)。我認(rèn)為這是一個非常強(qiáng)大的概念:持有測試所有數(shù)據(jù)的框架相當(dāng)重要,這樣如果你改動了代碼,你可以返回并測試所有數(shù)據(jù)。擁有工程思維對在數(shù)據(jù)科學(xué)世界里高速進(jìn)展至關(guān)重要。閱讀Code Complete和The Pragmatic Programmer會讓你比閱讀機(jī)器學(xué)習(xí)書籍走得更遠(yuǎn)——盡管你也必須,當(dāng)然,閱讀機(jī)器學(xué)習(xí)書籍。”
10 — Anna Smith,Spotify高級數(shù)據(jù)工程師,Rent the Runway前分析工程師
“如果某人在數(shù)據(jù)科學(xué)領(lǐng)域只是剛剛起步,最重要的事情莫過于理解向人們提問是無傷大雅的,我同時認(rèn)為謙遜也相當(dāng)重要。你還要確保你沒有被你正在做的事情束縛。你要總能做出改變并從頭再來。我認(rèn)為在剛開始時,報(bào)廢代碼會相當(dāng)困難,但最重要的事就是去做些什么。
即使你在數(shù)據(jù)科學(xué)領(lǐng)域并無工作,你依然可以用電腦停機(jī)時間探索數(shù)據(jù)集并提出一些關(guān)于這些數(shù)據(jù)的問題。在我的私人時間里,我會玩玩Reddit的數(shù)據(jù)。我會問我自己:“我可以用我有或沒有的工具探索Reddit的什么出什么結(jié)論呢?”這很棒,因?yàn)槟阋坏╅_始,你就能看到其他人如何處理相同的問題。只需用你的直覺開始閱讀別人的文章,就像“我可以在我的方法里用到這種技術(shù)。”緩緩起步,緩緩進(jìn)步。我曾嘗試在起步時閱讀很多文章,但我認(rèn)為直到你已對代碼和數(shù)據(jù)確實(shí)了解它如何工作、如何運(yùn)轉(zhuǎn),閱讀文章才是有幫助的。當(dāng)人們把它擱在書里的時候,一切都很美好漂亮。但在現(xiàn)實(shí)生活中卻并非如此。
另外,我認(rèn)為嘗試多種不同的事物也很重要。我以前也沒有想過我會在這個位置。我也沒法知道我五年后會在哪兒。但這或許正是我學(xué)習(xí)的方式:跨越不同的領(lǐng)域,嘗試一切來理解什么最適合我。”
11 — Andre Karpistsenko,Taxify數(shù)據(jù)科學(xué)主管, PlanetOS聯(lián)合創(chuàng)始人兼研究主管
“雖然這聽起來有些泛泛,但我相信你應(yīng)該相信自己并遵循你的熱誠。我認(rèn)為因媒體新聞和其中表露的期望而分心,選擇了一個你并不想去的方向確實(shí)很容易。所以說到數(shù)據(jù)科學(xué),你應(yīng)該將它看作你事業(yè)的起點(diǎn)。擁有這個背景將對任何事情有益。擁有編寫軟件和與統(tǒng)計(jì)知識能力將會讓你在你選擇的任何領(lǐng)域中做出更明智的決定。例如,我們可以得知一位運(yùn)動員的表現(xiàn)是如何通過數(shù)據(jù)提高的,比如有人因?yàn)閮?yōu)化和練習(xí)他們應(yīng)該跳躍的角度成為跳遠(yuǎn)的金牌得主。這都應(yīng)歸功于體育中的數(shù)據(jù)驅(qū)動方法。
如果要我提出更具體的技術(shù)建議,那么這取決于接受建議的人的抱負(fù)。如果他想要創(chuàng)造新方法和工具,那么建議會非常不同。你需要堅(jiān)持并在你的方向上繼續(xù)進(jìn)步,你終會成功。但若你的興趣在很多情形下是多樣且靈活的,那么你會需要一個含有不同方法的大工具箱。
我認(rèn)為我得到的最好的建議是由一位斯坦福教授給出的,我不久前參加了他的課程。他建議我要有T形的競爭力但在核心競爭力旁要有個少許的第二競爭力,這樣當(dāng)你需要或想要時,你就有了生活的一條替代路線。另外,除了要有某一領(lǐng)域的垂直脈絡(luò)之外,他建議我要有足夠?qū)拸V的背景知識,這樣你就能和很多不同的背景人在很多不同的情形下一起工作。因此,當(dāng)你還在上大學(xué)時,建構(gòu)T形競爭力附帶有另一個背景的小競爭力可能是你最該做的事。
或許最重要的事是圍在比你出色的人身邊并向他們學(xué)習(xí)。這是最好的建議。如果你在上大學(xué),那正是看看人的能力是如此多樣的最好環(huán)境。如果你設(shè)法與最棒的人一起工作,那么你在任何事情上都會成功。”
12 — Amy Heineike,PrimerAI技術(shù)副總裁,Quid數(shù)學(xué)系前主任
“我認(rèn)為也許他們需要從觀察自己,搞清楚他們真正關(guān)心什么開始。他們想要做什么?如今,數(shù)據(jù)科學(xué)是一個有點(diǎn)熱門的話題,因而我認(rèn)為有很多人想著只要他們擁有“數(shù)據(jù)科學(xué)”的頭銜,那么魔力、幸福和金錢就會流向他們。所以我真的建議搞清楚你真正關(guān)心的是數(shù)據(jù)科學(xué)的那塊。這是你該問你自己的第一個問題。隨后你應(yīng)該搞明白如何精通這塊。你還要開始考慮那些能夠發(fā)揮你這方面興趣的工作。
一個策略是深入到你需要知道的部分。我們的團(tuán)隊(duì)中有一些人是自然語言博士,還有一些人是物理學(xué)博士,他們會使用很多不同的分析方法。所以你可以深入一個領(lǐng)域然后找到那些你能使用相同思路解決的重要或相似的問題。這是一個方法。另一種方法是隨便試些什么?,F(xiàn)在有很多數(shù)據(jù)集。如若你現(xiàn)在工作并且嘗試換工作,試著想一下在你當(dāng)前的任務(wù)下這兒是否有些能用的數(shù)據(jù),從而能巧妙的解決問題?;蛘咴诩依锬阋材塬@得開放的數(shù)據(jù)集。隨便逛逛看看能發(fā)現(xiàn)些什么然后開始嘗試玩玩。我認(rèn)為這是個不錯的開始。現(xiàn)在“數(shù)據(jù)科學(xué)”的旗號下有很多不同的角色,還有不少任務(wù)或許會讓你想到數(shù)據(jù)科學(xué)但它們還沒有頭銜,因?yàn)槿藗儾⒉槐匾褂盟鼈?。好好考慮你到底想要什么。”
13 — Victor Hu,QBE Insurance數(shù)據(jù)科學(xué)主管,Next Big Sound前首席數(shù)據(jù)科學(xué)家
“首要的肯定是要能講好故事。在一天結(jié)束的時候,你要做的肯定是深入到一個系統(tǒng)、一個組織或一個產(chǎn)業(yè)如何工作的底層。但為了使它有用且能被人們所理解,你必須要講個故事。
能夠把你正在做的寫下來,能夠開口談?wù)撃愕墓ぷ魇窍喈?dāng)關(guān)鍵的。另外值得一提的是,少點(diǎn)擔(dān)心你正在使用的算法。更多或更好的數(shù)據(jù)總能抵過一個更好的算法,所以若你能建立一種可得且可分析的大量優(yōu)質(zhì),干凈,有意義的數(shù)據(jù)的方法—那可真是再好不過了。”
14 — Kira Radinsky,eBay首席科學(xué)家兼數(shù)據(jù)科學(xué)主管,SalesPredict前技術(shù)總監(jiān)兼聯(lián)合創(chuàng)始人
“找到一個能對你感到興奮的問題。對我來說,每次我要開始嘗試些新東西,沒有帶著要解決的問題地學(xué)習(xí)真的很無聊。開始閱讀材料,并盡快著手用它來解決你的問題。你會開始看清問題,這會將你引向其它學(xué)習(xí)材料,不論它們是書、論文,還是人。所以花點(diǎn)時間與問題和人呆在一塊兒,你會感覺不錯的。
要深入理解基礎(chǔ)知識;要了解一些基本的數(shù)據(jù)結(jié)構(gòu)和計(jì)算機(jī)科學(xué);要了解你使用的工具的原理和它背后的數(shù)學(xué)知識,而不是僅僅會使用它們;要了解輸入和輸出在其中的實(shí)際情況,因?yàn)椴贿@么干,你就不會知道什么時候去應(yīng)用它。另外,這取決于你正在處理的問題。不同問題的要使用不同工具。你應(yīng)要很好地知道每種工具適合做什么,從而知道(面對這個問題)你應(yīng)使用怎樣的工具和技術(shù)。”
15 — Eric Jonas,UC Berkeley電氣工程和計(jì)算機(jī)科學(xué)博士后,Salesforce前首席預(yù)測科學(xué)家
“他們應(yīng)該對概率論倒背如流。我現(xiàn)在正處于需要學(xué)習(xí)其它一切的階段,隨后我回頭再看概率論,這很好,因?yàn)樗峁┑倪@種精妙、深刻、豐富的基礎(chǔ),可以投射出其它的一切。這兒有一本由E.T. Jaynes所著的書,叫Probability Theory: The Logic of Science,是我們的圣經(jīng)。我們確實(shí)在某種意義上獲得了它。我喜歡概率生成方法的原因是你能有兩個正交軸——建模軸和推理軸,這基本上轉(zhuǎn)化為如何表述我的問題以及如何計(jì)算由根據(jù)已知數(shù)據(jù)假設(shè)的概率?從貝葉斯的角度看的好處是,你可以獨(dú)立地沿著這些軸進(jìn)行工程設(shè)計(jì)。當(dāng)然,它們不是完全獨(dú)立的,但它們近似獨(dú)立足以保證你這么處理沒有問題。
當(dāng)我觀察如今被視為機(jī)器學(xué)習(xí)的重要組成:深度學(xué)習(xí)或者基于LASSO算法的線性回歸系統(tǒng)時,它們都沿著或這條或那條軸進(jìn)行工程設(shè)計(jì)。它們都有點(diǎn)搖搖欲墜。作為一個工程師,使用這些基于LASSO算法的技術(shù)時,思考像“我稍稍改變這個參數(shù),到底意味著什么?”的問題會很困難。作為一個模型,線性回歸有著相當(dāng)清晰的線性加權(quán)高斯模型架構(gòu)。好吧,若我想讓事情變得有些不同呢?瞬間正則化最小二乘之類的方法就全然崩潰。推理技術(shù)甚至不接受你想要做的事情。”
16 — Jake Porwar,DataKind創(chuàng)始人兼執(zhí)行董事
“我認(rèn)為一個強(qiáng)健的統(tǒng)計(jì)學(xué)背景是個先決條件,因?yàn)槟阈枰滥阏诟尚┦裁?,并理解你?gòu)建的模型的能力。另外,我的統(tǒng)計(jì)項(xiàng)目還教會了不少倫理道德,即我們在DataKind考慮頗多的東西。你要經(jīng)常思索你的工作將會如何被應(yīng)用。你可以把算法應(yīng)用于任何人,你可以使用會被警察攔截盤查的數(shù)據(jù)訓(xùn)練出的模型應(yīng)用于某人,但為何如此?這挺像構(gòu)建任何新技術(shù),你需要考慮風(fēng)險(xiǎn)和收益并仔細(xì)權(quán)衡,因?yàn)槟阋獮槟愕膭?chuàng)造負(fù)責(zé)。
不論你來自哪里,只要你理解用來下結(jié)論的工具,這是你能做的最棒的事。我們現(xiàn)在都是科學(xué)家,我不僅僅談?wù)摦a(chǎn)品設(shè)計(jì)。我們都在對我們生活的這個世界下結(jié)論。這就是統(tǒng)計(jì)學(xué)—收集數(shù)據(jù)來證明一個假設(shè)或?qū)κ澜邕\(yùn)行的方式建模。如果你只是盲目地相信模型輸出的結(jié)果,那會是危險(xiǎn)的,因?yàn)檫@是你對世界的解釋,因而會像它一樣,你的認(rèn)識會是結(jié)果有缺陷的。
簡而言之,學(xué)統(tǒng)計(jì)學(xué),謹(jǐn)慎行事。”
工作中的數(shù)據(jù)科學(xué)家展示了世界頂尖的數(shù)據(jù)科學(xué)家如何在紛繁繚亂的行業(yè)和應(yīng)用中游刃有余地工作—每個人都應(yīng)用自己的領(lǐng)域?qū)I(yè)知識、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)創(chuàng)造巨大的價(jià)值和影響力。
數(shù)據(jù)正以指數(shù)級暴增,那些能夠理解數(shù)據(jù)并從中抽取價(jià)值的人會比此前任何時候都更需要。若您渴望成為下一代數(shù)據(jù)科學(xué)家,那么這些來自深思熟慮的從業(yè)者們的關(guān)于數(shù)據(jù)和模型的真知灼見和樂趣所在將會相當(dāng)有用。
博客原址:https://medium.com/@james_aka_yale/16-useful-advices-for-aspiring-data-scientists-804ce5611939