偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

在數(shù)據(jù)科學(xué)領(lǐng)域第一年學(xué)到的經(jīng)驗(yàn)和教訓(xùn)

大數(shù)據(jù)
盡管我有改進(jìn)的余地(我仍然犯了很多編碼和數(shù)據(jù)科學(xué)錯(cuò)誤),但是我設(shè)法學(xué)到了一些關(guān)于數(shù)據(jù)科學(xué)的知識(shí),我們將在本文中介紹這些知識(shí)。 希望通過(guò)下面的內(nèi)容,您可以避免我在日常數(shù)據(jù)科學(xué)前沿學(xué)習(xí)到的許多錯(cuò)誤。

在Cortex Building Intelligence中從學(xué)習(xí)到將機(jī)器學(xué)習(xí)投入生產(chǎn)的五個(gè)要點(diǎn)

在過(guò)去的一年中,我從編寫Jupyter Notebook的簡(jiǎn)單世界,轉(zhuǎn)到了開發(fā)機(jī)器學(xué)習(xí)管道,該管道向全天候的建筑工程師提供實(shí)時(shí)建議。 盡管我有改進(jìn)的余地(我仍然犯了很多編碼和數(shù)據(jù)科學(xué)錯(cuò)誤),但是我設(shè)法學(xué)到了一些關(guān)于數(shù)據(jù)科學(xué)的知識(shí),我們將在本文中介紹這些知識(shí)。 希望通過(guò)下面的內(nèi)容,您可以避免我在日常數(shù)據(jù)科學(xué)前沿學(xué)習(xí)到的許多錯(cuò)誤。

  • 數(shù)據(jù)科學(xué)主要是計(jì)算機(jī)科學(xué)
  • 數(shù)據(jù)科學(xué)仍然是高度主觀的
  • 人際關(guān)系和溝通技巧至關(guān)重要
  • 使用標(biāo)準(zhǔn)工具,并且采用新技術(shù)的速度較慢
  • 通過(guò)外部簡(jiǎn)單性隱藏?cái)?shù)據(jù)科學(xué)的內(nèi)部復(fù)雜性

作者的注釋:這是從單一角度寫的,并不代表數(shù)據(jù)科學(xué)的整個(gè)領(lǐng)域。 請(qǐng)記住,這是來(lái)自從事建筑能源行業(yè)的端到端(已部署的機(jī)器學(xué)習(xí)系統(tǒng)的概念)數(shù)據(jù)科學(xué)家的工作,可為高效運(yùn)營(yíng)建筑物提供實(shí)時(shí)建議。 如果您有不同的經(jīng)歷或想與我討論,請(qǐng)?jiān)?quot;評(píng)論"部分等待您的回復(fù)。

數(shù)據(jù)科學(xué)主要是計(jì)算機(jī)科學(xué)

當(dāng)被問(wèn)到工作中最困難的部分時(shí),考慮到我們所有的機(jī)器學(xué)習(xí)都像這樣,我堅(jiān)決回答這不是機(jī)器學(xué)習(xí):

  1. from sklearn import Model 
  2. Model.fit(features, target) 
  3. predictions = model.predict(testing_features) 

取而代之的是,數(shù)據(jù)科學(xué)中最困難的部分是開發(fā)建模前后所發(fā)生的一切。 在具備以下條件之前:從數(shù)據(jù)庫(kù)加載數(shù)據(jù),特征工程,數(shù)據(jù)驗(yàn)證和數(shù)據(jù)處理管道(假設(shè)我們的工作在數(shù)據(jù)被攝取后開始)。 在我們需要驗(yàn)證結(jié)果之后,將任務(wù)設(shè)置為按計(jì)劃自動(dòng)運(yùn)行,將結(jié)果寫回到我們的數(shù)據(jù)庫(kù)中,并發(fā)送webhooks來(lái)觸發(fā)其他服務(wù)。

這些外圍動(dòng)作構(gòu)成了機(jī)器學(xué)習(xí)的大部分工作,都需要扎實(shí)的計(jì)算機(jī)科學(xué)實(shí)踐。 這些與開發(fā)代碼有關(guān)的實(shí)踐中,有一些編寫短函數(shù),每個(gè)短函數(shù)都做得很好,開發(fā)實(shí)現(xiàn)相關(guān)功能的類,正確的命名約定,對(duì)代碼和數(shù)據(jù)編寫單元測(cè)試,編寫易于閱讀,而不重復(fù)的代碼。 另外,還有其他計(jì)算機(jī)科學(xué)實(shí)踐可應(yīng)用于代碼本身,例如版本控制,代碼審查,持續(xù)集成,代碼覆蓋和部署,這些實(shí)踐現(xiàn)在催生了一個(gè)完全獨(dú)立的機(jī)器學(xué)習(xí)操作(MLOps)領(lǐng)域。

盡管我設(shè)法完成了機(jī)械工程->數(shù)據(jù)科學(xué)家的過(guò)渡,但回想起來(lái),進(jìn)行工程->計(jì)算機(jī)科學(xué)->數(shù)據(jù)科學(xué)本來(lái)會(huì)更具有生產(chǎn)力。 第二種方法本來(lái)意味著我不必學(xué)習(xí)在數(shù)據(jù)科學(xué)課程中學(xué)習(xí)到的不良編碼實(shí)踐。 換句話說(shuō),我認(rèn)為在扎實(shí)的計(jì)算機(jī)科學(xué)背景之上添加數(shù)據(jù)科學(xué),要比先學(xué)習(xí)數(shù)據(jù)科學(xué)然后學(xué)習(xí)計(jì)算機(jī)科學(xué)要容易得多(但兩種方法都是可行的)。

計(jì)算機(jī)科學(xué)涉及一種完全不同的系統(tǒng)思維方式,即在編碼之前進(jìn)行有計(jì)劃的規(guī)劃,緩慢地編寫代碼以及在編寫代碼后進(jìn)行測(cè)試。 干凈的代碼與數(shù)十個(gè)半寫筆記本(我們所有人都擁有名為Untitled12.ipynb的筆記本)的數(shù)據(jù)科學(xué)通常隨心所欲的本質(zhì)形成鮮明對(duì)比,并且強(qiáng)調(diào)獲得即時(shí)結(jié)果,而不是編寫相當(dāng)無(wú)錯(cuò)誤的代碼, 可以重復(fù)使用。

所有數(shù)據(jù)科學(xué)家都可以從計(jì)算機(jī)科學(xué)最佳編碼實(shí)踐課程中受益。 結(jié)構(gòu)化腳本和程序包,編寫簡(jiǎn)潔的代碼,測(cè)試和記錄代碼的能力,使從探索性數(shù)據(jù)科學(xué)到機(jī)器學(xué)習(xí)的過(guò)渡更加易于管理。 此外,他們灌輸了一種思維模式,從而導(dǎo)致易于理解的可重用代碼。 即使是通常會(huì)編寫數(shù)據(jù)科學(xué)腳本以分析論文數(shù)據(jù)的學(xué)術(shù)數(shù)據(jù)科學(xué)家也將受益于更好的實(shí)踐。 如果科學(xué)家編寫更簡(jiǎn)潔的代碼并包含用于驗(yàn)證輸入,輸出和功能行為的單元測(cè)試,則科學(xué)中的可再現(xiàn)性問(wèn)題可能會(huì)得到改善。

數(shù)據(jù)科學(xué)中有很多主題需要學(xué)習(xí),有時(shí)可能會(huì)感到不知所措。 但是,計(jì)算機(jī)科學(xué)不應(yīng)被視為附加組件。 相反,對(duì)于希望看到其代碼可操作的數(shù)據(jù)科學(xué)家來(lái)說(shuō),它應(yīng)該被視為基礎(chǔ)。 幸運(yùn)的是,有很多資源,任何人都可以用來(lái)學(xué)習(xí)和應(yīng)用這些實(shí)踐。

由于數(shù)據(jù)科學(xué)取決于人類的判斷力,所以我們需要意識(shí)到

數(shù)據(jù)科學(xué)仍然是高度主觀的

數(shù)據(jù)科學(xué)承諾使用數(shù)據(jù)而不是人類的判斷來(lái)做出最佳決策。 這是一個(gè)崇高的原因,但與當(dāng)前現(xiàn)實(shí)相去甚遠(yuǎn),因?yàn)槲覀冇脕?lái)分析數(shù)據(jù)的數(shù)據(jù)和方法在很大程度上受到人類的影響。 甚至數(shù)據(jù)科學(xué)的所謂客觀領(lǐng)域也取決于人類行為。 正如Vicki Boykis在其電子報(bào)Normcore Tech中所說(shuō)的那樣,神經(jīng)網(wǎng)絡(luò)Neural Nets一直都是人。

典型的機(jī)器學(xué)習(xí)系統(tǒng)的每個(gè)步驟都會(huì)受到個(gè)人選擇的影響。 以下是其中一些決定:

  • 收集數(shù)據(jù):我們收集什么數(shù)據(jù)? 我們使用什么傳感器? 我們調(diào)查誰(shuí)? 我們?nèi)绾伪磉_(dá)我們的問(wèn)題?
  • 特征工程:我們制作什么特征? 我們使用領(lǐng)域知識(shí)還是自動(dòng)化特征工程? 我們?nèi)绾翁顚懭笔У闹? 什么意見應(yīng)刪除?
  • 建模:我們應(yīng)該使用哪些超參數(shù)? 我們應(yīng)該建立多復(fù)雜的模型?
  • 驗(yàn)證:什么是評(píng)估指標(biāo)? 驗(yàn)證程序是什么? 我們需要什么水平的性能?
  • 部署:我們是否相信這些數(shù)字足以向客戶展示? 我們是否需要人工評(píng)估預(yù)測(cè)以進(jìn)行健全性檢查?

不可避免地,通過(guò)這個(gè)過(guò)程,不同的人將得出不同的結(jié)論。 《許多分析師,一個(gè)數(shù)據(jù)集》一書中記錄了一個(gè)這樣的例子,該文章描述了數(shù)據(jù)科學(xué)家如何使用相同的數(shù)據(jù)集來(lái)得出相互矛盾的決策,因?yàn)樗麄儾捎昧硕喾N方法。 毫不夸張地說(shuō),您可以使用一個(gè)數(shù)據(jù)集來(lái)通過(guò)改變分析來(lái)證明一個(gè)論點(diǎn)及其對(duì)立面。 這說(shuō)明您不應(yīng)該對(duì)一項(xiàng)研究得出的任何結(jié)論抱有過(guò)多的信念,而應(yīng)該(懷著懷疑的態(tài)度)著眼于薈萃分析(并閱讀《如何利用統(tǒng)計(jì)學(xué)撒謊》)。

此外,人為的偏見(無(wú)論是有意還是無(wú)意的)都會(huì)進(jìn)入數(shù)據(jù),從而影響機(jī)器學(xué)習(xí)模型。 如《數(shù)學(xué)毀滅性武器》一書中所示,將決策移交給機(jī)器并不能消除歧視,而是編譯了出現(xiàn)在現(xiàn)實(shí)世界數(shù)據(jù)中的現(xiàn)有偏見。 最終目標(biāo)是用數(shù)據(jù)科學(xué)來(lái)誤導(dǎo)決策,這是崇高的,但是只要涉及人類,我們就不能盲目地依靠機(jī)器學(xué)習(xí)預(yù)測(cè)。

[[285411]]

人際關(guān)系和溝通技巧至關(guān)重要

盡管看上去很明顯(在任何領(lǐng)域,溝通技能會(huì)是負(fù)面的嗎?),但我每天都在提醒我,需要與各個(gè)技術(shù)領(lǐng)域的人們進(jìn)行有效的機(jī)器學(xué)習(xí)交流。 僅僅了解您的ML行話是不夠的; 您需要能夠與他們知道內(nèi)幕的人見面,并僅告訴他們他們需要了解的細(xì)節(jié)。

(作為一個(gè)幽默的例子,我的工作對(duì)某些人來(lái)說(shuō)是"計(jì)算機(jī)的東西",而對(duì)其他人則是半小時(shí)的關(guān)于機(jī)器學(xué)習(xí)細(xì)節(jié)的討論。)

至少在我們的情況下,機(jī)器學(xué)習(xí)決策不能代替人工選擇(即使更準(zhǔn)確),因?yàn)榻ㄖこ處熆梢允褂梦覀兊慕ㄗh。 (自主建筑的運(yùn)行可能比自動(dòng)駕駛車輛更遠(yuǎn))。 僅建立模型,顯示模型的準(zhǔn)確性,并將結(jié)果提供給希望立即實(shí)施預(yù)測(cè)的客戶是不夠的。 數(shù)據(jù)科學(xué)家仍然必須掌握復(fù)雜的社交互動(dòng)藝術(shù)。 您可以產(chǎn)生最佳的機(jī)器學(xué)習(xí)模型,但是如果您不能說(shuō)服人們使用它,那么它將不會(huì)有任何影響。

我工作中最普通的方面是通過(guò)內(nèi)部和外部小組的寫作和演示來(lái)解釋方法,了解我們的客戶當(dāng)前如何做出決策,并與領(lǐng)域?qū)<医徽勔詫⑵渲R(shí)轉(zhuǎn)化為數(shù)據(jù)科學(xué)系統(tǒng)。 大學(xué)里沒(méi)有提到這些,我被告知數(shù)據(jù)科學(xué)家可以躲在完美的客觀數(shù)字后面。

使用標(biāo)準(zhǔn)工具,并且采用新技術(shù)的速度較慢

確保您的算法不包含任何錯(cuò)誤的最佳方法是什么? 從sklearn導(dǎo)入模型,而不是自己編寫模型。 除非您進(jìn)行前沿研究,否則幾乎沒(méi)有理由編寫自己的機(jī)器學(xué)習(xí)模型版本。 取而代之的是,使用來(lái)自廣泛使用且經(jīng)過(guò)測(cè)試的庫(kù)中的函數(shù)(我稱之為標(biāo)準(zhǔn)工具)來(lái)完成任務(wù)。

在最近的一條推文中,我說(shuō)過(guò),最差的數(shù)據(jù)科學(xué)家編寫了自己的算法,而最優(yōu)秀的科學(xué)家則從標(biāo)準(zhǔn)庫(kù)中導(dǎo)入了算法。 我當(dāng)時(shí)是在開玩笑,但我堅(jiān)持以下原則:使用經(jīng)過(guò)測(cè)試的開源庫(kù)代碼幾乎總是比開發(fā)自己的代碼更有效。

使用標(biāo)準(zhǔn)工具的邏輯不僅適用于機(jī)器學(xué)習(xí)模型。 您可能要對(duì)數(shù)據(jù)集執(zhí)行的所有操作均已在pandas中實(shí)現(xiàn)(假設(shè)您使用Python),因此請(qǐng)先在此處查找解決方案。 同樣,也有用于統(tǒng)計(jì),繪圖,測(cè)試,調(diào)度,部署任務(wù)以及機(jī)器學(xué)習(xí)管道的大部分內(nèi)容的標(biāo)準(zhǔn)庫(kù)。

我從擁有2個(gè)博士學(xué)位到接任我的職位, 曾渴望發(fā)明自己的數(shù)據(jù)結(jié)構(gòu),度量標(biāo)準(zhǔn),算法,文件加載等的強(qiáng)烈要求(可能證明自己的學(xué)位合適)的數(shù)據(jù)科學(xué)家,這導(dǎo)致了一大堆沒(méi)人知道的混亂代碼。 我在工作的前六個(gè)月主要是用三個(gè)import語(yǔ)句替換了100行腳本,直到今天,我很自豪成為我們機(jī)器學(xué)習(xí)庫(kù)的一個(gè)貢獻(xiàn)者。


Via Negativa: addition by subtraction

 

此外,不要僅僅因?yàn)樾碌膸?kù)/技術(shù)/框架/數(shù)據(jù)庫(kù),而切換到新庫(kù)/技術(shù)/框架/數(shù)據(jù)庫(kù)。 標(biāo)準(zhǔn)工具(例如SQL數(shù)據(jù)庫(kù),用于機(jī)器學(xué)習(xí)的sklearn和用于數(shù)據(jù)操作的pandas)可以正常工作。 它們可能是無(wú)聊的,因?yàn)樗鼈?相對(duì))古老,但是它們也經(jīng)過(guò)了測(cè)試和可靠。 剛開始時(shí),作為早期采用者似乎很有趣,但是當(dāng)您與錯(cuò)誤和有限的文檔進(jìn)行斗爭(zhēng)時(shí),它很快就會(huì)變得筋疲力盡。

盡管新技術(shù)驅(qū)動(dòng)了媒體周期,但它們通常對(duì)實(shí)際工作的人員和公司幾乎沒(méi)有影響,甚至沒(méi)有立即影響(當(dāng)心工程媒體)。 我的年輕一代不敢相信我在說(shuō)這話,但與那些尚未取得成果的令人興奮的新穎技術(shù)相比,我現(xiàn)在更喜歡乏味,成熟的技術(shù)。 在內(nèi)部,我們的工程團(tuán)隊(duì)對(duì)升級(jí)庫(kù)版本進(jìn)行了長(zhǎng)時(shí)間的辯論,并且,如果沒(méi)有明顯的好處或需求,那么我們就不會(huì)升級(jí),因?yàn)橛行掳姹景l(fā)布。 向我們的機(jī)器學(xué)習(xí)代碼庫(kù)添加一個(gè)庫(kù)需要明確的需求,因?yàn)榱硪粋€(gè)庫(kù)意味著要管理的另一個(gè)依賴項(xiàng)。

壽命最長(zhǎng)的公司是那些做事平凡而行動(dòng)緩慢的公司(例如Caterpillar),而行動(dòng)迅速而又做"酷"事情的初創(chuàng)公司往往會(huì)在幾年內(nèi)消散。 最強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng)將不會(huì)是使用尖端技術(shù)的系統(tǒng),而是那些將使用久經(jīng)考驗(yàn)的數(shù)據(jù)科學(xué)標(biāo)準(zhǔn)工具。

通過(guò)外部簡(jiǎn)單性隱藏?cái)?shù)據(jù)科學(xué)的內(nèi)部復(fù)雜性

計(jì)算機(jī)非常擅長(zhǎng)處理大量數(shù)字。 人類幾乎無(wú)法處理幾個(gè)數(shù)字。 為了最有效地結(jié)合計(jì)算機(jī)和人類的能力,我們應(yīng)該使用計(jì)算機(jī)來(lái)分析大型數(shù)據(jù)集,并僅將最關(guān)鍵的數(shù)據(jù)呈現(xiàn)給人類進(jìn)行決策。 數(shù)百萬(wàn)個(gè)數(shù)字輸入,盡可能少的數(shù)字輸出。 內(nèi)部有復(fù)雜的模型,外部有可行的建議。

在過(guò)去的一年中,我發(fā)展了一種理論,即圖表中的數(shù)據(jù)點(diǎn)越多,數(shù)字越少(也許是7?),它的作用就越小。 人類只是沒(méi)有能力準(zhǔn)確地分析復(fù)雜的定量圖。 熱圖很酷,但是有沒(méi)有人從具有1000個(gè)數(shù)據(jù)點(diǎn)的熱圖(與具有五個(gè)數(shù)字的條形圖相比)做出關(guān)鍵決定?


Cool, but what am I supposed to do with this information? (Source)

作為一個(gè)通常喜歡細(xì)讀數(shù)字并聽取機(jī)器學(xué)習(xí)模型細(xì)節(jié)的人,我很難適應(yīng)大多數(shù)人不想要更多信息的想法。 客戶和做出決定的人們都渴望外賣,僅此而已。 更少的墨水意味著更好的圖表。 (如果需要制作圖表的幫助,請(qǐng)查閱定量信息的可視化顯示或數(shù)據(jù)可視化基礎(chǔ)知識(shí))。


Dull? Probably. Informative? Absolutely.

外部簡(jiǎn)單性的論點(diǎn)并不意味著僅使用線性模型。 數(shù)據(jù)科學(xué)可能涉及復(fù)雜的算法和高度技術(shù)性的操作。 對(duì)于非技術(shù)人員來(lái)說(shuō),只有數(shù)據(jù)科學(xué)的外部部分必須足夠簡(jiǎn)單。 不過(guò),請(qǐng)注意使模型如此復(fù)雜,以至于您甚至都不理解它。 為了降低精度而以無(wú)法解釋您的模型為代價(jià),值得使用混合模型嗎? 可能不會(huì)。

為了用外部簡(jiǎn)單性掩蓋內(nèi)部復(fù)雜性,請(qǐng)使用有助于描述模型決策的工具。 SHAP值是一種有用的技術(shù),您可以使用其他方法。 為了說(shuō)明建筑物的最佳開始時(shí)間建議,我們對(duì)所有特征(包括工程特征)采用SHAP值,并將其組合為人類可理解的特征組,例如天氣和建筑物內(nèi)部條件。 我們采用復(fù)雜的機(jī)器學(xué)習(xí)算法,使用SHAP值對(duì)其進(jìn)行簡(jiǎn)化以供我們理解,然后在向客戶展示產(chǎn)品之前進(jìn)一步利用我們的知識(shí)對(duì)其進(jìn)行精簡(jiǎn)。

簡(jiǎn)化定量信息的一種方法是準(zhǔn)備僅以一個(gè)數(shù)字開頭的報(bào)告,然后根據(jù)需要添加其他數(shù)字(這也適用于圖形)。 這種累加方法無(wú)需從大量圖形開始并刪除它們,而是確保沒(méi)有無(wú)關(guān)緊要的統(tǒng)計(jì)數(shù)據(jù)進(jìn)入演示和報(bào)告。 請(qǐng)記住,人不是計(jì)算機(jī),您不應(yīng)像他們那樣呈現(xiàn)結(jié)果。

+1 每個(gè)人都會(huì)感到冒名頂替綜合癥并犯錯(cuò); 這不會(huì)讓你退縮

最后,由于這是數(shù)據(jù)科學(xué)(及其他專業(yè))中的重要問(wèn)題,因此,這里值得鼓勵(lì)的一課是:不要讓冒名頂替綜合癥或錯(cuò)誤使您失望。

每個(gè)人都會(huì)感覺(jué)到他們不屬于該職位,或者最終會(huì)因?yàn)闊o(wú)法勝任而最終被"發(fā)現(xiàn)",所以請(qǐng)不要為此煩惱。 取而代之的是,改變對(duì)形勢(shì)的看法:您不是唯一擁有這些想法的人,學(xué)習(xí)新事物與產(chǎn)生結(jié)果一樣重要,而且,如果您是相對(duì)較新的人,那么成為新手會(huì)有所裨益(例如尋找新方法) 解決問(wèn)題)。 此外,很容易環(huán)顧四周并看到人們?nèi)〉昧司薮蟮某晒?,但是您看不到的是他們一路上遇到的所有失?一種生存偏見)。


People have different areas of knowledge (Source)

即使是表現(xiàn)最好的人,也從初學(xué)者開始就犯了(并且繼續(xù)犯)自己的錯(cuò)誤。 錯(cuò)誤并不意味著您不應(yīng)該是數(shù)據(jù)科學(xué)家或計(jì)算機(jī)程序員。 他們意味著您有機(jī)會(huì)學(xué)習(xí)如何做得更好。 在數(shù)據(jù)科學(xué)領(lǐng)域,我們需要更多的人,而且我擔(dān)心我們將數(shù)據(jù)科學(xué)家描繪成站在專業(yè)技能的巔峰,從而排除了技術(shù)人才。 這是一個(gè)神話,因?yàn)槟荒芡ㄟ^(guò)在某個(gè)領(lǐng)域工作來(lái)獲得專業(yè)知識(shí),而這并不是您進(jìn)入職業(yè)生涯之前所擁有的東西。 事實(shí)是,數(shù)據(jù)科學(xué)是開放的,并且沒(méi)有進(jìn)入該領(lǐng)域的"典型"途徑。 如果您由于背景或缺乏專業(yè)知識(shí)而不屬于自己,那么好消息就是那是一種扭曲; 數(shù)據(jù)科學(xué)不是只為少數(shù)精英保留的專業(yè)。

數(shù)據(jù)科學(xué)的主觀性是否意味著我們應(yīng)該放棄所有關(guān)于真理的觀念? 我認(rèn)為我們應(yīng)該重新構(gòu)想這個(gè)問(wèn)題:我們不使用一個(gè)有缺陷的數(shù)據(jù)科學(xué),而是尋找一個(gè)正確的答案,而是朝著更好的解決方案的方向發(fā)展。 畢竟,數(shù)據(jù)科學(xué)是科學(xué)的一個(gè)子領(lǐng)域,其目標(biāo)是隨著時(shí)間的流逝減少錯(cuò)誤。 同樣,研究問(wèn)題的人員越多,并比較他們的工作,我們就越接近獲得更好的結(jié)果。 那20位科學(xué)家可能進(jìn)行了20次不同的分析,但是如果他們隨后比較了他們的方法并共同努力,那么最終的成果將優(yōu)于任何單個(gè)項(xiàng)目。

在實(shí)踐數(shù)據(jù)科學(xué)時(shí),我們必須記住,就像任何領(lǐng)域一樣,不容置疑,數(shù)據(jù)科學(xué)也不是沒(méi)有缺陷。 實(shí)踐負(fù)責(zé)任的數(shù)據(jù)科學(xué)意味著以不確定的時(shí)間間隔呈現(xiàn)結(jié)果,尋找理由來(lái)反駁您的結(jié)論,將您的結(jié)果與其他類似工作進(jìn)行比較,并且在呈現(xiàn)發(fā)現(xiàn)結(jié)果時(shí)要切合實(shí)際。

結(jié)論

在該領(lǐng)域工作了一年之后,我最初對(duì)數(shù)據(jù)科學(xué)的無(wú)限樂(lè)觀已被謹(jǐn)慎的熱情所取代。 機(jī)器學(xué)習(xí)可以很好地解決一小部分問(wèn)題(比人類更好),但不能解決所有人為錯(cuò)誤。 必須認(rèn)識(shí)到該領(lǐng)域的局限性,以避免過(guò)度銷售數(shù)據(jù)科學(xué),從而導(dǎo)致未兌現(xiàn)的承諾。 盡管如此,以一種現(xiàn)實(shí)的態(tài)度并牢記這些教訓(xùn),機(jī)器學(xué)習(xí)仍可以帶來(lái)令人印象深刻的結(jié)果。 最后,最好的機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)旨在通過(guò)允許我們更有效地完成工作來(lái)幫助人類,而不是取代人類。

即使在您解釋了計(jì)算機(jī)如何做出決定之后,該建議也可能會(huì)被忽略,因?yàn)槿藗儾⒉煌耆硇浴? 當(dāng)出現(xiàn)客觀上更好的選擇時(shí),人們可能出于各種原因選擇另一種選擇:習(xí)慣,不信任,熟悉,錯(cuò)誤信息。

考慮一下風(fēng)景優(yōu)美的路線選擇:有時(shí)候,人們似乎出于邏輯上的原因會(huì)沿著兩個(gè)地方走更長(zhǎng)的路線。 為什么? 因?yàn)檠赝撅L(fēng)景更美。 天真的數(shù)據(jù)科學(xué)家可能只顯示模型建議的最短路線,但是,了解她的客戶的數(shù)據(jù)科學(xué)家會(huì)知道,他們希望在旅途中看到更多的州際公路。

同樣,可能不會(huì)使用最佳的機(jī)器學(xué)習(xí)預(yù)測(cè),因?yàn)闇?zhǔn)確性不是唯一的考慮因素。 例如,我們預(yù)測(cè)了建筑工程師開始為其建筑物供暖的理想時(shí)間,但是許多工程師仍會(huì)更早地打開設(shè)備,因?yàn)樗麄儾幌M鈶舾械讲贿m。 這是不合理的(我們按時(shí)提出建議,以確保在租戶到達(dá)時(shí)建筑物將處于正確的溫度),但是,直到我們從決策過(guò)程中驅(qū)除人員之前,我們將不得不調(diào)整計(jì)算機(jī)系統(tǒng)而不是其他方式。

也許除了您的計(jì)算機(jī)科學(xué)課程外,還可以參加一些社會(huì)學(xué)課程來(lái)了解您的人類同胞(或閱讀行為經(jīng)濟(jì)學(xué)書籍,例如兩位諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主理查德·泰勒(Richard Thaler)的《行為不端》或丹尼爾·卡尼曼(Daniel Kahnemann)的《思考,快與慢》。

責(zé)任編輯:未麗燕 來(lái)源: 今日頭條
相關(guān)推薦

2009-07-03 10:15:38

2012-07-12 00:22:03

創(chuàng)業(yè)產(chǎn)品

2016-02-23 11:55:07

曙光云計(jì)算

2012-09-07 14:30:31

工作回憶錄

2014-04-24 10:44:03

自學(xué)編程

2015-09-08 09:25:07

編程經(jīng)驗(yàn)教訓(xùn)

2015-11-03 10:32:47

ONOS開放網(wǎng)絡(luò)操作系統(tǒng)

2022-10-25 08:47:55

CIO董事會(huì)運(yùn)營(yíng)

2015-05-06 14:36:56

CIO云計(jì)算風(fēng)險(xiǎn)云遷移

2009-10-19 08:46:13

Windows 7企業(yè)部署

2015-12-29 15:17:58

SaaS2B企業(yè)級(jí)應(yīng)用軟件互聯(lián)網(wǎng)2B企業(yè)級(jí)產(chǎn)品

2018-03-02 07:04:03

物聯(lián)網(wǎng)IoT互聯(lián)網(wǎng)

2022-11-21 10:43:55

首席信息官IT 領(lǐng)導(dǎo)者

2020-02-14 13:53:33

Python 開發(fā)編程語(yǔ)言

2015-09-15 09:14:10

程序員經(jīng)驗(yàn)教訓(xùn)

2022-05-26 10:23:06

CIO數(shù)字化轉(zhuǎn)型

2015-11-02 10:00:31

數(shù)據(jù)格局

2018-09-12 21:13:40

Python數(shù)據(jù)科學(xué)語(yǔ)言

2012-03-07 10:50:39

APP經(jīng)驗(yàn)

2012-09-26 09:54:52

Scrum
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)