偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)科學(xué)常見錯(cuò)誤:開始學(xué)習(xí)之前,就把它們克服了吧

新聞
攻克數(shù)據(jù)科學(xué)這一領(lǐng)域并不容易,你可能會(huì)遇到千奇百怪的問題。即使有許多知名大學(xué)的優(yōu)秀教授開設(shè)了令人驚嘆的課程,你仍然會(huì)犯錯(cuò)誤?,F(xiàn)在,我整理了一些人們?cè)陂_始在線學(xué)習(xí)數(shù)據(jù)科學(xué)之前就必須要了解的要點(diǎn)。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。

我們生活在充滿數(shù)據(jù)的世界里,人類每天制造超過2.5兆字節(jié)的數(shù)據(jù),僅過去兩年產(chǎn)生的數(shù)據(jù)就占全世界數(shù)據(jù)的90%,基于此,數(shù)據(jù)相關(guān)的領(lǐng)域也應(yīng)運(yùn)而生。這樣的大趨勢(shì),引發(fā)了許多人對(duì)于學(xué)習(xí)數(shù)據(jù)科學(xué)的熱情。

但攻克這一領(lǐng)域并不容易,你可能會(huì)遇到千奇百怪的問題。即使有許多知名大學(xué)的優(yōu)秀教授開設(shè)了令人驚嘆的課程,你仍然會(huì)犯錯(cuò)誤。剛開始的時(shí)候,我對(duì)很多事情一無所知,也走過不少?gòu)澛贰,F(xiàn)在,我整理了一些人們?cè)陂_始在線學(xué)習(xí)數(shù)據(jù)科學(xué)之前就必須要了解的要點(diǎn)。

[[337892]]

在線課程不會(huì)傳授領(lǐng)域知識(shí)

解決任何問題之前,你都需要有一定的領(lǐng)域知識(shí)。恰當(dāng)?shù)念I(lǐng)域知識(shí)將幫助你更好地理解數(shù)據(jù)集的特性,并幫助你構(gòu)建分析數(shù)據(jù)集的方法,從而從數(shù)據(jù)集中得出結(jié)論。大多數(shù)年輕人忽視了這一點(diǎn)。

領(lǐng)域知識(shí)是最容易被忽視的技能,但對(duì)初學(xué)者來說卻是至關(guān)重要的。人們應(yīng)該意識(shí)到,他們有必要花時(shí)間了解該領(lǐng)域和他們想解決的問題。領(lǐng)域知識(shí)是解決問題的基礎(chǔ)。

了解數(shù)據(jù)集

在忙著尋找丟失的值或開始清理數(shù)據(jù)之前,請(qǐng)正確查看數(shù)據(jù)集并嘗試?yán)斫馑?。可以使用pandas庫(kù)中的describe()方法來提取關(guān)于數(shù)據(jù)的更多信息,比如平均值、標(biāo)準(zhǔn)差、四分位數(shù)。從數(shù)據(jù)集中取任何特定的例子,并使用特性來理解它。

不要急于創(chuàng)建機(jī)器學(xué)習(xí)模型

許多初學(xué)者在預(yù)處理數(shù)據(jù)之前直接應(yīng)用ML算法。所有人都可以寫兩到三行代碼來訓(xùn)練算法并預(yù)測(cè)結(jié)果,而數(shù)據(jù)科學(xué)家則會(huì)先花費(fèi)80%的時(shí)間準(zhǔn)備和管理數(shù)據(jù),尋找離群值和相關(guān)性,以及填充缺失的值并了解哪個(gè)特性影響最大。

例如,如果你想解決一個(gè)分類問題,那么就要檢查類的不平衡。通俗來說,如果類不包含相同數(shù)量的示例,那么數(shù)據(jù)集就是不平衡。再如,在一個(gè)二進(jìn)制分類任務(wù)中,類A占數(shù)據(jù)總數(shù)的99%,類B占數(shù)據(jù)總數(shù)的1%。數(shù)據(jù)不平衡可能導(dǎo)致所謂的過度擬合。

花時(shí)間準(zhǔn)備和管理數(shù)據(jù)及進(jìn)行預(yù)處理是非常有必要的。

[[337893]]

圖源:unsplash

不要自欺欺人

做作業(yè)或測(cè)驗(yàn)時(shí),不要抄襲網(wǎng)絡(luò)資源。不必急于完成任務(wù),慢慢來,作業(yè)和測(cè)驗(yàn)只是手段,學(xué)會(huì)如何解決問題才是目的,你不能不僅僅是為了拿到證書。我學(xué)到的大部分東西都是在遇到問題時(shí)學(xué)到的。

在完成分配任務(wù)之前,理解好已編寫的代碼

對(duì)于許多初學(xué)者來說,只回顧近一周所學(xué)并將其應(yīng)用到數(shù)據(jù)中是很常見的事情。例如,如果一個(gè)學(xué)生正在學(xué)習(xí)支持向量機(jī)(分類算法之一)。在作業(yè)中,如果學(xué)生必須訓(xùn)練和測(cè)試模型,大多數(shù)學(xué)生只會(huì)完成這個(gè)任務(wù),他們不會(huì)注意到之前編寫的關(guān)于數(shù)據(jù)預(yù)處理的代碼。

編碼和數(shù)學(xué)的背景知識(shí)非常有益

有人認(rèn)為學(xué)習(xí)一些數(shù)據(jù)科學(xué)課程不需要編程,我不同意這一點(diǎn),編程方面的基本知識(shí)有助于更好地學(xué)習(xí)。

也許之后會(huì)教Python / R,但如果你正在學(xué)習(xí)一門課程,建議你在HackerRank、HackerEarth等平臺(tái)解決問題,以在學(xué)習(xí)一個(gè)特定的語(yǔ)言中獲得更多的經(jīng)驗(yàn),這樣以后如果你使用類似matplotlib、NumPy這樣的庫(kù),就可以隨意編寫代碼。

不懂基礎(chǔ)數(shù)學(xué)也不用擔(dān)心,YouTube上有很好的學(xué)習(xí)資源。如果你想學(xué)習(xí)微積分,推薦學(xué)習(xí)3Blue1Brown的微積分、線性代數(shù)和統(tǒng)計(jì)學(xué)的Stat Quest。對(duì)于那些希望從數(shù)學(xué)開始學(xué)習(xí)數(shù)據(jù)科學(xué)的初學(xué)者來說,這都是不錯(cuò)的選擇。

[[337894]]

圖源:unsplash

隨意提問,不要害羞

論壇是問問題的好平臺(tái),大膽提出你的疑問,不要有絲毫疑慮。在這里,沒有人會(huì)因?yàn)閱枂栴}而感到尷尬。正如愛因斯坦所說:不停質(zhì)疑至關(guān)重要。好奇心的存在有它自己的道理。

如果不理解算法,那么就從頭開始實(shí)現(xiàn)它

如果你在理解某個(gè)算法方面有問題,那么最好的方法是自己編寫這個(gè)算法。在這個(gè)過程中,你會(huì)了解它并理解scikit-learn這類的庫(kù)的運(yùn)作方式。

不要滿足于ML算法的初始結(jié)果

你可以通過調(diào)整各種算法的值來改進(jìn)模型。不要滿足于模型的初始結(jié)果,要經(jīng)常使用超參數(shù)調(diào)優(yōu)來優(yōu)化結(jié)果。你可以改變?cè)S多算法的超參數(shù)值,比如K最近鄰算法可以改變可能改善結(jié)果的鄰值的數(shù)量。

完成在線課程不是終點(diǎn),而是起點(diǎn)。在線課程將幫助你建立牢固的基礎(chǔ),但你必須不斷學(xué)習(xí),不斷尋找各種數(shù)據(jù)集并實(shí)踐,實(shí)踐是做好所有工作的關(guān)鍵。你要繼續(xù)瀏覽各種博客文章、筆記、視頻、研究論文來了解更多知識(shí),永遠(yuǎn)不要把自己限制在什么事情上。

[[337895]]

圖源:unsplash

作為一名數(shù)據(jù)科學(xué)家,你需要不斷學(xué)習(xí)新技術(shù),追尋永無止境。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2020-11-30 15:11:51

大數(shù)據(jù)

2022-02-15 14:09:51

Java編程線程

2017-09-12 10:20:00

大數(shù)據(jù)數(shù)據(jù)可視化錯(cuò)誤及方法

2021-04-16 14:05:32

云計(jì)算

2024-03-25 14:17:52

數(shù)據(jù)可視化數(shù)據(jù)驅(qū)動(dòng)

2020-04-19 17:23:55

混合云云計(jì)算

2018-06-11 08:58:50

數(shù)據(jù)科學(xué)Web設(shè)計(jì)日志記錄

2022-12-01 08:00:42

CICD部署

2020-08-03 10:13:29

CIO項(xiàng)目管理技術(shù)

2020-09-01 15:57:12

云安全云遷移云計(jì)算

2017-08-16 08:37:05

云遷移IP地址

2020-07-17 15:57:24

物聯(lián)網(wǎng)IoT網(wǎng)絡(luò)

2017-11-20 08:56:54

克服容器誤區(qū)

2021-01-12 11:31:09

數(shù)據(jù)科學(xué)數(shù)據(jù)大數(shù)據(jù)

2017-11-20 14:18:32

2024-08-16 08:15:02

2020-04-07 09:59:40

人工智能AI機(jī)器學(xué)習(xí)

2017-10-18 15:30:47

數(shù)據(jù)中心錯(cuò)誤方法

2021-02-20 21:29:40

GitHub代碼開發(fā)者

2009-09-27 15:20:19

數(shù)據(jù)中心管理錯(cuò)誤
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)