處理大數(shù)據(jù)所需的技能
數(shù)據(jù)分析師的工作包括收集、清理、可視化信息塊,并將原始數(shù)據(jù)轉(zhuǎn)換或建模為營(yíng)銷(xiāo)人員、開(kāi)發(fā)人員、會(huì)計(jì)師使用。數(shù)據(jù)分析師的工作流程是由組織的需求定義的,但最終的可交付成果總是相同的:結(jié)構(gòu)良好且易于檢索的數(shù)據(jù)。
作為一名數(shù)據(jù)分析師,需要具有分析頭腦、強(qiáng)大的數(shù)學(xué)技能和靈活性。雖然這主要是數(shù)據(jù)科學(xué)家的先決條件,但也需要一系列的編程知識(shí)。
根據(jù)Payscale公司發(fā)布的統(tǒng)計(jì)數(shù)據(jù),數(shù)據(jù)分析師的年薪在37,232美元至79,596美元之間,而其薪酬可能因個(gè)人的組織和經(jīng)驗(yàn)水平而異。
由于企業(yè)每天產(chǎn)生大量數(shù)據(jù),對(duì)大數(shù)據(jù)分析師的需求很高。人們可以按照以下步驟開(kāi)始數(shù)據(jù)分析工作。
第1步:獲得相關(guān)專業(yè)的大學(xué)學(xué)位
數(shù)據(jù)分析師開(kāi)始在職業(yè)生涯的頭一個(gè)舉措是獲得相關(guān)專業(yè)的大學(xué)學(xué)位。事實(shí)上,如果需要處理大量數(shù)據(jù),則以下專業(yè)更受歡迎:
- 統(tǒng)計(jì)
- 信息技術(shù)
- 計(jì)算機(jī)科學(xué)
- 系統(tǒng)分析
- 數(shù)學(xué)
- 工程設(shè)計(jì)
這樣的教育背景將為進(jìn)一步開(kāi)發(fā)數(shù)據(jù)分析技能打下良好的基礎(chǔ)。統(tǒng)計(jì)和數(shù)據(jù)分析專業(yè)通常很難寫(xiě)出分析報(bào)告,但這不應(yīng)該是人們最關(guān)心的問(wèn)題。
第2步:獲得支持大數(shù)據(jù)分析認(rèn)證
除了獲得相關(guān)專業(yè)的大學(xué)學(xué)位外,獲得一些有助于驗(yàn)證技能的證書(shū)也是非常有益的,尤其是在這個(gè)行業(yè)沒(méi)有太多經(jīng)驗(yàn)的工作人員。
這些認(rèn)證被雇主當(dāng)作一種基準(zhǔn),以確定工作人員在行業(yè)標(biāo)準(zhǔn)方面的分析和解決問(wèn)題的技能。而這些大數(shù)據(jù)分析師認(rèn)證將包括以下課程:
- 亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)的大數(shù)據(jù)認(rèn)證
- 大數(shù)據(jù)的分析和優(yōu)化證書(shū)
- Hortonworks認(rèn)證助理(HCA)
- Cloudera認(rèn)證專家(CCP)
- Cloudera認(rèn)證助理(CCA)數(shù)據(jù)分析師
獲得至少兩份這樣的證書(shū)將提高入職簡(jiǎn)歷的含金量。在獲得認(rèn)證的同時(shí),繼續(xù)學(xué)習(xí)其他課程或獲得更多的證書(shū)。獲得這些認(rèn)證肯定會(huì)在應(yīng)聘工作時(shí)派上用場(chǎng)。
第3步:為大數(shù)據(jù)分析開(kāi)發(fā)正確的技能
隨著大數(shù)據(jù)分析領(lǐng)域的不斷擴(kuò)展,人們?cè)絹?lái)越需要提高大數(shù)據(jù)分析中的分析和解決問(wèn)題的能力。數(shù)據(jù)分析師的所有主要技能如下所述。
(1)數(shù)學(xué)/統(tǒng)計(jì)
如果對(duì)數(shù)據(jù)分析感興趣,具備足夠的數(shù)學(xué)和統(tǒng)計(jì)技能是實(shí)施的良好基礎(chǔ)??紤]到處理大量數(shù)字這一事實(shí),必須實(shí)現(xiàn)優(yōu)秀的計(jì)算能力。然而,大多數(shù)人在大學(xué)期間都會(huì)主修這個(gè)領(lǐng)域,但學(xué)習(xí)這門(mén)課程總比什么都不學(xué)要好。
(2)編程技巧
特定的編程語(yǔ)言和工具廣泛用于大數(shù)據(jù)分析。熟練使用所選行業(yè)中使用的關(guān)鍵編程語(yǔ)言,可以為職業(yè)入門(mén)提供支持。
提高分析和解決問(wèn)題技能所需的編程語(yǔ)言和工具的一些示例:
- R - 該工具被專家廣泛用于數(shù)據(jù)可視化和分析。R語(yǔ)言被認(rèn)為是適度的工具,但是一旦掌握了這門(mén)語(yǔ)言,它就成了不可或缺的工具。
- Python - 專家更喜歡這種編程語(yǔ)言,主要有幾個(gè)原因。在大數(shù)據(jù)分析中,Python編程語(yǔ)言可以方便地挖掘和分析數(shù)據(jù)。其具有廣泛的功能主要它是開(kāi)源軟件,為人們創(chuàng)造了為該語(yǔ)言開(kāi)發(fā)大量庫(kù)的機(jī)會(huì)。
- Pandas是python中使用的庫(kù)之一,用于從數(shù)據(jù)導(dǎo)入、處理、吸收和清理到使用其復(fù)雜的數(shù)據(jù)幀進(jìn)行一些高級(jí)操作。大數(shù)據(jù)分析專家使用的相關(guān)python庫(kù)有numpy、scipy、scilkit。學(xué)習(xí)pybrain并在機(jī)器學(xué)習(xí)中創(chuàng)建神經(jīng)網(wǎng)絡(luò)。
還其他一些有用的編程語(yǔ)言和工具可以提高大數(shù)據(jù)分析的技能水平和性能,其中包括SQL、Apache Hadoop、Apache Spark和NoSQl。
數(shù)據(jù)探索和數(shù)據(jù)挖掘技能
利用適當(dāng)?shù)墓ぞ咛剿鞣墙Y(jié)構(gòu)化數(shù)據(jù),并識(shí)別其大小、特征、模式以及準(zhǔn)確性,以及從現(xiàn)有數(shù)據(jù)庫(kù)中提取有用信息的能力是大數(shù)據(jù)分析的全部本質(zhì)。為了提高解決問(wèn)題的能力,應(yīng)該嘗試將學(xué)到的知識(shí)運(yùn)用到解決日常問(wèn)題上。
可視化技能集
對(duì)于全面的技能集,可以嘗試使用可用的大數(shù)據(jù)存儲(chǔ)庫(kù)來(lái)建立其實(shí)時(shí)可視化知識(shí)。 Tableau和Power BI是數(shù)據(jù)分析專家使用的可視化工具的示例。大多數(shù)情況下,企業(yè)會(huì)要求使用可理解的圖形、圖表或地圖來(lái)表示檢索到的數(shù)據(jù)。
最后的想法
建立與大數(shù)據(jù)相關(guān)的適當(dāng)技能與獲得該領(lǐng)域的具體經(jīng)驗(yàn)和認(rèn)證有很大關(guān)系。獲得大學(xué)學(xué)位是一個(gè)很好的開(kāi)始,而專注于開(kāi)發(fā)上述技能,并獲得與大數(shù)據(jù)相關(guān)的認(rèn)證,可以有更多機(jī)會(huì)成為數(shù)據(jù)分析師的高層。設(shè)定真正的目標(biāo)和一致的實(shí)踐可以使企業(yè)獲得成功。以上提到的大多數(shù)工具都擁有一個(gè)強(qiáng)大的在線社區(qū),既可以提供幫助又令人鼓舞。