偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

作為數(shù)據(jù)科學家應該知道的11件事

大數(shù)據(jù)
在我們舉辦的聚會期間,我們見到了很多朋友。從數(shù)據(jù)科學領域完全的菜鳥到專家,在同一個屋檐下,每個人都發(fā)出自己的疑惑。

數(shù)據(jù)科學

背景

在我們舉辦的聚會期間,我們見到了很多朋友。從數(shù)據(jù)科學領域完全的菜鳥到專家,在同一個屋檐下,每個人都發(fā)出自己的疑惑。然而,當我們面對這群朋友——很大比例的這部分人(包括一些專家),一件事情顯得尤為突出,他們沒有自己的機器,也沒有將自己的身份調(diào)整過來。他們中的很多人從未抽出時間開啟他們作為數(shù)據(jù)科學家的旅程。結果他們只是得到了一個能夠涉及多個產(chǎn)業(yè)資源的機會。

沒有人告訴他們該關注哪些博客,該訂閱哪些時事新聞,去哪里閱讀行業(yè)最新的訊息。他們從不調(diào)整他們的機器,也沒有必要的硬件或者軟件。這導致了極低的生產(chǎn)率,在某些情況下甚至遭遇挫折,在這樣的時候他們應該喜歡上這樣的經(jīng)歷。

還是沒有聯(lián)想起什么?試想下在瀏覽一個網(wǎng)頁的時候,載入就耗費了10秒中。在這個時候你很可能會很不耐煩,然后打開一個新站點的網(wǎng)頁避免浪費時間。同樣的事情也會發(fā)生在數(shù)據(jù)科學身上。代碼運行的時間越長,從工作中避開的機會也越多。

這就是我們怎樣發(fā)現(xiàn)行業(yè)里的人們不曾說過的問題,因此我們想給這些朋友準備成為數(shù)據(jù)科學家的一些指引。

誰適合本指引?

如上所述,這個指引是寫給那些還沒調(diào)好機器的數(shù)據(jù)科學行業(yè)的工作者。我想這更多的是給新手們寫的,但是我同樣也希望資深工作者也能從中受益。

讓我們從設置機器開始

1.硬件-機器的選擇

首先應該確認的是你有適合數(shù)據(jù)科學的硬件配置。如果你的硬件已經(jīng)足夠好的話,那也沒什么可以做的了。既然筆記本電腦已經(jīng)成為現(xiàn)在的主流,以下是我對筆記本的配置建議。如果你用臺式機或者iMac,你可以有更好的硬件配置。

當然最終的選擇將由你可以付出多少錢來決定,我建議一臺四核心,英特爾i7處理器的機子就可以了。確保你選的機子是四核處理器而不是雙核的。在現(xiàn)在,選用好的四核芯片還是比較困難的。你可以在cpuboss這類網(wǎng)站上查看各種芯片的benchmark性能表現(xiàn),再根據(jù)自己的預算來選擇。

我們總是建議你配置盡量大的內(nèi)存,很多工具在計算的時候都會消耗大量內(nèi)存,你也不想讓內(nèi)存溢出吧。

如果你的預算充裕,將機械硬盤升級為固態(tài)硬盤可以為數(shù)據(jù)的讀寫提升很大的性能。對那些真想深入學習機器學習的人來說,建議配置一塊英偉達的GPU,這樣的話對于那些需要強烈計算的時候可以用上CUDA技術。

這里有一些比較好的建議配置:

  • 15吋的Mac Book Pro.
  • 3年前我購置了一臺聯(lián)想Z510,i7(3632QM)處理器,16GB內(nèi)存,英偉達的GPU的電腦,我覺得還不錯。性能方面,它仍然是現(xiàn)在市場上一臺比較不錯的設備。
  • 如果你在美國,需要更好的設備,可以試下Malibal 9000,它很漂亮,只是有點重。

一些其他的說明:

  • 6代的英特爾Skylake處理器最近才發(fā)布,基于這款處理器的設備才剛剛興起。我相信他們將再次掀起一場革命。你可以在聯(lián)想Thinkpad P50和P70的配置上得到檢驗。 所以,如果你現(xiàn)在有一臺中等配置的機器,我建議你再等2-3個月購置一臺基于6代處理器的設備。
  • 如果現(xiàn)在你不得不買一臺設備的話,四代四核i7處理器是一個不錯的選擇。在寫這篇文章的時候,5代的處理器還沒有什么好的選擇。

人們可能會說沒有必要在怎么高配的設備上做投資。你可能在一些中等機器的云上更好的工作。我個人很喜歡個人電腦提供的方便的可訪問性,我可以在沒有網(wǎng)絡的情況下隨時隨地的工作。

2.操作系統(tǒng)

一旦你已經(jīng)選定了你的機器,下一步重要的選擇就是操作系統(tǒng)了。

  • 如果你有一臺mac機,那么你的操作系統(tǒng)就已經(jīng)定了。一些軟件比如QlikView在MAC下沒有兼容版本,你可以在虛擬機里運行它們。
  • 如果你用的是PC電腦,我建議安裝雙系統(tǒng)。Linux在高級計算上有更好的表現(xiàn),Windows系統(tǒng)對于像微軟Office等一起其他的軟件只能在Windows系統(tǒng)運行。所以兩個系統(tǒng)最好都要有。
  • 另一個選擇是我看到很多人在Windows機上跑一臺Linux虛擬機,這樣的話在內(nèi)存和性能上將受到一些限制。
  • 也可以在Linux上使用微軟的Office 360.我本人沒怎么干過,所以我就不評論了,但是看起來也是個選擇。再次重申,可能有很多軟件沒法再Linux上運行。

一旦選定了操作系統(tǒng)確保你的操作系統(tǒng)發(fā)揮了最大的性能。比如,在Windows上,你可以關掉一些透明等界面的效果。去到高級選項卡->性能->設置,將視覺效果禁用,取消一些沒必要自啟動的程序,然后將電源調(diào)成性能模式。

3.常用軟件

除了一些數(shù)據(jù)分析工具,這里有一些你需要用到的軟件。

  • 微軟Office比如Excel,用來展現(xiàn)結果,編寫文檔等。
  • FileZilla用FTP傳送文件。
  • Git & GitHub用來控制版本.
  • VMWare / Oracle Virtual Box / Vagrant用來運行虛擬機。
  • Cygwin / Putty(for windows)
  • 我使用Evernote 來整理筆記.如果在Linux里,我使用瀏覽器。
  • Terminator (for Linux)在單個視圖下運行多個終端的工具,很不錯的。
  • Sublime Text用來編寫代碼.你需要安裝額外的你所使用的語言插件。

4.分析數(shù)據(jù)的軟件

這部分將非常依賴于你所選用的數(shù)據(jù)挖掘的工具。如果你仍然選用主要的工具,看下這里的比較 – SAS vs. R vs. Python.如果你 已經(jīng)有一個選用的工具,選一個適合你的:

  • SAS– 基于SAS的企業(yè)級指引、企業(yè)級數(shù)據(jù)挖掘模塊將依賴于你的許可證.它也提供了TextMiner / JMP和一些行業(yè)應用的模塊。
  • R– R語言提供了一些關鍵的庫.RStudio是一個不錯的開發(fā)環(huán)境。
  • Python– iPython notebooks, Dato (Graphlab), vowpal-wabbit, import.io 是另外很有意思的相互獨立的科學庫.

其他可供選擇的有MATLAB / Octave / RapidMiner.

5.數(shù)據(jù)可視化軟件

除了以上提到的軟件,有一個專門用來做數(shù)據(jù)可視化的工具是很重要的。他們通常會在每一個項目的末尾,當你將數(shù)據(jù)呈現(xiàn)在客戶面前時顯現(xiàn)出重要性。有很多可供選擇的軟件。關于這些軟件的更多信息,請參考他們自己的文檔。我推薦 QlikView – 它很易用,有一個個人免費版本可以下載,對于大的數(shù)據(jù)量它真的可以很好的處理.Tableau 是另外一個很不錯的選擇,使用起來同樣非常直觀,但是據(jù)我的經(jīng)驗,對于大數(shù)據(jù)量的處理并不是很出色。

如果你了解JavaScript,你可以使用基于它的庫比如D3.js

6.數(shù)據(jù)庫/文件存儲

很多時候,當數(shù)據(jù)集很龐大或者你給你的用戶編譯程序時,你將需要使用數(shù)據(jù)庫 –SQL 是最常使用的.你也可以使用MySQL或者PostgreSQL.SQLite捆綁在Python的包里時對于一些小的應用是非常高效的。如果你經(jīng)常跟大數(shù)據(jù)量打交道,建立一個Hadoop集群是不可避免的。如果你要處理實時的數(shù)據(jù)流,你也將需要用到Spark.

除了這些數(shù)據(jù)庫,你需要了解下NoSQL,以防日后用到它.我建議使用 MongoDB 和 Neo4j .

其他資源

6.云服務

假如你要處理400GB的數(shù)據(jù)量,你要怎么辦呢?即使我上面建議的機器配置用R語言來處理,也無法一次將他們裝載到內(nèi)存里。對于這樣的場景,有一個云賬號是很方便的。你可以使用兩家云服務提供商——亞馬遜網(wǎng)絡服務(人們常說的AWS)或者微軟公司的Azure.他們都提供了高度伸縮性的解決方案。Azure平臺界面可能會更加友好些,但是亞馬遜才是云服務的霸主。你可以在兩個公司都申請個賬號體驗一下。

 

7.行業(yè)博客和時事新聞

我假設你已經(jīng)訂閱了Analytics Vidhya的文章。如果沒有,請到這里 訂閱.除了Analytics Vidhya, 你也可以關注 KDNuggets 和 DataScienceCentral.

在時事新聞方面, 我推薦O’Reilly, DataScienceWeekly和 Data Elixir 的時訊.

8.移動app

我經(jīng)常使用手機閱讀很多內(nèi)容。不論我是在乘坐地鐵或者只有5分鐘瀏覽最新的出版物,我都使用移動端。我用Prismatic和Flipboard這些聚合軟件去發(fā)現(xiàn)新的東西。兩者都給我提供了行業(yè)最新的發(fā)展動態(tài)。

另外,我也使用Termux,它是一個功能完善的Linux終端,以防我需要ssh連接服務器的時候使用。我也偶爾使用它在Python腳本里編寫原型程序。

9.聚會

你可以找到很多聚會在你周圍.它給需要相互交流的人們提供了很好的機會。Analytics Vidhya在印度很多城市主辦了編程馬拉松活動。DataKind也有很多聚會.

10.可用來實踐的數(shù)據(jù)集

對于新手, 你可以看看這在Analytics Vidhya上的討論 .除了這個, KDNuggets維護了一些開源的數(shù)據(jù)集。 UCI也提供了一些可用于機器學習的數(shù)據(jù).

你也可以訪問data.gov來尋找一些開源的數(shù)據(jù)。

11.社區(qū)和社交媒體

如果你還沒有完成, 注冊我們的討論門戶.你不能只是跟其他的數(shù)據(jù)科學家在社區(qū)上交流,也可以參加各種我們主辦的編程馬拉松.除此之外, 你可以看看 Kaggle競賽和DataTau這是黑客行業(yè)的一些動態(tài).

另外,你也可以在Twitter, LinkedIn, GitHub, Facebook和Reddit找到數(shù)據(jù)科學的社區(qū).你同樣可以訂閱YouTube的頻道。

責任編輯:李英杰 來源: 36大數(shù)據(jù)
相關推薦

2017-10-11 18:14:13

數(shù)據(jù)收集大數(shù)據(jù)系統(tǒng)建模

2020-10-25 20:00:18

數(shù)據(jù)科學數(shù)據(jù)科學家

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學家

2019-07-03 15:21:47

數(shù)據(jù)科學統(tǒng)計數(shù)據(jù)數(shù)據(jù)結構

2020-06-16 09:13:27

數(shù)據(jù)科學數(shù)據(jù)大數(shù)據(jù)

2024-01-09 14:57:22

2014-11-14 17:39:23

云計算

2021-12-19 22:31:01

Windows 11Windows微軟

2019-07-11 12:59:27

數(shù)據(jù)科學家概率分布統(tǒng)計

2015-09-18 08:47:41

新手程序員

2021-05-19 18:23:40

物聯(lián)網(wǎng)IOT物聯(lián)網(wǎng)技術

2010-09-02 18:56:09

NoSQL數(shù)據(jù)庫DBA

2012-02-07 13:29:35

2019-09-18 21:00:51

Python數(shù)據(jù)科學多線程

2017-04-12 09:34:30

數(shù)據(jù)科學家統(tǒng)計學家好習慣

2018-11-01 15:50:24

MongoDB服務器數(shù)據(jù)庫

2018-08-30 06:00:04

2013-01-06 14:11:34

手機版Ubuntu系統(tǒng)

2015-10-28 18:04:51

2022-04-22 14:28:18

加密推特比特幣加密貨幣
點贊
收藏

51CTO技術棧公眾號