民主化與自動(dòng)化:降低機(jī)器學(xué)習(xí)門檻的六大工具
過去,機(jī)器學(xué)習(xí)這個(gè)名詞的頭上曾經(jīng)籠著科學(xué)的光環(huán),只有少數(shù)高薪數(shù)據(jù)科學(xué)家才懂得如何用數(shù)據(jù)“喂養(yǎng)”復(fù)雜的算法,得出有用的分析結(jié)果。但如今隨著自動(dòng)化工具的快速發(fā)展,數(shù)據(jù)的采集、結(jié)構(gòu)化和分析已經(jīng)變得更加容易,機(jī)器學(xué)習(xí)的使用門檻已經(jīng)大幅降低,即使那些不懂編程的業(yè)務(wù)人員,只要能提出正確的問題,同樣也能用機(jī)器學(xué)習(xí)工具得到想要的結(jié)果。
機(jī)器學(xué)習(xí)的民主化進(jìn)程正在加速,標(biāo)志之一就是AutoML最近成了熱門詞匯,所謂AutoML就是給機(jī)器學(xué)習(xí)算法增加了一個(gè)自動(dòng)化的meta層。過去,機(jī)器學(xué)習(xí)算法的復(fù)雜之處在于需要進(jìn)行大量選項(xiàng)和參數(shù)設(shè)置來“微調(diào)”,而數(shù)據(jù)科學(xué)家們的精力80-99%都花在這上面。AutoML能夠自動(dòng)測試并調(diào)優(yōu)大量參數(shù),不但大大降低算法使用門檻,也加快了算法調(diào)優(yōu)過程。
AutoML是云計(jì)算的天作之合,因?yàn)樵谠贫薃utoML可以調(diào)用足夠的機(jī)器算力來并行處理并返回結(jié)果,同時(shí),AutoML也非常適合機(jī)器學(xué)習(xí)的新手循序漸進(jìn)自行探索機(jī)器學(xué)習(xí)應(yīng)用。
6種工具讓機(jī)器學(xué)習(xí)不再難
以下介紹的六種機(jī)器學(xué)習(xí)工具為那些使用數(shù)字、電子表格和數(shù)據(jù)的人們打開了通向機(jī)器學(xué)習(xí)世界的大門,而且不需要他們成為編程和數(shù)據(jù)科學(xué)方面的專家。
1. Splunk的
Splunk最初是作為一種搜索工具,對(duì)Web應(yīng)用程序創(chuàng)建的大量日志文件進(jìn)行搜索(或“窺探”)。如今它已經(jīng)發(fā)展成為能夠分析所有形式數(shù)據(jù)的工具,特別是時(shí)間序列和其他按順序生成的數(shù)據(jù)。Splunk能夠?qū)?shù)據(jù)分析結(jié)果顯示在一個(gè)復(fù)雜的可視化儀表板中。
最新的Splunk版本包括將數(shù)據(jù)源與TensorFlow等機(jī)器學(xué)習(xí)工具和一些優(yōu)秀Python開源工具集成的應(yīng)用程序。它們提供快速解決方案,用于檢測異常值,標(biāo)記異常并生成對(duì)未來值的預(yù)測。它們經(jīng)過優(yōu)化,可以在非常大的數(shù)據(jù)集中海底撈針。
2. DataRobot
DataRobot內(nèi)部的堆棧是一些用R、Python或其他幾個(gè)平臺(tái)編寫的好用的開源機(jī)器庫的集合。DataRobot有一個(gè)Web界面,顯示用于設(shè)置管道的類似流程圖的工具。DataRobot連接到所有主要數(shù)據(jù)源,包括本地?cái)?shù)據(jù)庫,云數(shù)據(jù)存儲(chǔ)和下載的文件或電子表格。您構(gòu)建的管道可以清理數(shù)據(jù),填充缺失值,然后生成標(biāo)記異常值并預(yù)測未來值的模型。
DataRobot還可以嘗試提供關(guān)于為什么進(jìn)行某些預(yù)測的“人性化解釋”,這是了解AI如何工作的有用功能。
它可以部署在云和本地解決方案的混合方案中。云端實(shí)施可以通過共享資源提供最大的并行性和吞吐量,而本地安裝提供更多的隱私和控制。
3. H2O
H2O對(duì)自己的定位是“無人駕駛AI”,這個(gè)自動(dòng)化堆??梢杂脕硖剿鞲鞣N機(jī)器學(xué)習(xí)解決方案。它將數(shù)據(jù)源(數(shù)據(jù)庫,Hadoop,Spark等)連接在一起,并將它們提供給具有各種參數(shù)的各種算法。您可以控制分配給特定任務(wù)的時(shí)間量和計(jì)算資源,并在預(yù)算內(nèi)測試各種參數(shù)組合。你也可以通過儀表板或Jupyter筆記本來探索和審核結(jié)果。
H2O的核心機(jī)器學(xué)習(xí)算法以及與Spark等工具的集成是開源的,但所謂的“無人駕駛”選項(xiàng)是銷售給企業(yè)客戶的專有軟件包之一,提供技術(shù)支持。
4. RapidMiner
RapidMiner生態(tài)系統(tǒng)的核心是一個(gè)基于可視圖標(biāo)進(jìn)行數(shù)據(jù)分析的工作室軟件。用戶只需拖放圖標(biāo)來生成一個(gè)管道,進(jìn)行數(shù)據(jù)清理,然后通過各種統(tǒng)計(jì)算法運(yùn)行它。如果您想使用機(jī)器學(xué)習(xí)而不是更傳統(tǒng)的數(shù)據(jù)科學(xué),自動(dòng)模型將從多種分類算法中進(jìn)行選擇,并搜索各種參數(shù),直到找到最佳擬合。該工具的目標(biāo)是生成數(shù)百個(gè)模型,然后確定最佳模型。
創(chuàng)建模型后,該工具可以部署它們,同時(shí)測試它們的成功率并解釋模型如何做出決策。可以使用可視化工作流編輯器測試和調(diào)整對(duì)不同數(shù)據(jù)字段的敏感度。
最近的增強(qiáng)功能包括更好的文本分析,用于構(gòu)建可視化儀表板的更多種類的圖表以及用于分析時(shí)間序列數(shù)據(jù)的更復(fù)雜的算法。
5. BigML
BigML儀表板提供了數(shù)據(jù)科學(xué)的常用基本工具用于識(shí)別數(shù)據(jù)相關(guān)性,這是更復(fù)雜的機(jī)器學(xué)習(xí)工作的基礎(chǔ)。例如,他們的Deepnets提供了用于測試和優(yōu)化更精細(xì)的神經(jīng)網(wǎng)絡(luò)的復(fù)雜機(jī)制??梢詫⒛P偷馁|(zhì)量與其他算法進(jìn)行比較,并使用標(biāo)準(zhǔn)化的比較框架,幫助您在經(jīng)典數(shù)據(jù)科學(xué)和更復(fù)雜的機(jī)器學(xué)習(xí)之間進(jìn)行選擇。
BigML的儀表板在瀏覽器中運(yùn)行,其分析可以在BigML云中運(yùn)行,也可以在服務(wù)器機(jī)房中運(yùn)行。云版本的價(jià)格設(shè)置較低,以鼓勵(lì)早期測試; 甚至還有一個(gè)免費(fèi)圖層。成本主要取決于數(shù)據(jù)集大小的限制以及可以調(diào)用的計(jì)算資源量。免費(fèi)套餐將使用不超過兩個(gè)并行運(yùn)行的進(jìn)程分析最多16MB的數(shù)據(jù)。較小的付費(fèi)賬戶的定價(jià)非常合理,每月只需30美元,但隨著資源需求的增加,成本會(huì)上升。
6. R Studio
R對(duì)于非程序員用戶來說并不友好,但它仍然是復(fù)雜統(tǒng)計(jì)分析最重要的工具之一,因?yàn)樗浅J芎诵臄?shù)據(jù)科學(xué)家的歡迎。R Studio是一個(gè)工具,為用戶提供一組菜單和點(diǎn)擊選項(xiàng),使其更容易與內(nèi)部運(yùn)行的R層交互。
通過R Studio,那些能夠處理電子表格的高級(jí)管理人員可以使用最簡單的選項(xiàng)來運(yùn)行基本分析,甚至是一些復(fù)雜的分析。雖然R Studio的有些部分依然讓普通用戶感到困惑,但R Studio正處于開放的邊緣,每個(gè)愿意投入一些時(shí)間的人都可以訪問使用,對(duì)于想要探索尖端工具的人來說,R Studio值得一試。