偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

28款GitHub最流行的開源機器學(xué)習(xí)項目:TensorFlow排榜首

人工智能 機器學(xué)習(xí)
現(xiàn)在機器學(xué)習(xí)逐漸成為行業(yè)熱門,經(jīng)過二十幾年的發(fā)展,機器學(xué)習(xí)目前也有了十分廣泛的應(yīng)用,如:數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人等方面。

現(xiàn)在機器學(xué)習(xí)逐漸成為行業(yè)熱門,經(jīng)過二十幾年的發(fā)展,機器學(xué)習(xí)目前也有了十分廣泛的應(yīng)用,如:數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人等方面。

[[188957]]

1. TensorFlow


 

TensorFlow 是谷歌發(fā)布的第二代機器學(xué)習(xí)系統(tǒng)。據(jù)谷歌宣稱,在部分基準(zhǔn)測試中,TensorFlow的處理速度比第一代的DistBelief加快了2倍之多。

具體的講,TensorFlow是一個利用數(shù)據(jù)流圖(Data Flow Graphs)進(jìn)行數(shù)值計算的開源軟件庫:圖中的節(jié)點(Nodes)代表數(shù)學(xué)運算操作,同時圖中的邊(Edges)表示節(jié)點之間相互流通的多維數(shù)組,即張量(Tensors)。這種靈活的架構(gòu)可以讓使用者在多樣化的將計算部署在臺式機、服務(wù)器或者移動設(shè)備的一個或多個CPU上,而且無需重寫代碼;同時任一基于梯度的機器學(xué)習(xí)算法均可夠借鑒TensorFlow的自動分化(Auto-differentiation);此外通過靈活的Python接口,要在TensorFlow中表達(dá)想法也變得更為簡單。

TensorFlow最初由Google Brain小組(該小組隸屬于Google's Machine Intelligence研究機構(gòu))的研究員和工程師開發(fā)出來的,開發(fā)目的是用于進(jìn)行機器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的研究。但該系統(tǒng)的通用性足以使其廣泛用于其他計算領(lǐng)域。

目前Google 內(nèi)部已在大量使用 AI 技術(shù),包括 Google App 的語音識別、Gmail 的自動回復(fù)功能、Google Photos 的圖片搜索等都在使用 TensorFlow 。

2. Scikit-Learn

Scikit-Learn是用于機器學(xué)習(xí)的Python 模塊,它建立在SciPy之上。該項目由David Cournapeau 于2007年創(chuàng)立,當(dāng)時項目名為Google Summer of Code,自此之后,眾多志愿者都為此做出了貢獻(xiàn)。

主要特點:

  • 操作簡單、高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析
  • 無訪問限制,在任何情況下可重新使用
  • 建立在NumPy、SciPy 和 matplotlib基礎(chǔ)上

Scikit-Learn的基本功能主要被分為六個部分:分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預(yù)處理,具體可以參考官方網(wǎng)站上的文檔。經(jīng)過測試,Scikit-Learn可在 Python 2.6、Python 2.7 和 Python 3.5上運行。除此之外,它也應(yīng)該可在Python 3.3和Python 3.4上運行。

注:Scikit-Learn以前被稱為Scikits.Learn。

3. Caffe

Caffe 是由神經(jīng)網(wǎng)絡(luò)中的表達(dá)式、速度、及模塊化產(chǎn)生的深度學(xué)習(xí)框架。后來它通過伯克利視覺與學(xué)習(xí)中心(BVLC)和社區(qū)參與者的貢獻(xiàn),得以發(fā)展形成了以一個伯克利主導(dǎo),然后加之Github和Caffe-users郵件所組成的一個比較松散和自由的社區(qū)。

Caffe是一個基于C++/CUDA架構(gòu)框架,開發(fā)者能夠利用它自由的組織網(wǎng)絡(luò),目前支持卷積神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)(人工神經(jīng)網(wǎng)絡(luò))。在Linux上,C++可以通過命令行來操作接口,對于MATLAB、Python也有專門的接口,運算上支持CPU和GPU直接無縫切換。

Caffe的特點:

  • 易用性:Caffe的模型與相應(yīng)優(yōu)化都是以文本形式而非代碼形式給出, Caffe給出了模型的定義、最優(yōu)化設(shè)置以及預(yù)訓(xùn)練的權(quán)重,方便快速使用;
  • 速度快:能夠運行最棒的模型與海量的數(shù)據(jù);
  • Caffe可與cuDNN結(jié)合使用,可用于測試AlexNet模型,在K40上處理一張圖片只需要1.17ms;
  • 模塊化:便于擴展到新的任務(wù)和設(shè)置上;
  • 使用者可通過Caffe提供的各層類型來定義自己的模型;

目前Caffe應(yīng)用實踐主要有數(shù)據(jù)整理、設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練結(jié)果、基于現(xiàn)有訓(xùn)練模型,使用Caffe直接識別。

4. PredictionIO

PredictionIO 是面向開發(fā)人員和數(shù)據(jù)科學(xué)家的開源機器學(xué)習(xí)服務(wù)器。它支持事件采集、算法調(diào)度、評估,以及經(jīng)由REST APIs的預(yù)測結(jié)果查詢。使用者可以通過PredictionIO做一些預(yù)測,比如個性化推薦、發(fā)現(xiàn)內(nèi)容等。PredictionIO 提供20個預(yù)設(shè)算法,開發(fā)者可以直接將它們運行于自己的數(shù)據(jù)上。幾乎任何應(yīng)用與PredictionIO集成都可以變得更“聰明”。其主要特點如下所示:

  • 基于已有數(shù)據(jù)可預(yù)測用戶行為;
  • 使用者可選擇你自己的機器學(xué)習(xí)算法;
  • 無需擔(dān)心可擴展性,擴展性好。

PredictionIO 基于 REST API(應(yīng)用程序接口)標(biāo)準(zhǔn),不過它還包含 Ruby、Python、Scala、Java 等編程語言的 SDK(軟件開發(fā)工具包)。其開發(fā)語言是Scala語言,數(shù)據(jù)庫方面使用的是MongoDB數(shù)據(jù)庫,計算系統(tǒng)采用Hadoop系統(tǒng)架構(gòu)。

5. Brain

Brain是 JavaScript 中的 神經(jīng)網(wǎng)絡(luò)庫。以下例子說明使用Brain來近似 XOR 功能:

  1. var net = new brain.NeuralNetwork(); 
  2.  
  3. net.train([{input: [0, 0], output: [0]}, 
  4.            {input: [0, 1], output: [1]}, 
  5.            {input: [1, 0], output: [1]}, 
  6.            {input: [1, 1], output: [0]}]); 
  7.  
  8. var output = net.run([1, 0]); // [0.987] 

當(dāng) brain 用于節(jié)點中,可使用npm安裝:

  1. npm install brain 

當(dāng) brain 用于瀏覽器,下載最新的 brain.js 文件。訓(xùn)練計算代價比較昂貴,所以應(yīng)該離線訓(xùn)練網(wǎng)絡(luò)(或者在 Worker 上),并使用 toFunction() 或者 toJSON()選項,以便將預(yù)訓(xùn)練網(wǎng)絡(luò)插入到網(wǎng)站中。

6. Keras

Keras是極其精簡并高度模塊化的神經(jīng)網(wǎng)絡(luò)庫,在TensorFlow 或 Theano 上都能夠運行,是一個高度模塊化的神經(jīng)網(wǎng)絡(luò)庫,支持GPU和CPU運算。Keras可以說是Python版的Torch7,對于快速構(gòu)建CNN模型非常方便,同時也包含了一些最新文獻(xiàn)的算法,比如Batch Noramlize,文檔教程也很全,在官網(wǎng)上作者都是直接給例子淺顯易懂。Keras也支持保存訓(xùn)練好的參數(shù),然后加載已經(jīng)訓(xùn)練好的參數(shù),進(jìn)行繼續(xù)訓(xùn)練。

Keras側(cè)重于開發(fā)快速實驗,用可能最少延遲實現(xiàn)從理念到結(jié)果的轉(zhuǎn)變,即為做好一項研究的關(guān)鍵。

當(dāng)需要如下要求的深度學(xué)習(xí)的庫時,就可以考慮使用Keras:

  • 考慮到簡單快速的原型法(通過總體模塊性、精簡性以及可擴展性);
  • 同時支持卷積網(wǎng)絡(luò)和遞歸網(wǎng)絡(luò),以及兩者之間的組合;
  • 支持任意連接方案(包括多輸入多輸出訓(xùn)練);
  • 可在CPU 和 GPU 上無縫運行。

Keras目前支持 Python 2.7-3.5。

7. CNTK

CNTK(Computational Network Toolkit )是一個統(tǒng)一的深度學(xué)習(xí)工具包,該工具包通過一個有向圖將神經(jīng)網(wǎng)絡(luò)描述為一系列計算步驟。在有向圖中,葉節(jié)點表示輸入值或網(wǎng)絡(luò)參數(shù),其他節(jié)點表示該節(jié)點輸入之上的矩陣運算。

CNTK 使得實現(xiàn)和組合如前饋型神經(jīng)網(wǎng)絡(luò)DNN、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs/LSTMs)等流行模式變得非常容易。同時它實現(xiàn)了跨多GPU 和服務(wù)器自動分化和并行化的隨機梯度下降(SGD,誤差反向傳播)學(xué)習(xí)。

下圖將CNTK的處理速度(每秒處理的幀數(shù))和其他四個知名的工具包做了比較了。配置采用的是四層全連接的神經(jīng)網(wǎng)絡(luò)(參見基準(zhǔn)測試腳本)和一個大小是8192 的高效mini batch。在相同的硬件和相應(yīng)的最新公共軟件版本(2015.12.3前的版本)的基礎(chǔ)上得到如下結(jié)果:

CNTK自2015年四月就已開源。

8. Convnetjs

ConvNetJS是利用Javascript實現(xiàn)的神經(jīng)網(wǎng)絡(luò),同時還具有非常不錯的基于瀏覽器的Demo。它最重要的用途是幫助深度學(xué)習(xí)初學(xué)者更快、更直觀的理解算法。

它目前支持:

  • 常見的神經(jīng)網(wǎng)絡(luò)模塊(全連接層,非線性);
  • 分類(SVM/ SOFTMAX)和回歸(L2)的成本函數(shù);
  • 指定和訓(xùn)練圖像處理的卷積網(wǎng)絡(luò);
  • 基于Deep Q Learning的實驗強化學(xué)習(xí)模型。

一些在線示例:

其他:

9. Pattern

Pattern是Python的一個Web挖掘模塊。擁有以下工具:

  • 數(shù)據(jù)挖掘:網(wǎng)絡(luò)服務(wù)(Google、Twitter、Wikipedia)、網(wǎng)絡(luò)爬蟲、HTML DOM解析;
  • 自然語言處理:詞性標(biāo)注工具(Part-Of-Speech Tagger)、N元搜索(n-gram search)、情感分析(sentiment analysis)、WordNet;
  • 機器學(xué)習(xí):向量空間模型、聚類、分類(KNN、SVM、 Perceptron);
  • 網(wǎng)絡(luò)分析:圖形中心性和可視化。

其文檔完善,目前擁有50多個案例和350多個單元測試。 Pattern目前只支持Python 2.5+(尚不支持Python 3),該模塊除了在Pattern.vector模塊中使用LSA外沒有其他任何外部要求,因此只需安裝 NumPy (僅在Mac OS X上默認(rèn)安裝)。

10. NuPIC

NuPIC是一個實現(xiàn)了HTM學(xué)習(xí)算法的機器智能平臺。HTM是一個關(guān)于新(大腦)皮質(zhì)(Neocortex)的詳細(xì)人工智能算法。HTM的核心是基于時間的連續(xù)學(xué)習(xí)算法,該算法可以存儲和調(diào)用時間和空間兩種模式。NuPIC可以適用于解決各類問題,尤其是異常檢測和流數(shù)據(jù)源預(yù)測方面。

NuPIC Binaries文件目前可用于:

  • Linux x86 64bit
  • OS X 10.9
  • OS X 10.10
  • Windows 64bit

NuPIC 有自己的獨特之處。許多機器學(xué)習(xí)算法無法適應(yīng)新模式,而NuPIC的運作接近于人腦,當(dāng)模式變化的時候,它會忘掉舊模式,記憶新模式。

11. Theano

  • Theano是一個Python庫,它允許使用者有效地定義、優(yōu)化和評估涉及多維數(shù)組的數(shù)學(xué)表達(dá)式,同時支持GPUs和高效符號分化操作。Theano具有以下特點:
  • 與NumPy緊密相關(guān)--在Theano的編譯功能中使用了Numpy.ndarray ;
  • 透明地使用GPU--執(zhí)行數(shù)據(jù)密集型計算比CPU快了140多倍(針對Float32);
  • 高效符號分化--Theano將函數(shù)的導(dǎo)數(shù)分為一個或多個不同的輸入;
  • 速度和穩(wěn)定性的優(yōu)化--即使輸入的x非常小也可以得到log(1+x)正確結(jié)果;
  • 動態(tài)生成 C代碼--表達(dá)式計算更快;
  • 廣泛的單元測試和自我驗證--多種錯誤類型的檢測和判定。

自2007年起,Theano一直致力于大型密集型科學(xué)計算研究,但它目前也很被廣泛應(yīng)用在課堂之上( 如Montreal大學(xué)的深度學(xué)習(xí)/機器學(xué)習(xí)課程)。

12. MXNet

MXNet是一個兼具效率和靈活性的深度學(xué)習(xí)框架。它允許使用者將符號編程和命令式編程相結(jié)合,以追求效率和生產(chǎn)力的最大化。其核心是動態(tài)依賴調(diào)度程序,該程序可以動態(tài)自動進(jìn)行并行化符號和命令的操作。其中部署的圖形優(yōu)化層使得符號操作更快和內(nèi)存利用率更高。該庫輕量且便攜帶,并且可擴展到多個GPU和多臺主機上。

主要特點:

  • 其設(shè)計說明提供了有用的見解,可以被重新應(yīng)用到其他DL項目中;
  • 任意計算圖的靈活配置;
  • 整合了各種編程方法的優(yōu)勢最大限度地提高靈活性和效率;
  • 輕量、高效的內(nèi)存以及支持便攜式的智能設(shè)備;
  • 多GPU擴展和分布式的自動并行化設(shè)置;
  • 支持Python、R、C++和 Julia;
  • 對“云計算”友好,直接兼容S3、HDFS和Azure。

MXNet不僅僅是一個深度學(xué)習(xí)項目,它更是一個建立深度學(xué)習(xí)系統(tǒng)的藍(lán)圖、指導(dǎo)方針以及黑客們對深度學(xué)習(xí)系統(tǒng)獨特見解的結(jié)合體。

13. Vowpal Wabbit

Vowpal Wabbit是一個機器學(xué)習(xí)系統(tǒng),該系統(tǒng)推動了如在線、散列、Allreduce、Learning2search、等方面機器學(xué)習(xí)前沿技術(shù)的發(fā)展。 其訓(xùn)練速度很快,在20億條訓(xùn)練樣本,每個訓(xùn)練樣本大概100個非零特征的情況下:如果特征的總位數(shù)為一萬時,訓(xùn)練時間為20分鐘;特征總位數(shù)為1000萬時,訓(xùn)練時間為2個小時。Vowpal Wabbit支持分類、 回歸、矩陣分解和LDA。

當(dāng)在Hadoop上運行Vowpal Wabbit時,有以下優(yōu)化機制:

  • 懶惰初始化:在進(jìn)行All Reduce之前,可將全部數(shù)據(jù)加載到內(nèi)存中并進(jìn)行緩存。即使某一節(jié)點出現(xiàn)了錯誤,也可以通過在另外一個節(jié)點上使用錯誤節(jié)點的數(shù)據(jù)(通過緩存來獲取)來繼續(xù)訓(xùn)練。
  • Speculative Execution:在大規(guī)模集群當(dāng)中,一兩個很慢的Mapper會影響整個Job的性能。Speculative Execution的思想是當(dāng)大部分節(jié)點的任務(wù)完成時,Hadoop可以將剩余節(jié)點上的任務(wù)拷貝到其他節(jié)點完成。

其他:

14. Ruby Warrior

通過設(shè)計了一個游戲使得Ruby語言和人工智能學(xué)習(xí)更加有樂趣和互動起來。

使用者扮演了一個勇士通過爬上一座高塔,到達(dá)頂層獲取珍貴的紅寶石(Ruby)。在每一層,需要寫一個Ruby腳本指導(dǎo)戰(zhàn)士打敗敵人、營救俘虜、到達(dá)樓梯。使用者對每一層都有一些認(rèn)識,但是你永遠(yuǎn)都不知道每層具體會發(fā)生什么情況。你必須給戰(zhàn)士足夠的人工智能,以便讓其自行尋找應(yīng)對的方式。

勇士的動作相關(guān)API:

  • Warrior.walk: 用來控制勇士的移動,默認(rèn)方向是往前;
  • warrior.feel:使用勇士來感知前方的情況,比如是空格,還是有怪物;
  • Warrior.attack:讓勇士對怪物進(jìn)行攻擊;
  • Warrior.health:獲取勇士當(dāng)前的生命值;
  • Warrior.rest:讓勇士休息一回合,恢復(fù)最大生命值的10%。

勇士的感知API:

  • Space.empty:感知前方是否是空格;
  • Space.stairs:感知前方是否是樓梯;
  • Space.enemy: 感知前方是否有怪物;
  • Space.captive:感知前方是否有俘虜;
  • Space.wall:感知前方是否是墻壁。

其他:

15. XGBoost

XGBoot是設(shè)計為高效、靈活、可移植的優(yōu)化分布式梯度 Boosting庫。它實現(xiàn)了 Gradient Boosting 框架下的機器學(xué)習(xí)算法。

XGBoost通過提供并行樹Boosting(也被稱為GBDT、GBM),以一種快速且準(zhǔn)確的方式解決了許多數(shù)據(jù)科學(xué)問題。相同的代碼可以運行在大型分布式環(huán)境如Hadoop、SGE、MP上。它類似于梯度上升框架,但是更加高效。它兼具線性模型求解器和樹學(xué)習(xí)算法。

XGBoot至少比現(xiàn)有的梯度上升實現(xiàn)有至少10倍的提升,同時還提供了多種目標(biāo)函數(shù),包括回歸、分類和排序。由于它在預(yù)測性能上的強大,XGBoot成為很多比賽的理想選擇,其還具有做交叉驗證和發(fā)現(xiàn)關(guān)鍵變量的額外功能。

值得注意的是:XGBoost僅適用于數(shù)值型向量,因此在使用時需要將所有其他形式的數(shù)據(jù)轉(zhuǎn)換為數(shù)值型向量;在優(yōu)化模型時,這個算法還有非常多的參數(shù)需要調(diào)整。

16. GoLearn

GoLearn 是Go 語言中“功能齊全”的機器學(xué)習(xí)庫,簡單性及自定義性是其開發(fā)目標(biāo)。

在安裝 GoLearn 時,數(shù)據(jù)作為實例被加載,然后可以在其上操作矩陣,并將操作值傳遞給估計值。GoLearn 實現(xiàn)了Fit/Predict的Scikit-Learn界面,因此用戶可輕松地通過反復(fù)試驗置換出估計值。此外,GoLearn還包括用于數(shù)據(jù)的輔助功能,例如交叉驗證、訓(xùn)練以及爆裂測試。

17. ML_for_Hackers

ML_for_Hackers 是針對黑客機器學(xué)習(xí)的代碼庫,該庫包含了所有針對黑客的機器學(xué)習(xí)的代碼示例(2012)。該代碼可能和文中出現(xiàn)的并不完全相同,因為自出版以來,可能又添加了附加的注釋和修改部分。

所有代碼均為R語言,依靠眾多的R程序包,涉及主題包括分類(Classification)、排行(Ranking)、以及回歸(Regression)的所有常見的任務(wù)和主成分分析(PCA)和多維尺度(Multi-dimenstional Scaling)等統(tǒng)計方法。

18. H2O-2

H2O使得Hadoop能夠做數(shù)學(xué)運算!它可以通過大數(shù)據(jù)衡量統(tǒng)計數(shù)據(jù)、機器學(xué)習(xí)和數(shù)學(xué)。H2O是可擴展的,用戶可以在核心區(qū)域使用簡單的數(shù)學(xué)模型構(gòu)建模塊。H2O保留著與R、Excel 和JSON等相類似的熟悉的界面,使得大數(shù)據(jù)愛好者及專家們可通過使用一系列由簡單到高級的算法來對數(shù)據(jù)集進(jìn)行探索、變換、建模及評分。采集數(shù)據(jù)很簡單,但判決難度卻很大,而H2O卻通過更快捷、更優(yōu)化的預(yù)測模型,能夠更加簡單迅速地從數(shù)據(jù)中獲得深刻見解。

0xdata H2O的算法是面向業(yè)務(wù)流程——欺詐或趨勢預(yù)測。Hadoop專家可以使用Java與H2O相互作用,但框架還提供了對Python、R以及Scala的捆綁。

19. neon

neon 是 Nervana 基于 Python 語言的深度學(xué)習(xí)框架,在諸多常見的深層神經(jīng)網(wǎng)絡(luò)中都能夠獲得較高的性能,比如AlexNet、VGG 或者GoogLeNet。在設(shè)計 neon 時,開發(fā)者充分考慮了如下功能:

  • 支持常用的模型及實例,例如 Convnets、 MLPs、 RNNs、LSTMs、Autoencoders 等,其中許多預(yù)訓(xùn)練的實現(xiàn)都可以在模型庫中發(fā)現(xiàn);
  • 與麥克斯韋GPU中fp16 和 fp32(基準(zhǔn)) 的nervanagpu 內(nèi)核緊密集成;
  • 在Titan X(1 GPU ~ 32 hrs上可完整運行)的AlexNet上為3s/macrobatch(3072圖像);
  • 快速影像字幕模型(速度比基于 NeuralTalk 的CPU 快200倍)。
  • 支持基本自動微分;
  • 框架可視化;
  • 可交換式硬盤后端:一次編寫代碼,然后配置到 CPU、GPU、或者 Nervana 硬盤。

在 Nervana中,neon被用來解決客戶在多個域間存在的各種問題。

20. Oryx 2

開源項目Oryx提供了簡單且實時的大規(guī)模機器學(xué)習(xí)、預(yù)測分析的基礎(chǔ)設(shè)施。它可實現(xiàn)一些常用于商業(yè)應(yīng)用的算法類:協(xié)作式過濾/推薦、分類/回歸、集群等。此外,Oryx 可利用 Apache Hadoop 在大規(guī)模數(shù)據(jù)流中建立模型,還可以通過HTTP REST API 為這些模型提供實時查詢,同時隨著新的數(shù)據(jù)不斷流入,可以近似地自動更新模型。這種包括了計算層和服務(wù)層的雙重設(shè)計,能夠分別實現(xiàn)一個Lambda 架構(gòu)。模型在PMML格式交換。

 

Oryx本質(zhì)上只做兩件事:建模和為模型服務(wù),這就是計算層和服務(wù)層兩個獨立的部分各自的職責(zé)。計算層是離線、批量的過程,可從輸入數(shù)據(jù)中建立機器學(xué)習(xí)模型,它的經(jīng)營收益在于“代”,即可利用某一點處輸入值的快照建模,結(jié)果就是隨著連續(xù)輸入的累加,隨時間生成一系列輸出;服務(wù)層也是一個基于Java長期運行的服務(wù)器進(jìn)程,它公開了REST API。使用者可從瀏覽器中訪問,也可利用任何能夠發(fā)送HTTP請求的語言或工具進(jìn)行訪問。

Oryx的定位不是機器學(xué)習(xí)算法的程序庫,Owen關(guān)注的重點有四個:回歸、分類、集群和協(xié)作式過濾(也就是推薦)。其中推薦系統(tǒng)非常熱門,Owen正在與幾個Cloudera的客戶合作,幫他們使用Oryx部署推薦系統(tǒng)。

21. Shogun

Shogun是一個機器學(xué)習(xí)工具箱,由Soeren Sonnenburg 和GunnarRaetsch(創(chuàng)建,其重點是大尺度上的內(nèi)核學(xué)習(xí)方法,特別是支持向量機SVM(Support Vector Machines)的學(xué)習(xí)工具箱。它提供了一個通用的連接到幾個不同的SVM實現(xiàn)方式中的SVM對象接口,目前發(fā)展最先進(jìn)的LIBSVM和SVMlight 也位于其中,每個SVM都可以與各種內(nèi)核相結(jié)合。工具箱不僅為常用的內(nèi)核程序(如線性、多項式、高斯和S型核函數(shù))提供了高效的實現(xiàn)途徑,還自帶了一些近期的字符串內(nèi)核函數(shù),例如局部性的改進(jìn)、Fischer、TOP、Spectrum、加權(quán)度內(nèi)核與移位,后來有效的LINADD優(yōu)化內(nèi)核函數(shù)也已經(jīng)實現(xiàn)。

此外,Shogun還提供了使用自定義預(yù)計算內(nèi)核工作的自由,其中一個重要特征就是可以通過多個子內(nèi)核的加權(quán)線性組合來構(gòu)造的組合核,每個子內(nèi)核無需工作在同一個域中。通過使用多內(nèi)核學(xué)習(xí)可知最優(yōu)子內(nèi)核的加權(quán)。

目前Shogun可以解決SVM 2類的分類和回歸問題。此外Shogun也添加了了像線性判別分析(LDA)、線性規(guī)劃(LPM)、(內(nèi)核)感知等大量線性方法和一些用于訓(xùn)練隱馬爾可夫模型的算法。

22. HLearn

HLearn是由Haskell語言編寫的高性能機器學(xué)習(xí)庫,目前它對任意維度空間有著最快最近鄰的實現(xiàn)算法。

HLearn同樣也是一個研究型項目。該項目的研究目標(biāo)是為機器學(xué)習(xí)發(fā)掘“最佳可能”的接口。這就涉及到了兩個相互沖突的要求:該庫應(yīng)該像由C/C++/Fortran/Assembly開發(fā)的底層庫那樣運行快速;同時也應(yīng)該像由Python/R/Matlab開發(fā)的高級庫那樣靈活多變。Julia在這個方向上取得了驚人的進(jìn)步,但是 HLearn“野心”更大。更值得注意的是,HLearn的目標(biāo)是比低級語言速度更快,比高級語言更加靈活。

為了實現(xiàn)這一目標(biāo),HLearn采用了與標(biāo)準(zhǔn)學(xué)習(xí)庫完全不同的接口。在HLearn中H代表著三個不同的概念,這三個概念也是HLearn設(shè)計的基本要求:

  • H代表Haskell。機器學(xué)習(xí)是從數(shù)據(jù)中預(yù)測函數(shù),所以功能性編程語言適應(yīng)機器學(xué)習(xí)是完全說的通的。但功能性編程語言并沒廣泛應(yīng)用于機器學(xué)習(xí),這是因為它們固來缺乏支持學(xué)習(xí)算法的快速數(shù)值計算能力。HLearn通過采用Haskell中的SubHask庫獲得了快速數(shù)值計算能力;
  • H同時代表著Homomorphisms。Homomorphisms是抽象代數(shù)的基本概念,HLearn將該代數(shù)結(jié)構(gòu)用于學(xué)習(xí)系統(tǒng)中;
  • H還代表著History monad。在開發(fā)新的學(xué)習(xí)算法過程中,最為困難的任務(wù)之一就是調(diào)試優(yōu)化過程。在此之前,是沒有辦法減輕調(diào)試過程的工作量的,但History monad正在試圖解決該問題。它可以讓你在整個線程優(yōu)化代碼的過程中無需修改原代碼。此外,使用該技術(shù)時沒有增加其他的運行開銷。

其他:

23. MLPNeuralNet

MLPNeuralNet是一個針對iOS和Mac OS系統(tǒng)的快速多層感知神經(jīng)網(wǎng)絡(luò)庫,可通過已訓(xùn)練的神經(jīng)網(wǎng)絡(luò)預(yù)測新實例。它利用了向量運算和硬盤加速功能(如果可用),其建立在蘋果公司的加速框架之上。

若你已經(jīng)用Matlab(Python或R)設(shè)計了一個預(yù)測模型,并希望在iOS應(yīng)用程序加以應(yīng)用。在這種情況下,正好需要MLP NeuralNet,而MLP NeuralNet只能加載和運行前向傳播方式的模型。MLP NeuralNet 有如下幾個特點:

  • 分類、多類分類以及回歸輸出;
  • 向量化實現(xiàn)形式;
  • 雙精度;
  • 多重隱含層數(shù)或空(此時相當(dāng)于邏輯學(xué)/線性回歸)。

其他:

24. Apache Mahout

Mahout 是Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實現(xiàn),包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。Apache Mahout項目的目標(biāo)是建立一個能夠快速創(chuàng)建可擴展、高性能機器學(xué)習(xí)應(yīng)用的環(huán)境。

雖然在開源領(lǐng)域中相對較為年輕,但 Mahout 已經(jīng)提供了大量功能,特別是在集群和 CF 方面。Mahout 的主要特性包括:

  • Taste CF,Taste是Sean Owen在SourceForge上發(fā)起的一個針對CF的開源項目,并在2008年被贈予Mahout;
  • 一些支持 Map-Reduce 的集群實現(xiàn)包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift;
  • Distributed Naive Bayes 和 Complementary Naive Bayes 分類實現(xiàn);
  • 針對進(jìn)化編程的分布式適用性功能;
  • Matrix 和矢量庫。

使用 Mahout 還可實現(xiàn)內(nèi)容分類。Mahout 目前支持兩種根據(jù)貝氏統(tǒng)計來實現(xiàn)內(nèi)容分類的方法:第一種方法是使用簡單的支持 Map-Reduce 的 Naive Bayes 分類器;第二種方法是 Complementary Naive Bayes,它會嘗試糾正Naive Bayes方法中的一些問題,同時仍然能夠維持簡單性和速度。

25. Seldon Server

Seldon是一個開放式的預(yù)測平臺,提供內(nèi)容建議和一般的功能性預(yù)測。它在Kubernetes集群內(nèi)運行,因此可以調(diào)配到Kubernetes范圍內(nèi)的任一地址:內(nèi)部部署或云部署(例如,AWS、谷歌云平臺、Azure)。另外,它還可以衡量大型企業(yè)安裝的需求。

26. Datumbox - Framework

Datumbox機器學(xué)習(xí)框架是用Java編寫的一個開源框架,該框架的涵蓋大量的機器學(xué)習(xí)算法和統(tǒng)計方法,并能夠處理大尺寸的數(shù)據(jù)集。

Datumbox API提供了海量的分類器和自然語言處理服務(wù),能夠被應(yīng)用在很多領(lǐng)域的應(yīng)用,包括了情感分析、話題分類、語言檢測、主觀分析、垃圾郵件檢測、閱讀評估、關(guān)鍵詞和文本提取等等。目前,Datumbox所有的機器學(xué)習(xí)服務(wù)都能夠通過API獲取,該框架能夠讓用戶迅速地開發(fā)自己的智能應(yīng)用。目前,基于GPL3.0的Datumbox機器學(xué)習(xí)框架已經(jīng)開源并且可以從GitHub上進(jìn)行下載。

Datumbox的機器學(xué)習(xí)平臺很大程度上已經(jīng)能夠取代普通的智能應(yīng)用。它具有如下幾個顯著的優(yōu)點:

  • 強大并且開源。Datumbox API使用了強大的開源機器學(xué)習(xí)框架Datumbox,使用其高度精確的算法能夠迅速地構(gòu)建創(chuàng)新的應(yīng)用;
  • 易于使用。平臺API十分易于使用,它使用了REST&JSON的技術(shù),對于所有的分類器;
  • 迅速使用。Datumbox去掉了那些很花時間的復(fù)雜機器學(xué)習(xí)訓(xùn)練模型。用戶能夠通過平臺直接使用分類器。

Datumbox主要可以應(yīng)用在四個方面:一個是社交媒體的監(jiān)視,評估用戶觀點能夠通過機器學(xué)習(xí)解決,Datumbox能夠幫助用戶構(gòu)建自己的社交媒體監(jiān)視工具;第二是搜索引擎優(yōu)化,其中非常有效的方法就是文檔中重要術(shù)語的定位和優(yōu)化;第三點是質(zhì)量評估,在在線通訊中,評估用戶產(chǎn)生內(nèi)容的質(zhì)量對于去除垃圾郵件是非常重要的,Datumbox能夠自動的評分并且審核這些內(nèi)容;最后是文本分析,自然語言處理和文本分析工具推動了網(wǎng)上大量應(yīng)用的產(chǎn)生,平臺API能夠很輕松地幫助用戶進(jìn)行這些分析。

27. Jubatus

Jubatus庫是一個運行在分布式環(huán)境中的在線機器學(xué)習(xí)框架,即面向大數(shù)據(jù)數(shù)據(jù)流的開源框架。它和Storm有些類似,但能夠提供更多的功能,主要功能如下:

  • 在線機器學(xué)習(xí)庫:包括分類、聚合和推薦;
  • Fv_converter: 數(shù)據(jù)預(yù)處理(用自然語言);
  • 在線機器學(xué)習(xí)框架,支持容錯。

Jubatus認(rèn)為未來的數(shù)據(jù)分析平臺應(yīng)該同時向三個方向展開:處理更大的數(shù)據(jù),深層次的分析和實時處理。于是Jubatus將在線機器學(xué)習(xí),分布式計算和隨機算法等的優(yōu)勢結(jié)合在一起用于機器學(xué)習(xí),并支持分類、回歸、推薦等基本元素。根據(jù)其設(shè)計目的,Jubatus有如下的特點:

  • 可擴展:支持可擴展的機器學(xué)習(xí)處理。在普通硬件集群上處理數(shù)據(jù)速度高達(dá)100000條/秒;+實時計算:實時分析數(shù)據(jù)和更新模型;
  • 深層次的數(shù)據(jù)分析:支持各種分析計算:分類、回歸、統(tǒng)計、推薦等。

如果有基于流數(shù)據(jù)的機器學(xué)習(xí)方面的需求,Jubatus值得關(guān)注。

28. Decider

Decider 是另一個 Ruby 機器學(xué)習(xí)庫,兼具靈活性和可擴展性。Decider內(nèi)置了對純文本和URI、填充詞匯、停止詞刪除、字格等的支持,以上這些都可以很容易地在選項中組合。Decider 可支持Ruby中任何可用的存儲機制。如果你喜歡,可以保存到數(shù)據(jù)庫中,實現(xiàn)分布式分類。

Decider有幾個基準(zhǔn),也兼作集成測試。這些都是定期運行并用于查明CPU和RAM的瓶頸。Decider可以進(jìn)行大量數(shù)學(xué)運算,計算相當(dāng)密集,所以對速度的要求比較高。這是經(jīng)常使用Ruby1.9和JRuby測試其計算速度。此外,用戶的數(shù)據(jù)集應(yīng)該完全在內(nèi)存中,否則將會遇到麻煩。

開發(fā)語言:Ruby

GitHub項目地址: https://github.com/danielsdeleo/Decider

責(zé)任編輯:武曉燕 來源: 實驗樓
相關(guān)推薦

2015-01-22 16:34:54

Github國產(chǎn)開源項目

2010-05-25 15:12:59

Web

2011-03-21 13:01:10

2016-09-07 14:29:13

GitHub安全SQL

2019-01-07 10:50:58

開源技術(shù) 機器學(xué)習(xí)

2011-12-14 20:41:27

Android

2011-05-03 10:40:58

Ubuntu 11.0應(yīng)用

2017-02-27 11:06:28

Github開源項目

2013-07-05 10:59:02

GitHub

2013-07-05 11:07:30

2018-09-15 16:06:55

機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)框架

2017-12-12 23:22:52

2017-11-08 13:42:53

機器學(xué)習(xí)開源GitHub

2014-12-23 14:57:42

開源項目機器學(xué)習(xí)

2010-10-18 14:01:49

2015-05-07 10:10:29

GitHub編程語言

2015-05-04 10:05:11

編程語言GitHub流行語言

2023-07-06 14:07:30

2015-01-23 16:37:33

Android源碼GitHub打包

2010-09-04 10:21:03

點贊
收藏

51CTO技術(shù)棧公眾號