雅虎開源人工智能獨門武器 CaffeOnSpark
又有一家科技巨頭向全世界公開了他們的 know-how 人工智能。2月25日,Yahoo 發(fā)布了 CaffeOnSpark 人工智能的源代碼,每個學術(shù)研究人員或是大公司都可以使用或是加以修改。
Yahoo 在科技方面的實力大概鮮有人知。事實上開源 Hadoop 就是 Yahoo 孵化的;Facebook、Twitter 以及其他不少公司都在用這個數(shù)據(jù)處理平臺。因此在人工智能方面,Yahoo 公司有著獨到的長處,因為在培訓人工智能系統(tǒng)的時候,數(shù)據(jù)就和算法一樣重要。而且 Yahoo 手握著全球最有趣***的資料庫之一:相片社群網(wǎng)站 Flickr。
就如諸多新的開源人工智能項目一樣,CafffeOnSpark 的根基是深度學習。深度學習是人工智能的一個分支,以其人類語音、照片和視頻等的識別能力見長。Yahoo 就是用這項技術(shù)來識別照片中的不同內(nèi)容,以此改良 Flickr 網(wǎng)站的搜索結(jié)果。與其他網(wǎng)站不同,F(xiàn)lickr 的圖片搜索并不是靠圖片描述或是用戶輸入的關(guān)鍵詞。Yahoo 會教電腦如何識別照片的某種特征,例如特定的顏色,甚至是物體或動物。
在最近幾個月里,Google 開放了深度學習網(wǎng)絡 TensorFlow 的源代碼,Microsoft 開放了類似的網(wǎng)絡 CNTK,F(xiàn)acebook 分享了人工智能硬件設計,中國搜索引擎巨頭百度也公開了深度學習訓練軟件。
這些開源技術(shù)項目都各自有所側(cè)重,偏向不同。例如 Yahoo 的目的是要在現(xiàn)存的系統(tǒng)上運行深度學習,避免把數(shù)據(jù)從一個地方傳輸?shù)搅硪粋€地方。Yahoo 的構(gòu)架副總裁 Andy Fent 向我們解釋,訓練深度學習系統(tǒng)識別圖片需要巨量的數(shù)據(jù)信息。你得往算法里放大量的例子,越多越好,比如如果是一只貓的話,系統(tǒng)要足夠的圖才會「學會」辨認貓之間的共同特征,分辨貓和其他動物。
Flickr 網(wǎng)站上有成千上萬張圖片,足夠拿來訓練人工智能了。但是開發(fā)團隊不想把這些圖片從 Flickr 服務器傳送到另一層運行深度學習軟件的服務器里。于是他們發(fā)明了在已有的構(gòu)架上運行深度學習軟件的方法。
從名字上看,CaffeOnSpark 結(jié)合了兩種現(xiàn)有的科技:深度學習框架 Caffe 和大規(guī)模數(shù)據(jù)處理系統(tǒng) Spark。Yahoo 所做的就是想辦法在 Spark 層次上運行 Caffe。找到方法后,Caffe 不僅可以在 Spark 上運行,還可以兩者一起在 Hadoop 上運行。Yahoo 的開發(fā)不僅會讓人工智能開發(fā)者用更簡單熟悉的工具、省去傳送數(shù)據(jù)的麻煩過程,還能讓深度學習更方便地同時處理數(shù)個服務器的內(nèi)容。Feng 還特意告訴我們,這一點 Google 的 TensorFlow 目前還做不到,Yahoo 領(lǐng)先了一步。
Feng 說到,去年團隊在博客上發(fā)表了有關(guān) CaffeOnSpark 的帖子后,不少公司都希望 Yahoo 開放 CaffeOnSpark 的源代碼。于是他們發(fā)現(xiàn),不少公司其實服務器上都已經(jīng)具備了不少信息,但是他們不想傳送。


































