機(jī)器學(xué)習(xí)已成為大數(shù)據(jù)的基石
機(jī)器學(xué)習(xí)幾乎無(wú)處不在,即便我們沒(méi)有專程調(diào)用它們,它們也經(jīng)常出現(xiàn)在大數(shù)據(jù)應(yīng)用之中。我曾經(jīng)在博客中描述了一些典型的大數(shù)據(jù)使用案例。換句話說(shuō),這些應(yīng)用都能夠在“極端情況下”提供***的結(jié)果。在結(jié)尾部分,我還提到了拍字節(jié)級(jí)數(shù)據(jù)容量、實(shí)時(shí)數(shù)據(jù)速度和/或多結(jié)構(gòu)數(shù)據(jù)多樣性的結(jié)合。
當(dāng)時(shí)我還列出了一個(gè)應(yīng)用列表,在收集過(guò)程中刻意避開(kāi)了“機(jī)器學(xué)習(xí)分析”。主要原因是,盡管在這些使用案例中機(jī)器學(xué)習(xí)即便不是主要的,也是一個(gè)常用的工具,但是它們自身并不是一個(gè)使用案例。換句話說(shuō),它們不是一個(gè)憑借自身力量而形成的特殊應(yīng)用域。出于同樣的原因,我也沒(méi)有像大數(shù)據(jù)使用案例那樣列出模式設(shè)計(jì)、元數(shù)據(jù)管理或數(shù)據(jù)整合。但與機(jī)器學(xué)習(xí)一樣,它們也都為實(shí)現(xiàn)大數(shù)據(jù)分析應(yīng)用的價(jià)值做出了自己的貢獻(xiàn)。
機(jī)器學(xué)習(xí)對(duì)大數(shù)據(jù)應(yīng)用投資回報(bào)的貢獻(xiàn)主要體現(xiàn)在兩個(gè)方面:一是促進(jìn)數(shù)據(jù)科學(xué)家們的多產(chǎn)性;二是發(fā)現(xiàn)一些被忽視的方案,有些方案甚至遭到了***的數(shù)據(jù)科學(xué)家們的忽視。這些價(jià)值來(lái)自于機(jī)器學(xué)習(xí)的核心功能:即讓分析算法無(wú)需人類干預(yù)和顯式程序即可對(duì)***數(shù)據(jù)進(jìn)行學(xué)習(xí)。解決方案允許數(shù)據(jù)科學(xué)家們根據(jù)典型數(shù)據(jù)集創(chuàng)建一個(gè)模型,然后利用算法自動(dòng)概括和學(xué)習(xí)這些范例和新的數(shù)據(jù)源。
許多情況下,機(jī)器學(xué)習(xí)是大數(shù)據(jù)創(chuàng)新的***投資回報(bào)。對(duì)機(jī)器學(xué)習(xí)的投資能夠深化任何對(duì)企業(yè)定制的大數(shù)據(jù)案例。這是因?yàn)闄C(jī)器學(xué)習(xí)算法在容量、速度和類型(即大數(shù)據(jù)的3個(gè)V特性)中正變得日益高效。正如Mark van Rijmenam在近期有關(guān)機(jī)器學(xué)習(xí)的文章中所說(shuō)的那樣:“處理的數(shù)據(jù)越多,這種算法就越能體現(xiàn)出優(yōu)勢(shì)。”他認(rèn)為,包括語(yǔ)音與面部識(shí)別、點(diǎn)擊流處理、搜索引擎優(yōu)化、推薦引擎在內(nèi),許多機(jī)器學(xué)習(xí)應(yīng)用可能被描述為意會(huì)分析法(sense-making analytics)。
意會(huì)分析法需要對(duì)從數(shù)據(jù)流中推斷出來(lái)的用戶語(yǔ)義方式、內(nèi)容和重要性進(jìn)行持續(xù)監(jiān)控。為了支持意會(huì)的自動(dòng)化,機(jī)器學(xué)習(xí)算法必須要經(jīng)常性地處理一些極為復(fù)雜的東西。這其中包括組成對(duì)象或環(huán)境中隱藏的語(yǔ)義分類,這需要通過(guò)多種不同的數(shù)據(jù)流實(shí)時(shí)收集整體含義。這些數(shù)據(jù)流必須包括不同的對(duì)象,例如數(shù)據(jù)、視頻、圖像、語(yǔ)音、表情、動(dòng)作、地理信息和瀏覽器點(diǎn)擊等元素。通過(guò)機(jī)器學(xué)習(xí)從這些數(shù)據(jù)流中自動(dòng)提取出來(lái)的含義,可能會(huì)混合有認(rèn)知、情感、感覺(jué)和意志特征。
為了在這些素材當(dāng)中找到線索,“深入學(xué)習(xí)”(deep learning)成為了大數(shù)據(jù)科學(xué)家的機(jī)器學(xué)習(xí)指令系統(tǒng)中的一個(gè)重要工具。正如van Rijmenam所說(shuō)的那樣,利用神經(jīng)網(wǎng)絡(luò)開(kāi)展的深入學(xué)習(xí)有助于從這些數(shù)據(jù)流中提取感知能力,因?yàn)檫@些數(shù)據(jù)流可能涉及組成對(duì)象之間語(yǔ)義關(guān)系的層次結(jié)構(gòu)安排。“深入學(xué)習(xí)能夠打破數(shù)據(jù)中具有不同特點(diǎn)的組成成分之間的隔閡,利用這些特點(diǎn)從中找出不同的特征組合,從而搞清楚它們看到了什么或者是正在做什么。”van Rijmenam說(shuō)。
顯然,對(duì)于創(chuàng)建能夠感知和處理動(dòng)態(tài)分布式方案的環(huán)境來(lái)說(shuō),機(jī)器學(xué)習(xí)一個(gè)基礎(chǔ)性工具。人類對(duì)實(shí)時(shí)威脅和恐怖主義活動(dòng)、自然災(zāi)難、颶風(fēng)等其他威脅的偵測(cè)與應(yīng)對(duì)能力,取決于對(duì)海量數(shù)據(jù)中的信息進(jìn)行自動(dòng)篩選、分類和關(guān)聯(lián)。如果沒(méi)有這種能力,那么人類就有被“淹死”在大數(shù)據(jù)海洋之中的危險(xiǎn)。
36大數(shù)據(jù)知識(shí)圖譜:關(guān)于機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。
它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。