大數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)人工智能的維恩圖戰(zhàn)爭(zhēng)
馬上要召開半年會(huì)了,老板說(shuō),大家要做好規(guī)劃,以后我們方向不再是機(jī)器學(xué)習(xí)了,而是人工智能。原話怎么說(shuō)的,我已經(jīng)忘記,只記得當(dāng)時(shí)聽著特別難受,于是我當(dāng)場(chǎng)就提出了,到底什么是機(jī)器學(xué)習(xí)?什么是人工智能?BD小姑娘特別積極說(shuō),我知道我知道,就去黑板上畫了三個(gè)方塊。類似下面的這樣:
這也不是原圖,類似這樣的意思,比較簡(jiǎn)略的關(guān)系。(記憶真是太不靠譜的東西!)我不以為然,***想到的圖是題圖,也很簡(jiǎn)略地去白板上畫了下,每個(gè)人同學(xué)又各抒己見了下,引起一片笑聲。雖然這個(gè)事情就過(guò)去,但是我這個(gè)人,在這種場(chǎng)景下,就沒(méi)有“過(guò)去”,因?yàn)槲沂且粋€(gè)特別糾結(jié)概念的人。
回來(lái)一搜,不得了,原來(lái),搞不清楚這些術(shù)語(yǔ)邊界的人可真不少,很多本身就是這個(gè)領(lǐng)域的學(xué)者和研究者,就是說(shuō),連專業(yè)的人士都眾說(shuō)紛紜,互不能信服,真是太逗了,甚至有篇文章,叫《Battle of the Data Science Venn Diagrams》 [1] 這篇文章里,搜集了很多的維恩圖,不打算一一轉(zhuǎn)載,各位可以自行觀看。
挑一些我個(gè)人比較感興趣的圖說(shuō)說(shuō)吧。
這張圖也就是題圖,據(jù)說(shuō),來(lái)自 SAS 公司在 KDD1998* 提供的數(shù)據(jù)挖掘基礎(chǔ)課程中的一副圖[2]。很多辨析這幾個(gè)領(lǐng)域的Slides,還有一些技術(shù)人士做的 PPT 里,會(huì)引用這張圖,因?yàn)?SAS 是全球***的軟件公司之一,是商業(yè)智能和數(shù)據(jù)分析軟件的***,所以,他們的觀點(diǎn)不能說(shuō)是不權(quán)威。
這幅圖里,以數(shù)據(jù)挖掘(Data Mining)為核心,當(dāng)然因?yàn)檫@是 KDD 會(huì)議的講稿,所以圖里還有 KDD 的一個(gè)圈圈,哈。模式識(shí)別(Pattern Recognition)和神經(jīng)計(jì)算(Neurocomputing)這倆,我基本完全沒(méi)概念,就不討論了。這圖里有意思的是統(tǒng)計(jì)學(xué)(Statistics)、機(jī)器學(xué)習(xí)(Machine Learning)和人工智能(AI)的關(guān)系。以 SAS 的觀點(diǎn)來(lái)看,人工智能是完全包含了機(jī)器學(xué)習(xí)的內(nèi)容的,機(jī)器學(xué)習(xí)根本就是人工智能的子學(xué)科。而統(tǒng)計(jì)學(xué)跟這倆基本沒(méi)有交集,但是仔細(xì)點(diǎn)看看,不是完全無(wú)關(guān),完全無(wú)關(guān)是像數(shù)據(jù)庫(kù)(Databases)的表達(dá)方式,離得遠(yuǎn)遠(yuǎn)的,也即,機(jī)器學(xué)習(xí)和人工智能,跟統(tǒng)計(jì)有關(guān)系,也僅僅一丁點(diǎn)而已,哈!
另有一幅圖,派生自這幅圖。
這幅圖的作者 Brendan Tierney,查了一下也是一個(gè)行業(yè)資深人士,曾在 Oracle 工作過(guò),現(xiàn)在是咨詢師,很多 Quroa 答案啊,行業(yè)文章啊,引用這張圖也比較多,這圖本質(zhì)上不是說(shuō)領(lǐng)幾個(gè)屬于的邊界問(wèn)題的,標(biāo)題也可以看出來(lái),不過(guò)也引發(fā)了不少人討論(呵呵)。Brendan 2012年發(fā)表了博客[3],2016年回來(lái)更新說(shuō),中間的維恩圖呢,是數(shù)據(jù)挖掘領(lǐng)域很常見的圖啦(然而我沒(méi)找到原圖),他隨便引用的,并且他認(rèn)為派生自上面 KDD1998 那圖(可我覺得不是),他自己加了外面一圈東西才是他想表達(dá)的。
這圖里,取消了數(shù)據(jù)挖掘和模式識(shí)別的交集,正中間換成了數(shù)據(jù)可惜,新增了可視化,還真是…… 2010年有一篇博客[4],引用這幅圖,辨析了數(shù)據(jù)科學(xué),數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)三者,也挺值得一看的。
下面這幅維恩圖,定義了什么是數(shù)據(jù)科學(xué)。
繪制這幅圖的,是一個(gè)叫 Drew Conway 的伙計(jì),他是紐約技術(shù)社群里的一位類似意見***的人物。維基百科對(duì)他的介紹[5],他竟然因?yàn)槔L制了上面的圖而成名,被記入維基百科,另一個(gè)因素是把大數(shù)據(jù)應(yīng)用于恐怖主義研究,當(dāng)然,畫出這幅圖還排在研究恐怖主義前面,大家能領(lǐng)會(huì)吧?
據(jù) Battle 文說(shuō),這圖繪制于2010年,但是2013年才在博客發(fā)表[6],博客的歸檔時(shí)間和聲稱發(fā)表時(shí)間,確實(shí)能看到這兩個(gè)時(shí)間點(diǎn)。據(jù)說(shuō)就是這個(gè)圖,點(diǎn)燃了 Battle,也是 Battle 文中的***幅圖。
這幅圖,讓人注意的兩個(gè)點(diǎn),***個(gè)是 Substantive Expertise,第二個(gè)是危險(xiǎn)區(qū)域(Danger Zone!),哈哈,前者看到感受是“草,什么鬼,這英語(yǔ)我不認(rèn)識(shí)啊”,后者感受是“神秘啊!”。大可不必為英語(yǔ)看不懂而臉紅,Battle 文作者,也覺得這倆詞選得不好,很操蛋啊(……all I can say, is if Conway meant something other than what I would call domain knowledge (e.g. physics), he chose the name Substantive Expertise very poorly.)當(dāng)然還有一重很重要的可能性,就是咱們都沒(méi)有 Conway 老哥有文化,人家另一重身份是紐約大學(xué)的 Political Science 的博士啊!
于是沒(méi)文化的技術(shù)民工,將 Conway 老哥的圖改得可愛了一點(diǎn)[7]。
這幅圖我倒是覺得更呵呵一點(diǎn)了。當(dāng)然,值得肯定的是三個(gè)圈在我四級(jí)的英語(yǔ)能力下,確實(shí)更容易看懂一些了。但是,數(shù)據(jù)科學(xué)從中央被移走了什么鬼?而且中央?yún)^(qū)域放入了一個(gè)什么鬼?好吧。“數(shù)學(xué)和統(tǒng)計(jì)知識(shí)”被換成了“量化方法”?“駭客能力”被換成了“計(jì)算機(jī)科學(xué)”?這倆的替換方法看,基本上也可以判斷,第三個(gè)被換的,也高明不到哪里去,所以這個(gè)老哥可沒(méi)有因?yàn)檫@幅圖被收錄維基百科。那個(gè)問(wèn)號(hào),據(jù)說(shuō)是對(duì)危險(xiǎn)區(qū)域不太能接受,所以替換成問(wèn)號(hào)了。
看一個(gè)集大成者的圖[8]。
干脆加了一個(gè)圈圈叫 Evil(魔鬼?),當(dāng)然了,多了很多什么鬼的英語(yǔ),我能看懂的就不多了,難道邦德大哥也來(lái)客串了?
還是沉溺到了數(shù)據(jù)科學(xué)領(lǐng)域的 Battle,無(wú)奈。這幅圖也是來(lái)自那篇文章。
這幅圖,是最為切題的一副圖了吧,大數(shù)據(jù),數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能全都提到了,應(yīng)該做題圖才對(duì)啊!(我也是無(wú)奈)[9]。感覺這幅圖,提供了一種全新的視角來(lái)看待問(wèn)題,把 Conway 老哥著名的圖里,那些更主觀,更模糊的東西砍掉了,留下了客觀的,跟數(shù)據(jù)有關(guān)的,跟技術(shù)有關(guān)的東西,幾個(gè)術(shù)語(yǔ),確實(shí)可以在一個(gè)層次上去比較了。文章自稱解決了大 Puzzle 的一部分。
文章辨析了幾個(gè)術(shù)語(yǔ)的一些意思和簡(jiǎn)史,也提供了另一幅我很喜歡的圖。
說(shuō)實(shí)在,這才是到目前為止我最喜歡的圖,不但提供了作者對(duì)于概念內(nèi)涵外延的闡釋,還把不同概念之間的作用關(guān)系給解釋了。真是太棒了!
還有一篇文章我也比較喜歡,比如這篇[10]辨析了機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的異同點(diǎn)。文章認(rèn)為,統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)兩者,有著相同的目標(biāo)(在咱們討論的這個(gè)方面),就是“我們能從數(shù)據(jù)中學(xué)到什么”,而不同的是兩者的方法。這篇文章里也引用了題圖。文章中引述的一種觀點(diǎn)認(rèn)為,機(jī)器學(xué)習(xí)方法,不需要任何前置假設(shè),不關(guān)心各種變量?jī)?nèi)在的聯(lián)系,只要一股腦丟到算法里面就可以了,算法更像一個(gè)黑盒子。你的數(shù)據(jù)越多,預(yù)測(cè)越準(zhǔn)。機(jī)器學(xué)習(xí)方法,通常應(yīng)用在一些高維的數(shù)據(jù)集上。
而統(tǒng)計(jì)學(xué),特別注重?cái)?shù)據(jù)的采集方式,樣本的各種屬性的分布,你必須精確地知道你到底在干什么以及到底有什么變量來(lái)提供預(yù)測(cè)能力。統(tǒng)計(jì)學(xué)方法,通常應(yīng)用于低維的數(shù)據(jù)集上。
當(dāng)然,結(jié)合目前的工作,很容易就發(fā)現(xiàn),雖然我們使用的是機(jī)器學(xué)習(xí)方法,我們卻十分關(guān)心統(tǒng)計(jì)學(xué)要求的那些領(lǐng)域,我們也關(guān)注數(shù)據(jù)取得的方式,屬性的分布特征等等問(wèn)題。所以,也正如文中的結(jié)論,兩者的區(qū)別在日益變小,而且在未來(lái)可能越來(lái)越難以區(qū)分。(而這半句,是我加的,我覺得在工業(yè)界會(huì)是這樣)
還有一幅圖,我也挺喜歡。
這幅圖,介紹了機(jī)器學(xué)習(xí)的整個(gè)過(guò)程[11]。我覺得也是很重要的。
總結(jié)
基本上,數(shù)據(jù)科學(xué)這門學(xué)科到底涵蓋些什么內(nèi)容,其邊界是模糊的。對(duì)于一個(gè)新興的學(xué)科來(lái)說(shuō),這一點(diǎn)都不奇怪。我們有一點(diǎn)是確認(rèn)的,這是一個(gè)綜合性很強(qiáng)的交叉學(xué)科。大數(shù)據(jù)也是一個(gè)寬泛的概念。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)則是內(nèi)涵外延比較明確的概念,公認(rèn)有包含關(guān)系。人工智能則是更大的范疇,但是人工智能和大數(shù)據(jù)、數(shù)據(jù)科學(xué)都不是一回事情。
- [1]Battle of the Data Science Venn Diagrams,http://www.prooffreader.com/2016/09/battle-of-data-science-venn-diagrams.html
- [2]Looking backwards, looking forwards: SAS, data mining, and machine learning,https://blogs.sas.com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-forwards-sas-data-mining-and-machine-learning/
- [3]Data Science Is Multidisciplinary, http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html
- [4]Difference of Data Science, Machine Learning and Data Mining, https://www.datasciencecentral.com/profiles/blogs/difference-of-data-science-machine-learning-and-data-mining
- [5]https://en.wikipedia.org/wiki/Drew_Conway
- [6]THE DATA SCIENCE VENN DIAGRAM, http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
- [7]Data Science in Business/Computational Social Science in Academia? http://giventhedata.blogspot.ca/2013/03/data-science-in-businesscomputational.html
- [8]http://joelgrus.com/2013/06/09/post-prism-data-science-venn-diagram/
- [9]The Data Science Puzzle, Explained, https://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html
- [10]http://www.edvancer.in/machine-learning-vs-statistics/
- [11]https://imarticus.org/what-is-machine-learning-and-does-it-matter/
- [*]KDD 是 SIGKDD 簡(jiǎn)寫,Special Interest Group(SIG) on Knowledge Discovery and Data Mining