趣文:如何向外行解釋機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘
有網(wǎng)友在 Quora 上提問(wèn):對(duì)于那些非計(jì)算機(jī)科學(xué)行業(yè)的人,你會(huì)如何向他們解釋機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘? 斯坦福大學(xué)的印度學(xué)生、機(jī)器學(xué)習(xí)愛(ài)好者 Pararth Shah 在2012年12月22日的回復(fù),非常經(jīng)典,得贊數(shù)有 3700+。
買(mǎi)點(diǎn)芒果去
假設(shè)有一天你準(zhǔn)備去買(mǎi)點(diǎn)芒果。有個(gè)小販擺放了一車(chē)。你可以一個(gè)一個(gè)挑,然后小販根據(jù)你挑的芒果的斤兩來(lái)算錢(qián)(在印度的典型情況)。顯然,你想挑最甜最熟的芒果對(duì)吧(因?yàn)樾∝準(zhǔn)前疵⒐闹亓縼?lái)算錢(qián),而不是按芒果的品質(zhì)來(lái)算錢(qián)的)??墒悄銣?zhǔn)備怎么挑呢?
你記得奶奶和你說(shuō)過(guò), 嫩黃的芒果比暗黃的甜。 所以你有了一個(gè)簡(jiǎn)單的判斷標(biāo)準(zhǔn):只挑嫩黃的芒果。你檢查各個(gè)芒果的顏色, 挑了些嫩黃的,買(mǎi)單,走人,爽不?
可沒(méi)那么簡(jiǎn)單。
生活是很復(fù)雜的
你回到家,開(kāi)始慢慢品嘗你的芒果。你發(fā)現(xiàn)有一些芒果沒(méi)有想的那么甜。你焦慮了。顯然,奶奶的智慧不夠啊。挑芒果可不是看看顏色那么簡(jiǎn)答的。
經(jīng)過(guò)深思熟慮(并且嘗了各種不同類(lèi)型的芒果), 你發(fā)現(xiàn)那些大個(gè)兒的,嫩黃的芒果絕對(duì)是甜的,而小個(gè)兒,嫩黃的芒果,只有一半的時(shí)候是甜的(比如你買(mǎi)了100個(gè)嫩黃的芒果,50個(gè)比較大,50個(gè)比較小, 那么你會(huì)發(fā)現(xiàn)50個(gè)大個(gè)兒的芒果是甜的,而50個(gè)小個(gè)兒的芒果,平均只有25個(gè)是甜的)。
你對(duì)自己的發(fā)現(xiàn)非常開(kāi)心,下次去買(mǎi)芒果的時(shí)候你就將這些規(guī)則牢牢的記在心里。但是下次再來(lái)到市集的時(shí)候,你發(fā)現(xiàn)你最喜歡的那家芒果攤搬出了鎮(zhèn)子。于 是你決定從其它賣(mài)芒果的小販那里購(gòu)買(mǎi)芒果,但是這位小販的芒果和之前那位產(chǎn)地不同?,F(xiàn)在,你突然發(fā)現(xiàn)你之前學(xué)到的挑芒果辦法(大個(gè)兒的嫩黃的芒果最甜)又 行不通了。你得從頭再學(xué)過(guò)。你在那位小販那里,品嘗了各類(lèi)芒果,你發(fā)現(xiàn)在這里,小個(gè)兒、暗黃的芒果其實(shí)才是最甜的。
沒(méi)多久,你在其它城市的遠(yuǎn)房表妹來(lái)看你。你準(zhǔn)備好好請(qǐng)她吃頓芒果。但是她說(shuō)芒果甜不甜無(wú)所謂,她要的芒果一定要是最多汁的。于是,你又用你的方法品嘗了各種芒果,發(fā)現(xiàn)比較軟的芒果比較多汁。
之后,你搬去了其它國(guó)家。在那里,芒果吃起來(lái)和你家鄉(xiāng)的味道完全不一樣。你發(fā)現(xiàn)綠芒果其實(shí)比黃芒果好吃。
再接著,你娶了一位討厭芒果的太太。她喜歡吃蘋(píng)果。你得天天去買(mǎi)蘋(píng)果。于是,你之前積累的那些挑芒果的經(jīng)驗(yàn)一下子變的一文不值。你得用同樣的方法,去學(xué)習(xí)蘋(píng)果的各項(xiàng)物理屬性和它的味道間的關(guān)系。你確實(shí)這樣做了,因?yàn)槟銗?ài)她。
有請(qǐng)計(jì)算機(jī)程序出場(chǎng)
現(xiàn)在想象一下,最近你正在寫(xiě)一個(gè)計(jì)算機(jī)程序幫你挑選芒果(或者蘋(píng)果)。你會(huì)寫(xiě)下如下的規(guī)則:
if(顏色是嫩黃 and 尺寸是大的 and 購(gòu)自最喜歡的小販): 芒果是甜的
if(軟的): 芒果是多汁的
等等等等。
你會(huì)用這些規(guī)則來(lái)挑選芒果。你甚至?xí)屇愕男〉苋グ凑者@個(gè)規(guī)則列表去買(mǎi)芒果,而且確定他一定會(huì)買(mǎi)到你滿(mǎn)意的芒果。
但是一旦在你的芒果實(shí)驗(yàn)中有了新的發(fā)現(xiàn), 你就不得不手動(dòng)修改這份規(guī)則列表。你得搞清楚影響芒果質(zhì)量的所有因素的錯(cuò)綜復(fù)雜的細(xì)節(jié)。
如果問(wèn)題越來(lái)越復(fù)雜, 則你要針對(duì)所有的芒果類(lèi)型,手動(dòng)地制定挑選規(guī)就變得非常困難。你的研究將讓你拿到芒果科學(xué)的博士學(xué)位(如果有這樣的學(xué)位的話(huà))。
可誰(shuí)有那么多時(shí)間去做這事兒呢。
有請(qǐng)機(jī)器學(xué)習(xí)算法
機(jī)器學(xué)習(xí)算法是由普通的算法演化而來(lái)。通過(guò)自動(dòng)地從提供的數(shù)據(jù)中學(xué)習(xí),它會(huì)讓你的程序變得更“聰明”。
你從市場(chǎng)上的芒果里隨機(jī)的抽取一定的樣品(訓(xùn)練數(shù)據(jù)), 制作一張表格, 上面記著每個(gè)芒果的物理屬性, 比如顏色, 大小, 形狀, 產(chǎn)地, 賣(mài)家, 等等。(這些稱(chēng)之為特征)。
還記錄下這個(gè)芒果甜不甜, 是否多汁,是否成熟(輸出變量)。你將這些數(shù)據(jù)提供給一個(gè)機(jī)器學(xué)習(xí)算法(分類(lèi)算法/回歸算法),然后它就會(huì)學(xué)習(xí)出一個(gè)關(guān)于芒果的物理屬性和它的質(zhì)量之間關(guān)系的模型。
下次你再去市集, 只要測(cè)測(cè)那些芒果的特性(測(cè)試數(shù)據(jù)),然后將它輸入一個(gè)機(jī)器學(xué)習(xí)算法。算法將根據(jù)之前計(jì)算出的模型來(lái)預(yù)測(cè)芒果是甜的,熟的, 并且/還是多汁的。
該算法內(nèi)部使用的規(guī)則其實(shí)就是類(lèi)似你之前手寫(xiě)在紙上的那些規(guī)則(例如, 決策樹(shù)),或者更多涉及到的東西,但是基本上你就不需要擔(dān)心這個(gè)了。
瞧,你現(xiàn)在可以滿(mǎn)懷自信的去買(mǎi)芒果了,根本不用考慮那些挑選芒果的細(xì)節(jié)。更重要的是,你可以讓你的算法隨著時(shí)間越變?cè)胶茫ㄔ鰪?qiáng)學(xué)習(xí)),當(dāng)它讀進(jìn)更多 的訓(xùn)練數(shù)據(jù), 它就會(huì)更加準(zhǔn)確,并且在做了錯(cuò)誤的預(yù)測(cè)之后自我修正。但是最棒的地方在于,你可以用同樣的算法去訓(xùn)練不同的模型, 比如預(yù)測(cè)蘋(píng)果質(zhì)量的模型, 桔子的,香蕉的,葡萄的,櫻桃的,西瓜的,讓所有你心愛(ài)的人開(kāi)心:)
這,就是專(zhuān)屬于你的機(jī)器學(xué)習(xí),是不是很酷啊。
機(jī)器學(xué)習(xí):讓你的算法更聰明, 所以你就可以偷懶嘍