數(shù)據(jù)騙子無(wú)處不在,教你拆穿所謂“萬(wàn)金油”
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
數(shù)據(jù)分析師、機(jī)器學(xué)習(xí)/人工智能工程師、統(tǒng)計(jì)學(xué)家,這樣的頭銜是不是聽起來(lái)很高大上?但小心別被騙了!高薪誘惑之下,不少數(shù)據(jù)騙子也隱藏在其中,這些騙子毀了遵紀(jì)守法的數(shù)據(jù)專業(yè)人士的好名聲。
數(shù)據(jù)騙子非常善于在眾目睽睽之下隱藏自己,你甚至可能都沒有意識(shí)到他們的存在,他們有可能就藏身于你的公司當(dāng)中、不過(guò)還好,如果你知道該找些什么線索,那么他們是很容易識(shí)別的。第一點(diǎn)線索就是,他們無(wú)法理解分析學(xué)和統(tǒng)計(jì)學(xué)是兩個(gè)截然不同的學(xué)科。
不同的學(xué)科
統(tǒng)計(jì)學(xué)家接受的訓(xùn)練是推斷數(shù)據(jù)之外的內(nèi)容,而分析師接受的訓(xùn)練是探究數(shù)據(jù)集中的內(nèi)容。換句話說(shuō),分析師根據(jù)數(shù)據(jù)中包含的內(nèi)容得出結(jié)論,而統(tǒng)計(jì)學(xué)家根據(jù)未包含于數(shù)據(jù)中的內(nèi)容得出結(jié)論。分析師幫助你提出好問(wèn)題(假設(shè)生成),而統(tǒng)計(jì)學(xué)家?guī)椭惬@得理想答案(假設(shè)測(cè)試)。
還有一些神奇的“混血”,會(huì)擁有兩種身份……但他們不會(huì)同時(shí)扮演這兩種角色。為什么呢?數(shù)據(jù)科學(xué)的一條核心原則是,如果要處理不確定性,則不能使用相同的數(shù)據(jù)點(diǎn)進(jìn)行假設(shè)生成和假設(shè)測(cè)試。數(shù)據(jù)有限時(shí),不確定性會(huì)迫使你在統(tǒng)計(jì)學(xué)和分析學(xué)之間做出選擇。
沒有統(tǒng)計(jì)學(xué),就無(wú)法知道自己剛剛產(chǎn)生的觀點(diǎn)是否站得住腳。沒有分析學(xué),就只能在摸索中前進(jìn),幾乎無(wú)法掌握未知的未知。
這是一個(gè)艱難的選擇!是睜開雙眼接受靈感(分析學(xué)),發(fā)誓放棄知道新發(fā)現(xiàn)是否能站住腳的滿足感,還是冒著冷汗祈禱自己選擇要問(wèn)的(在沒有任何數(shù)據(jù)的情況下,一個(gè)人在雜物室里冥思苦想出來(lái)的)問(wèn)題值得自己即將得到的嚴(yán)密答案(統(tǒng)計(jì)學(xué))?
“兜售”后見之明的小販
騙子擺脫這種困境的方式是對(duì)其視而不見,發(fā)現(xiàn)一片薯片長(zhǎng)得像貓王,然后假裝對(duì)這一事實(shí)感到驚訝。(統(tǒng)計(jì)假設(shè)測(cè)試的邏輯可以歸結(jié)為:我們的數(shù)據(jù)是否讓我們驚訝到改變自己的想法。如果我們已經(jīng)見過(guò)這些數(shù)據(jù),我們又怎么會(huì)對(duì)它們感到驚訝呢?)
在你看來(lái),圖片中的云朵和薯片長(zhǎng)得像兔子還是像貓王呢?亦或是像某一位總統(tǒng)?
騙子發(fā)現(xiàn)一個(gè)模式并從中得到啟發(fā),然后以相同的模式測(cè)試相同的數(shù)據(jù),為的是用一到兩個(gè)合理的p值生成可驗(yàn)證其理論的結(jié)果,他們這樣做實(shí)際上是在欺騙你(可能也是在欺騙他們自己)。這樣的p值沒有任何意義,除非在查看數(shù)據(jù)之前對(duì)假設(shè)作出承諾。
騙子模仿分析師和統(tǒng)計(jì)學(xué)家的一舉一動(dòng),卻并不明白其中緣由,這為整個(gè)數(shù)據(jù)科學(xué)領(lǐng)域帶來(lái)了不好的聲譽(yù)。
真正的統(tǒng)計(jì)學(xué)家總是謹(jǐn)慎行事
由于統(tǒng)計(jì)學(xué)家在嚴(yán)密的推理方面享有近乎神秘的聲譽(yù),“萬(wàn)金油”在數(shù)據(jù)科學(xué)領(lǐng)域的出現(xiàn)頻率創(chuàng)下了歷史新高。這種騙術(shù)不易被人發(fā)覺,尤其是在那些毫無(wú)防備的受害者認(rèn)為這正關(guān)系到方程和數(shù)據(jù)的時(shí)候。數(shù)據(jù)集就是數(shù)據(jù)集,對(duì)嗎?錯(cuò),要看你如何使用數(shù)據(jù)集。
這些騙子身上都帶有冒牌貨的標(biāo)志,你只需要一個(gè)線索就可以識(shí)破他們的真面目:騙子只有后見之明——用數(shù)學(xué)重新發(fā)現(xiàn)他們已經(jīng)知道的存在于數(shù)據(jù)中的現(xiàn)象,而統(tǒng)計(jì)學(xué)家提供的是具有先見之明的測(cè)試。
與騙子不同,優(yōu)秀的分析師是思想開放的典范,總是將鼓舞人心的見解與提醒相結(jié)合,提醒人們觀察到的某種現(xiàn)象可能有多種不同的解釋,而優(yōu)秀的統(tǒng)計(jì)學(xué)家則會(huì)謹(jǐn)慎地做出決定。
分析師帶來(lái)靈感
分析師不必負(fù)責(zé)一切,他們要根據(jù)數(shù)據(jù)中包含的內(nèi)容得出結(jié)論。如果他們想對(duì)沒見過(guò)的事物提出觀點(diǎn),那他們擔(dān)任的就是另一種工作了。他們應(yīng)該摘下分析師的“帽子”,帶上“統(tǒng)計(jì)學(xué)家”的頭盔。畢竟,無(wú)論你的正式職位是什么,都沒有這樣一條規(guī)則說(shuō)你不能投身兩種行業(yè)。只要你想,就可以這么做,只是不要把它們弄混了。
騙子怎樣測(cè)試假設(shè)
擅長(zhǎng)統(tǒng)計(jì)并不意味著擅長(zhǎng)分析,反之亦然。如果有人跟你說(shuō)的與之相反,請(qǐng)自行思考。如果這個(gè)人告訴你,你可以對(duì)你研究過(guò)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)推斷,請(qǐng)?jiān)俅螁?wèn)問(wèn)自己。他很有可能是個(gè)騙子。
隱藏在天花亂墜的解釋背后
如果你在現(xiàn)實(shí)生活中觀察數(shù)據(jù)騙子,你會(huì)發(fā)現(xiàn)他們喜歡編造一些天花亂墜的故事來(lái)“解釋”觀察到的數(shù)據(jù):故事聽起來(lái)越學(xué)術(shù)越好,并不在乎它們只是(過(guò)分)符合事后的數(shù)據(jù)。
騙子這樣做完全是胡扯。再多的方程甚至是夸夸其談也無(wú)法彌補(bǔ)這樣一個(gè)事實(shí):他們沒有證據(jù)表明他們知道自己談?wù)摰膬?nèi)容超過(guò)了數(shù)據(jù)的范圍。不要被他們天花亂墜的解釋蒙騙了。如果是統(tǒng)計(jì)推斷,他們就必須在看到數(shù)據(jù)之前謹(jǐn)慎做出決定。
這相當(dāng)于炫耀他們的“通靈”能力,先瞄一眼你出的牌,然后預(yù)測(cè)你手上拿著什么牌……無(wú)論你拿著什么牌,他們都能預(yù)測(cè)出來(lái)。做好準(zhǔn)備,聽聽他們的花言巧語(yǔ):你的面部表情如何將你手中的牌泄露給他們。這是后見之明偏誤,它在數(shù)據(jù)科學(xué)領(lǐng)域隨處可見。
分析師說(shuō),“這是你剛才出的方塊皇后。”統(tǒng)計(jì)學(xué)家說(shuō),“游戲開始之前,我把我的假設(shè)寫在了這張紙片上。我們開始吧,觀察一些數(shù)據(jù),看我假設(shè)得對(duì)不對(duì)。”騙子說(shuō),“我早知道你要出方塊皇后,因?yàn)?hellip;…”
機(jī)器學(xué)習(xí)說(shuō),“我要一直提前調(diào)用它,看看我完成得如何。然后重復(fù)再重復(fù)。我可能會(huì)調(diào)整自己的反應(yīng),從而適應(yīng)某個(gè)有效的策略。但我會(huì)用某個(gè)算法來(lái)完成這一過(guò)程,因?yàn)槭謩?dòng)追蹤這一切實(shí)在太煩人了,”
阻止騙子進(jìn)入你的生活
要處理的數(shù)據(jù)不算太多時(shí),你必須要在統(tǒng)計(jì)學(xué)和分析學(xué)之間做出選擇。幸運(yùn)的是,如果你有大量數(shù)據(jù),那么你將有一個(gè)絕妙的機(jī)會(huì)來(lái)利用自己的分析和統(tǒng)計(jì)信息,而不會(huì)上當(dāng)受騙。你還可以通過(guò)一個(gè)完美的計(jì)策來(lái)讓自己免受騙子侵害,這叫做“數(shù)據(jù)拆分”,筆者認(rèn)為這是數(shù)據(jù)科學(xué)中最強(qiáng)大的思想。
為保護(hù)自己免受騙子侵害,你要做的就是確保某些測(cè)試數(shù)據(jù)處于他們可窺探到的范圍之外,然后將其他所有內(nèi)容看作分析學(xué)(不要當(dāng)真)。當(dāng)你面對(duì)某種你可能會(huì)全盤接受的理論時(shí),可以用它來(lái)替你做主,然后打開你的秘密測(cè)試數(shù)據(jù),看看這個(gè)理論是不是一派胡言。
從人們習(xí)慣的時(shí)代到“小數(shù)據(jù)”時(shí)代,這是一個(gè)巨大的文化轉(zhuǎn)變,你必須解釋自己是如何知道自己所知道的東西,才能以一種輕松的方式-說(shuō)服人們,你可能確實(shí)知道一些東西。
同樣的道理也適用于機(jī)器學(xué)習(xí)/人工智能
一些偽裝成機(jī)器學(xué)習(xí)/人工智能專家的騙子很容易被識(shí)破。你可以通過(guò)識(shí)破蹩腳工程師的方法來(lái)識(shí)破他們:他們反復(fù)嘗試構(gòu)建的“解決方案”無(wú)法交付。(較早的預(yù)警信號(hào)是他們?nèi)狈π袠I(yè)標(biāo)準(zhǔn)編程語(yǔ)言和庫(kù)的經(jīng)驗(yàn)。)
但是那些構(gòu)建出看上去可以正常運(yùn)行的系統(tǒng)的人呢?你怎么知道事情是否有可疑之處?同樣的道理也適用于此!騙子是陰險(xiǎn)的,他會(huì)向你展示他們的模型有多好,用的是他們制作模型時(shí)使用的數(shù)據(jù)。如果你構(gòu)建了一個(gè)極其復(fù)雜的機(jī)器學(xué)習(xí)系統(tǒng),你怎么知道它能不能正常運(yùn)行呢?你沒法知道,除非你能證明它可以處理以前從未見過(guò)的新數(shù)據(jù)。
有足夠的數(shù)據(jù)可以分割時(shí),無(wú)需改變工整的公式即可證明項(xiàng)目的合理性(這仍然是一種老習(xí)慣,在任何地方都可以看到,不僅僅是在科學(xué)領(lǐng)域)。
進(jìn)行統(tǒng)計(jì)工作或保持謙虛的態(tài)度
套用經(jīng)濟(jì)學(xué)家保羅·薩繆爾森(Paul Samuelson)的一句俏皮話:騙子成功預(yù)測(cè)了最近五次衰退中的九次衰退。
筆者對(duì)數(shù)據(jù)騙子沒有耐心。“了解”一些長(zhǎng)得像貓王的薯片又怎樣?沒人在乎你的觀點(diǎn)是不是符合原來(lái)的“薯片”。解釋再天花亂墜,筆者也不為所動(dòng)??纯蠢碚?模型能不能適用于(而且能夠一直適用于)一大堆從未見過(guò)的新“薯片”,這才是對(duì)該觀點(diǎn)的真正考驗(yàn)。
給數(shù)據(jù)科學(xué)專業(yè)人士的建議
數(shù)據(jù)科學(xué)專業(yè)人士,如果你想得到那些明白此處幽默的人的重視,請(qǐng)不要再用花哨的方程式來(lái)支持你的個(gè)人偏見。讓我們看看你的真才實(shí)學(xué)。如果你想讓那些“了解”你理論/模型的人將這些理論/模型看作是鼓舞人心的詩(shī)歌,那么就請(qǐng)大膽地在他們面前用全新的數(shù)據(jù)集進(jìn)行一次偉大的展示吧!
給領(lǐng)導(dǎo)者的建議
領(lǐng)導(dǎo)者不愿認(rèn)真看待任何與數(shù)據(jù)有關(guān)的“見解”,除非這些見解已經(jīng)通過(guò)了新數(shù)據(jù)的測(cè)試。不想付出努力嗎?要堅(jiān)持利用分析學(xué),但不要依賴于這些見解——它們站不住腳,而且其可信度尚未通過(guò)檢查。
此外,公司擁有大量數(shù)據(jù)時(shí),將分割數(shù)據(jù)作為科學(xué)文化的核心部分,甚至通過(guò)對(duì)專用于統(tǒng)計(jì)數(shù)據(jù)的測(cè)試數(shù)據(jù)的訪問(wèn)加以控制,從而將其應(yīng)用于基礎(chǔ)架構(gòu),這不會(huì)有任何壞處。這是一個(gè)將“萬(wàn)金油”扼殺于搖籃之中的好辦法!
數(shù)據(jù)過(guò)少而無(wú)法分割時(shí),只有數(shù)據(jù)騙子才會(huì)嚴(yán)格追隨他們的靈感,用數(shù)學(xué)方法重新發(fā)現(xiàn)他們已知的存在于數(shù)據(jù)中的現(xiàn)象,宣稱他們的驚人發(fā)現(xiàn)具有統(tǒng)計(jì)學(xué)意義,這便是后見之明。這讓他們有別于思想開放的分析師和細(xì)心的統(tǒng)計(jì)學(xué)家。
數(shù)據(jù)充足時(shí),要養(yǎng)成數(shù)據(jù)分割的習(xí)慣,一定要對(duì)原始數(shù)據(jù)堆的不同子集分別進(jìn)行分析和統(tǒng)計(jì)。這樣你就可以在不受騙的情況下占據(jù)雙重優(yōu)勢(shì)了!