?譯者 | 朱先忠
審校 | 孫淑娟
1.簡(jiǎn)介
貝葉斯定理為我們提供了一種根據(jù)新證據(jù)更新信念的方法——當(dāng)然,還要考慮到我們先前信念的強(qiáng)度。運(yùn)用貝葉斯定理,你可以試圖回答這樣一個(gè)問(wèn)題:根據(jù)新的證據(jù),我的假設(shè)的可能性是多少?
在本文中,我們將討論貝葉斯定理可以改善數(shù)據(jù)科學(xué)實(shí)踐的三種方法:
- 更新
- 溝通
- 分類
到文章最后,我相信您將對(duì)貝葉斯定理有關(guān)的基本概念有一個(gè)深刻的理解。
2.方法1:更新
貝葉斯定理為檢驗(yàn)假設(shè)提供了一種結(jié)構(gòu),同時(shí)考慮了先驗(yàn)假設(shè)和新證據(jù)的強(qiáng)度,這個(gè)過(guò)程稱為貝葉斯更新。
貝葉斯定理:其中A代表假設(shè),B代表與假設(shè)相關(guān)的新證據(jù)
換句話說(shuō),這個(gè)公式是“在給定B的情況下,A發(fā)生的概率等于給定A的情況下B發(fā)生的概率乘以A發(fā)生的概率除以B發(fā)生的概率。”
讓我們?cè)偕钊敕治鲆幌逻@個(gè)公式(注意其中含有隨機(jī)變量的定義內(nèi)容):
“根據(jù)新證據(jù)作出假設(shè)的概率等于新證據(jù)成立的概率(假定假設(shè)成立)乘以觀察到新證據(jù)之前假設(shè)成立的概率,除以新證據(jù)成立的概率?!?/p>
這種表述可以進(jìn)一步縮短為:
“后驗(yàn)概率等于似然(likelihood)乘以先驗(yàn)概率除以邊際似然(marginal likelihood)?!?/p>
不管貝葉斯定理現(xiàn)在聽起來(lái)是否直觀,我保證你會(huì)一直使用它的。
真實(shí)世界示例
比方說(shuō),你的朋友打電話來(lái)告訴你,她很抱歉,她今晚不能來(lái)吃飯。她最近收養(yǎng)了一只寵物考拉,它患上了感冒流鼻涕。她真的需要呆在家里監(jiān)視考拉的癥狀情況。
你的假設(shè)是,你的朋友不會(huì)無(wú)緣無(wú)故地拋棄你。那么,考慮到她新寵物的最新癥狀,你的假設(shè)成立的似然(likelihood)有多大?
為了評(píng)估我們的朋友因?yàn)檎疹櫩祭辉诩页燥埖暮篁?yàn)概率,我們需要考慮你的朋友需要和考拉呆在家里的概率,因?yàn)榧僭O(shè)你的朋友是一個(gè)正直的人,不會(huì)無(wú)故放棄晚餐計(jì)劃。你可能會(huì)得出這樣的結(jié)論:一個(gè)通常負(fù)責(zé)的好朋友很可能會(huì)呆在家里照顧寵物。
接下來(lái),我們將似然(likelihood)乘以先驗(yàn)概率。在你的朋友打電話之前,你對(duì)她的晚餐計(jì)劃有多大的信心?如果你認(rèn)為你的朋友堅(jiān)如磐石,通常不愿意在最后一刻改變計(jì)劃,那么你的先驗(yàn)概率很大,無(wú)論有什么新的證據(jù),你都不太可能改變這種觀點(diǎn)。另一方面,如果你的朋友很脆弱,而你已經(jīng)想知道她是否會(huì)打電話取消,那么你的先驗(yàn)概率很小,這也可能會(huì)讓她關(guān)于和考拉待在家里的說(shuō)法受到質(zhì)疑。
最后,我們將上述計(jì)算結(jié)果除以你的朋友和考拉呆在家里的邊際似然。
貝葉斯推理是建立在這種靈活的、常識(shí)性的方法基礎(chǔ)上的,這種方法根據(jù)我們先驗(yàn)知識(shí)的強(qiáng)度和新證據(jù)的概率來(lái)更新我們關(guān)于世界的模型。事實(shí)上,貝葉斯定理的最初應(yīng)用是評(píng)估上帝的存在。
當(dāng)涉及到生命和數(shù)據(jù)科學(xué)的關(guān)鍵問(wèn)題時(shí),你不能抨擊貝葉斯定理是一種直觀的評(píng)估信念如何隨時(shí)間變化的方法。
3.方法2:溝通
正如貝葉斯定理可以幫助你理解和闡明面對(duì)新證據(jù)如何更新理論一樣,貝葉斯也可以讓你成為更強(qiáng)大的數(shù)據(jù)科學(xué)傳播者。
數(shù)據(jù)科學(xué)從根本上講是關(guān)于應(yīng)用數(shù)據(jù)改進(jìn)決策的一門科學(xué)。
“只有兩件事決定你的生活結(jié)果:運(yùn)氣和你的決策質(zhì)量。你只能控制這兩件事中的一件?!?/p>
——安妮·杜克,撲克游戲冠軍兼作家
提高決策質(zhì)量通常意味著說(shuō)服決策者。正如每個(gè)人的情況一樣,您的組織中的決策者正在參與對(duì)話。
真實(shí)世界示例
我曾經(jīng)是一家熱氣球制造商的顧問(wèn)。我的任務(wù)是幫助建立一個(gè)數(shù)據(jù)庫(kù),以提高客戶對(duì)其供應(yīng)鏈、制造流程和銷售的端到端的理解。
第一天,工廠經(jīng)理帶我們參觀了工廠,他自豪地描述了一份新的供應(yīng)商合同,該合同涉及更輕質(zhì)、更便宜的原材料。
但有一個(gè)問(wèn)題。當(dāng)我的團(tuán)隊(duì)聯(lián)系來(lái)自整個(gè)企業(yè)不同數(shù)據(jù)源的數(shù)據(jù)表時(shí),我們發(fā)現(xiàn)來(lái)自新供應(yīng)商的材料與廢料增加2.5%之間存在一定聯(lián)系。
工廠經(jīng)理有一個(gè)非常強(qiáng)烈的預(yù)感,那就是新供應(yīng)商對(duì)他的業(yè)務(wù)來(lái)說(shuō)很受益。但是,我們卻提供了一些相反的證據(jù)——我們使用了貝葉斯定理,因?yàn)槲覀兝斫膺@樣一個(gè)事實(shí),即:先驗(yàn)知識(shí)越強(qiáng),需要改變它的證據(jù)就越多。
在向工廠經(jīng)理提出我們的調(diào)查結(jié)果之前,我們需要收集一些額外的證據(jù)來(lái)證明不存在導(dǎo)致不同廢料水平的其他因素(如磨損的機(jī)器、新員工、環(huán)境條件等)。
最后,我們向經(jīng)理提供了更多證據(jù),并幫助他重新談判供應(yīng)商合同。
4.方法3:分類
貝葉斯定理可以應(yīng)用于文本分析的場(chǎng)景,這是一種稱為樸素貝葉斯的技術(shù),因?yàn)樗鼧闼氐丶僭O(shè)數(shù)據(jù)集中每個(gè)輸入變量(在本例中為每個(gè)單詞)是獨(dú)立的。
真實(shí)世界示例
假設(shè)你發(fā)現(xiàn)了一堆你祖父母寫的信。他們之間有著一段“動(dòng)蕩不安”的關(guān)系,并且有足夠的戲劇性浪漫故事——并不局限于真人秀節(jié)目中的年輕人間發(fā)生的那種。
您需要構(gòu)建一個(gè)情感分類器來(lái)確定大部分內(nèi)容是正面的還是負(fù)面的。這其中的一種方法是利用樸素貝葉斯定理。
像樸素貝葉斯這樣的生成式分類器將構(gòu)建一個(gè)類別(在本例中為正面的或者是負(fù)面的)模型;然后,根據(jù)此類別生成一些輸入數(shù)據(jù)。給出一個(gè)觀察結(jié)果(來(lái)自字母測(cè)試語(yǔ)料庫(kù)的一個(gè)新句子),它返回最有可能產(chǎn)生觀察結(jié)果的類別。這與學(xué)習(xí)輸入特征預(yù)測(cè)能力的判別式模型分類器(如邏輯回歸)形成對(duì)比。
樸素貝葉斯(Naive Bayes)是建立在單詞袋技術(shù)基礎(chǔ)上的。其基本思想是,將文檔轉(zhuǎn)換為直方圖,以便統(tǒng)計(jì)每個(gè)單詞的使用次數(shù)。
您可以使用我們?cè)诘?1部分中研究過(guò)的稍微修改過(guò)的貝葉斯推斷公式來(lái)計(jì)算每個(gè)觀測(cè)值的最可能類別。其實(shí),上面簡(jiǎn)單修改的是樸素貝葉斯的樸素部分:即假設(shè)每個(gè)單詞的概率在給定的類別中是獨(dú)立的,于是我們可以將它們相乘,以生成句子隨類別一起“落下”的概率。
語(yǔ)音和語(yǔ)言處理公式(作者:Daniel Jurafsky和James H.Martin)
在上述公式中,wi表示文檔c中單詞的計(jì)數(shù)。公式的分母是單詞屬于給定類別的條件概率之和。
公式中的+1防止了在類別中沒有觀察到單詞的情況下乘以零的可能性。這種添加一個(gè)的技術(shù)稱為拉普拉斯平滑。
最后,|V|由所有類別中所有單詞的并集組成。
貝葉斯定理相關(guān)詞匯
- 后驗(yàn)概率:根據(jù)新證據(jù)提出假設(shè)的可能性。
- 似然(likelihood):假定假設(shè)為真,證據(jù)為真的可能性。
- 先驗(yàn)概率:在新證據(jù)出現(xiàn)之前,相信假設(shè)是真實(shí)的。
- 邊際似然:證據(jù)。
- 樸素貝葉斯:一種分類器算法,它假設(shè)數(shù)據(jù)集的特征之間具有樸素的獨(dú)立性。
- 生成式分類器:建模特定類,以便確定如何生成輸入數(shù)據(jù);即是已知類別確定樣本。
- 單詞袋:將文檔轉(zhuǎn)換為直方圖的簡(jiǎn)化文本表示。
- 拉普拉斯平滑:一種簡(jiǎn)單的加法平滑技術(shù),可避免乘以零。
5.小結(jié)
我有一個(gè)強(qiáng)烈的先驗(yàn)信念,即貝葉斯定理對(duì)數(shù)據(jù)科學(xué)家十分有用;但是,我還是會(huì)根據(jù)您在評(píng)論中給我的反饋來(lái)更新后驗(yàn)概率。總之,我期待著您的來(lái)信,告訴我您是如何在生活和工作中使用貝葉斯定理的。
原文鏈接:https://www.kdnuggets.com/2022/06/3-ways-understanding-bayes-theorem-improve-data-science.html
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。早期專注各種微軟技術(shù)(編著成ASP.NET AJX、Cocos 2d-X相關(guān)三本技術(shù)圖書),近十多年投身于開源世界(熟悉流行全棧Web開發(fā)技術(shù)),了解基于OneNet/AliOS+Arduino/ESP32/樹莓派等物聯(lián)網(wǎng)開發(fā)技術(shù)與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開發(fā)技術(shù)。?