偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

三種理解貝葉斯定理方法助力數(shù)據(jù)科學(xué)決策

譯文 精選
開發(fā) 開發(fā)工具
本文提出的觀點(diǎn)是,全面掌握貝葉斯定理這一直觀的統(tǒng)計(jì)概念將有助于提高您作為決策者的可信度。

?譯者 | 朱先忠

審校 | 孫淑娟

1.簡(jiǎn)介 

貝葉斯定理為我們提供了一種根據(jù)新證據(jù)更新信念的方法——當(dāng)然,還要考慮到我們先前信念的強(qiáng)度。運(yùn)用貝葉斯定理,你可以試圖回答這樣一個(gè)問(wèn)題:根據(jù)新的證據(jù),我的假設(shè)的可能性是多少?

在本文中,我們將討論貝葉斯定理可以改善數(shù)據(jù)科學(xué)實(shí)踐的三種方法:

  • 更新
  • 溝通
  • 分類

到文章最后,我相信您將對(duì)貝葉斯定理有關(guān)的基本概念有一個(gè)深刻的理解。

2.方法1:更新 

貝葉斯定理為檢驗(yàn)假設(shè)提供了一種結(jié)構(gòu),同時(shí)考慮了先驗(yàn)假設(shè)和新證據(jù)的強(qiáng)度,這個(gè)過(guò)程稱為貝葉斯更新。

圖片

貝葉斯定理:其中A代表假設(shè),B代表與假設(shè)相關(guān)的新證據(jù)

換句話說(shuō),這個(gè)公式是“在給定B的情況下,A發(fā)生的概率等于給定A的情況下B發(fā)生的概率乘以A發(fā)生的概率除以B發(fā)生的概率。”

讓我們?cè)偕钊敕治鲆幌逻@個(gè)公式(注意其中含有隨機(jī)變量的定義內(nèi)容):

“根據(jù)新證據(jù)作出假設(shè)的概率等于新證據(jù)成立的概率(假定假設(shè)成立)乘以觀察到新證據(jù)之前假設(shè)成立的概率,除以新證據(jù)成立的概率?!?/p>

這種表述可以進(jìn)一步縮短為:

“后驗(yàn)概率等于似然(likelihood)乘以先驗(yàn)概率除以邊際似然(marginal likelihood)?!?/p>

不管貝葉斯定理現(xiàn)在聽起來(lái)是否直觀,我保證你會(huì)一直使用它的。

真實(shí)世界示例

比方說(shuō),你的朋友打電話來(lái)告訴你,她很抱歉,她今晚不能來(lái)吃飯。她最近收養(yǎng)了一只寵物考拉,它患上了感冒流鼻涕。她真的需要呆在家里監(jiān)視考拉的癥狀情況。

你的假設(shè)是,你的朋友不會(huì)無(wú)緣無(wú)故地拋棄你。那么,考慮到她新寵物的最新癥狀,你的假設(shè)成立的似然(likelihood)有多大?

圖片

為了評(píng)估我們的朋友因?yàn)檎疹櫩祭辉诩页燥埖暮篁?yàn)概率,我們需要考慮你的朋友需要和考拉呆在家里的概率,因?yàn)榧僭O(shè)你的朋友是一個(gè)正直的人,不會(huì)無(wú)故放棄晚餐計(jì)劃。你可能會(huì)得出這樣的結(jié)論:一個(gè)通常負(fù)責(zé)的好朋友很可能會(huì)呆在家里照顧寵物。

接下來(lái),我們將似然(likelihood)乘以先驗(yàn)概率。在你的朋友打電話之前,你對(duì)她的晚餐計(jì)劃有多大的信心?如果你認(rèn)為你的朋友堅(jiān)如磐石,通常不愿意在最后一刻改變計(jì)劃,那么你的先驗(yàn)概率很大,無(wú)論有什么新的證據(jù),你都不太可能改變這種觀點(diǎn)。另一方面,如果你的朋友很脆弱,而你已經(jīng)想知道她是否會(huì)打電話取消,那么你的先驗(yàn)概率很小,這也可能會(huì)讓她關(guān)于和考拉待在家里的說(shuō)法受到質(zhì)疑。

最后,我們將上述計(jì)算結(jié)果除以你的朋友和考拉呆在家里的邊際似然。

貝葉斯推理是建立在這種靈活的、常識(shí)性的方法基礎(chǔ)上的,這種方法根據(jù)我們先驗(yàn)知識(shí)的強(qiáng)度和新證據(jù)的概率來(lái)更新我們關(guān)于世界的模型。事實(shí)上,貝葉斯定理的最初應(yīng)用是評(píng)估上帝的存在。

當(dāng)涉及到生命和數(shù)據(jù)科學(xué)的關(guān)鍵問(wèn)題時(shí),你不能抨擊貝葉斯定理是一種直觀的評(píng)估信念如何隨時(shí)間變化的方法。

3.方法2:溝通 

正如貝葉斯定理可以幫助你理解和闡明面對(duì)新證據(jù)如何更新理論一樣,貝葉斯也可以讓你成為更強(qiáng)大的數(shù)據(jù)科學(xué)傳播者。

數(shù)據(jù)科學(xué)從根本上講是關(guān)于應(yīng)用數(shù)據(jù)改進(jìn)決策的一門科學(xué)。

“只有兩件事決定你的生活結(jié)果:運(yùn)氣和你的決策質(zhì)量。你只能控制這兩件事中的一件?!?/p>

——安妮·杜克,撲克游戲冠軍兼作家

提高決策質(zhì)量通常意味著說(shuō)服決策者。正如每個(gè)人的情況一樣,您的組織中的決策者正在參與對(duì)話。

真實(shí)世界示例

我曾經(jīng)是一家熱氣球制造商的顧問(wèn)。我的任務(wù)是幫助建立一個(gè)數(shù)據(jù)庫(kù),以提高客戶對(duì)其供應(yīng)鏈、制造流程和銷售的端到端的理解。

第一天,工廠經(jīng)理帶我們參觀了工廠,他自豪地描述了一份新的供應(yīng)商合同,該合同涉及更輕質(zhì)、更便宜的原材料。

但有一個(gè)問(wèn)題。當(dāng)我的團(tuán)隊(duì)聯(lián)系來(lái)自整個(gè)企業(yè)不同數(shù)據(jù)源的數(shù)據(jù)表時(shí),我們發(fā)現(xiàn)來(lái)自新供應(yīng)商的材料與廢料增加2.5%之間存在一定聯(lián)系。

圖片

工廠經(jīng)理有一個(gè)非常強(qiáng)烈的預(yù)感,那就是新供應(yīng)商對(duì)他的業(yè)務(wù)來(lái)說(shuō)很受益。但是,我們卻提供了一些相反的證據(jù)——我們使用了貝葉斯定理,因?yàn)槲覀兝斫膺@樣一個(gè)事實(shí),即:先驗(yàn)知識(shí)越強(qiáng),需要改變它的證據(jù)就越多。

在向工廠經(jīng)理提出我們的調(diào)查結(jié)果之前,我們需要收集一些額外的證據(jù)來(lái)證明不存在導(dǎo)致不同廢料水平的其他因素(如磨損的機(jī)器、新員工、環(huán)境條件等)。

最后,我們向經(jīng)理提供了更多證據(jù),并幫助他重新談判供應(yīng)商合同。

4.方法3:分類 

貝葉斯定理可以應(yīng)用于文本分析的場(chǎng)景,這是一種稱為樸素貝葉斯的技術(shù),因?yàn)樗鼧闼氐丶僭O(shè)數(shù)據(jù)集中每個(gè)輸入變量(在本例中為每個(gè)單詞)是獨(dú)立的。

真實(shí)世界示例

假設(shè)你發(fā)現(xiàn)了一堆你祖父母寫的信。他們之間有著一段“動(dòng)蕩不安”的關(guān)系,并且有足夠的戲劇性浪漫故事——并不局限于真人秀節(jié)目中的年輕人間發(fā)生的那種。

圖片

您需要構(gòu)建一個(gè)情感分類器來(lái)確定大部分內(nèi)容是正面的還是負(fù)面的。這其中的一種方法是利用樸素貝葉斯定理。

像樸素貝葉斯這樣的生成式分類器將構(gòu)建一個(gè)類別(在本例中為正面的或者是負(fù)面的)模型;然后,根據(jù)此類別生成一些輸入數(shù)據(jù)。給出一個(gè)觀察結(jié)果(來(lái)自字母測(cè)試語(yǔ)料庫(kù)的一個(gè)新句子),它返回最有可能產(chǎn)生觀察結(jié)果的類別。這與學(xué)習(xí)輸入特征預(yù)測(cè)能力的判別式模型分類器(如邏輯回歸)形成對(duì)比。

樸素貝葉斯(Naive Bayes)是建立在單詞袋技術(shù)基礎(chǔ)上的。其基本思想是,將文檔轉(zhuǎn)換為直方圖,以便統(tǒng)計(jì)每個(gè)單詞的使用次數(shù)。

您可以使用我們?cè)诘?1部分中研究過(guò)的稍微修改過(guò)的貝葉斯推斷公式來(lái)計(jì)算每個(gè)觀測(cè)值的最可能類別。其實(shí),上面簡(jiǎn)單修改的是樸素貝葉斯的樸素部分:即假設(shè)每個(gè)單詞的概率在給定的類別中是獨(dú)立的,于是我們可以將它們相乘,以生成句子隨類別一起“落下”的概率。

圖片

語(yǔ)音和語(yǔ)言處理公式(作者:Daniel Jurafsky和James H.Martin)

在上述公式中,wi表示文檔c中單詞的計(jì)數(shù)。公式的分母是單詞屬于給定類別的條件概率之和。

公式中的+1防止了在類別中沒有觀察到單詞的情況下乘以零的可能性。這種添加一個(gè)的技術(shù)稱為拉普拉斯平滑。

最后,|V|由所有類別中所有單詞的并集組成。

貝葉斯定理相關(guān)詞匯

  • 后驗(yàn)概率:根據(jù)新證據(jù)提出假設(shè)的可能性。
  • 似然(likelihood):假定假設(shè)為真,證據(jù)為真的可能性。
  • 先驗(yàn)概率:在新證據(jù)出現(xiàn)之前,相信假設(shè)是真實(shí)的。
  • 邊際似然:證據(jù)。
  • 樸素貝葉斯:一種分類器算法,它假設(shè)數(shù)據(jù)集的特征之間具有樸素的獨(dú)立性。
  • 生成式分類器:建模特定類,以便確定如何生成輸入數(shù)據(jù);即是已知類別確定樣本。
  • 單詞袋:將文檔轉(zhuǎn)換為直方圖的簡(jiǎn)化文本表示。
  • 拉普拉斯平滑:一種簡(jiǎn)單的加法平滑技術(shù),可避免乘以零。

5.小結(jié) 

我有一個(gè)強(qiáng)烈的先驗(yàn)信念,即貝葉斯定理對(duì)數(shù)據(jù)科學(xué)家十分有用;但是,我還是會(huì)根據(jù)您在評(píng)論中給我的反饋來(lái)更新后驗(yàn)概率。總之,我期待著您的來(lái)信,告訴我您是如何在生活和工作中使用貝葉斯定理的。

原文鏈接:https://www.kdnuggets.com/2022/06/3-ways-understanding-bayes-theorem-improve-data-science.html

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。早期專注各種微軟技術(shù)(編著成ASP.NET AJX、Cocos 2d-X相關(guān)三本技術(shù)圖書),近十多年投身于開源世界(熟悉流行全棧Web開發(fā)技術(shù)),了解基于OneNet/AliOS+Arduino/ESP32/樹莓派等物聯(lián)網(wǎng)開發(fā)技術(shù)與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開發(fā)技術(shù)。?

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2013-09-22 15:13:18

SAP立白

2023-10-09 08:22:18

驅(qū)動(dòng)科學(xué)數(shù)據(jù)分析因素

2025-05-27 00:00:25

貝葉斯定理決策

2022-08-23 10:32:33

人工智能人工智能決策

2013-10-25 14:22:08

SAP

2018-01-03 09:00:06

數(shù)據(jù)科學(xué)家PythonR語(yǔ)言

2010-07-19 14:43:21

SQL Server查

2023-05-16 16:07:07

大數(shù)據(jù)數(shù)據(jù)管理工具

2010-07-29 09:56:45

Flex數(shù)據(jù)庫(kù)

2021-10-09 06:59:36

技術(shù)MyBatis數(shù)據(jù)

2010-10-20 13:52:07

SQL Server數(shù)

2019-08-30 17:24:41

microservic微服務(wù)

2021-11-05 16:29:49

數(shù)字化

2010-11-19 14:51:09

Oracle數(shù)據(jù)庫(kù)關(guān)閉

2010-10-13 11:19:11

MySQL數(shù)據(jù)文件

2011-05-26 13:16:37

Oracle數(shù)據(jù)庫(kù)備份

2023-10-13 10:45:18

HTTP數(shù)據(jù)

2023-02-24 16:45:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)