偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)會(huì)撒謊?如何戳破大數(shù)據(jù)的謊言

大數(shù)據(jù)
數(shù)據(jù)科學(xué)家使用統(tǒng)計(jì)分析工具深度挖掘數(shù)據(jù)潛在的內(nèi)容時(shí)經(jīng)常會(huì)遭遇到大數(shù)據(jù)挖的坑,實(shí)際上這些坑并不是只有大數(shù)據(jù)才有,大自然本身就存在很多虛假的相關(guān)性,大數(shù)據(jù)只是更加劇了這種虛假的相關(guān)性。

 數(shù)據(jù)科學(xué)家使用統(tǒng)計(jì)分析工具深度挖掘數(shù)據(jù)潛在的內(nèi)容時(shí)經(jīng)常會(huì)遭遇到大數(shù)據(jù)挖的坑,實(shí)際上這些坑并不是只有大數(shù)據(jù)才有,大自然本身就存在很多虛假的相關(guān)性,大數(shù)據(jù)只是更加劇了這種虛假的相關(guān)性。

隨著數(shù)據(jù)來源的增多和預(yù)測(cè)類型的多樣化,數(shù)據(jù)建模關(guān)系的數(shù)量開始接近無窮大。正如David G. Young指出的那樣,在預(yù)測(cè)分析的時(shí)候,我們要看到相互作用,變化的曲率、意義,有時(shí)甚至要看到變化的標(biāo)志。

[[170872]]

 

在做數(shù)據(jù)建模的相關(guān)性分析時(shí),最關(guān)鍵的是找對(duì)數(shù)據(jù)范圍,尤其是設(shè)置合適的變量和算法。一旦你找到了變量和算法的正確組合,那么你就掌握了正確打開相關(guān)性分析的密鑰。

有時(shí)候,我們會(huì)發(fā)現(xiàn)數(shù)據(jù)建模的相關(guān)性可能和實(shí)際情況并不相符,它只是你自以為正確的數(shù)據(jù)模型。即使你本身并沒有欺騙的意圖,也是按照科學(xué)的方法來建模的,但是你的數(shù)據(jù)模型并不一定能幫助你獲得數(shù)據(jù)背后的真正洞察力。

認(rèn)知偏差是每一個(gè)人都會(huì)犯的錯(cuò)誤,即使你是一個(gè)非常優(yōu)秀的數(shù)據(jù)科學(xué)家也不能百分百確保不犯數(shù)學(xué)和邏輯上的錯(cuò)誤、正確的挖掘出數(shù)據(jù)背后的價(jià)值。

諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者丹尼爾·卡納曼在他的著作《思維說,快與慢》中表示:人類如果沒有接受教育,那么每個(gè)人都是生而不同的。我們可能無法看透數(shù)據(jù)統(tǒng)計(jì)的深層次內(nèi)容,但是現(xiàn)實(shí)世界確實(shí)存在著某種規(guī)律,這種規(guī)律有時(shí)難以捉摸,但有時(shí)我們只憑直覺就可以找到。

如果你是一個(gè)正在探索數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)科學(xué)家,那么你就要注意虛假相關(guān)性,它將會(huì)是一個(gè)非常危險(xiǎn)的陷阱。這種虛假相關(guān)性產(chǎn)生的原因可能是數(shù)據(jù)科學(xué)家太想要驗(yàn)證某個(gè)假設(shè),也可能是迫于企業(yè)的商業(yè)模式的要求。利用這種虛假相關(guān)性建立的數(shù)據(jù)模型也許能夠解決一時(shí)的問題,但是它本質(zhì)還是一個(gè)劣質(zhì)的模型,經(jīng)不起時(shí)間的考驗(yàn),說不定會(huì)在哪個(gè)瞬間給你致命的一擊。

那么數(shù)據(jù)科學(xué)家如何才能減少在數(shù)據(jù)挖掘時(shí)無意中做出虛假統(tǒng)計(jì)相關(guān)性的概率。

集成學(xué)習(xí)

集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。這種方法的難點(diǎn)在于要在不同的樣本中進(jìn)行訓(xùn)練,采用不同的算法,但是這種方法能夠有效的揭示一些相關(guān)性。集成學(xué)習(xí)的算法是通過獨(dú)立模型的結(jié)果集的訓(xùn)練、取平均、bagging、boosting等多種方法得到的,能夠有效減少各層模型之間的差異。

A/B測(cè)試

A/B測(cè)試其實(shí)是一種“先驗(yàn)”的實(shí)驗(yàn)體系,屬于預(yù)測(cè)型結(jié)論,與“后驗(yàn)”的歸納性結(jié)論差別巨大。A/B測(cè)試顧名思義就是為同一個(gè)目標(biāo)設(shè)計(jì)A、B兩套方案,其中一個(gè)為守擂者,一個(gè)為攻擊者,通過科學(xué)的實(shí)驗(yàn)設(shè)計(jì)、真實(shí)的數(shù)據(jù)監(jiān)測(cè)來選出最具預(yù)測(cè)價(jià)值的方案。

穩(wěn)健模型

這種方法涉及到數(shù)據(jù)建模的方方面面,為了確保預(yù)測(cè)是穩(wěn)定的,我們要多方考慮,比如數(shù)據(jù)源、采樣技術(shù)、算法方法、時(shí)間等等。此外,離散點(diǎn)分析也是非常重要的,Vincent Granville前幾年就已經(jīng)表示數(shù)據(jù)集的異常有可能掩蓋數(shù)據(jù)的真正模式,增加虛假相關(guān)性的發(fā)生率。

“數(shù)據(jù)驅(qū)動(dòng)決策”已經(jīng)成為這個(gè)時(shí)代的潮流,好的決策應(yīng)該是數(shù)據(jù)驅(qū)動(dòng)的,所以數(shù)據(jù)模型的建立就顯得尤為重要。如果你是一個(gè)數(shù)據(jù)科學(xué)家,希望以上的方法能夠?qū)δ憬S兴鶐椭?/p>

責(zé)任編輯:趙寧寧 來源: IT168
相關(guān)推薦

2015-08-13 13:18:42

大數(shù)據(jù)

2015-10-21 10:21:57

大數(shù)據(jù)驅(qū)動(dòng)謊言

2013-03-20 10:31:14

大數(shù)據(jù)數(shù)據(jù)云服務(wù)

2012-09-17 09:51:07

大數(shù)據(jù)發(fā)掘大數(shù)據(jù)數(shù)據(jù)分析

2018-06-25 11:20:18

LinuxPython大數(shù)據(jù)

2015-10-28 10:55:36

2012-12-05 10:57:28

2021-08-06 11:01:23

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2015-07-07 11:00:50

2013-02-21 16:36:09

大數(shù)據(jù)

2019-07-04 14:22:56

大數(shù)據(jù)數(shù)據(jù)挖掘數(shù)量級(jí)

2013-03-18 10:14:00

大數(shù)據(jù)小數(shù)據(jù)

2015-08-03 10:41:52

大數(shù)據(jù)

2016-07-27 17:16:34

大數(shù)據(jù)媒體

2023-01-04 11:34:19

大數(shù)據(jù)數(shù)字化轉(zhuǎn)型人工智能

2020-09-29 16:16:44

區(qū)塊鏈會(huì)替代大數(shù)據(jù)嗎?

2015-06-29 13:38:31

大數(shù)據(jù)大價(jià)值

2021-02-25 11:36:28

大數(shù)據(jù)Gartner

2015-08-27 09:12:58

大數(shù)據(jù)

2015-08-27 10:50:15

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)