移動(dòng)醫(yī)療大數(shù)據(jù)的幾個(gè)偽命題:大數(shù)據(jù)的陷阱
醫(yī)療是非常特殊的行業(yè),所以單獨(dú)強(qiáng)調(diào)大數(shù)據(jù)是一種很片面、盲目的做法。在這個(gè)大數(shù)據(jù)時(shí)代里,我們要重視傳統(tǒng)的小數(shù)據(jù)研究(或者也可以稱之為抽樣數(shù)據(jù)),其實(shí)大數(shù)據(jù)和小數(shù)據(jù)可以相互結(jié)合,相互印證,互為補(bǔ)充,互相借鑒的。
那什么是小數(shù)據(jù)呢?小數(shù)據(jù)研究有幾個(gè)方向:
1.搜集一段時(shí)間和地點(diǎn)內(nèi)的大量醫(yī)學(xué)資料,進(jìn)行回顧性研究。
2.根據(jù)所要研究或者驗(yàn)證的意圖,設(shè)計(jì)方案,通常有一比一配對(duì),隨機(jī)對(duì)照雙盲等方法,進(jìn)行前瞻性研究。
這兩類分析在搜集資料的時(shí)候都要進(jìn)行統(tǒng)計(jì)學(xué)處理,均衡性檢驗(yàn),去除很多無(wú)效的雜波和噪音干擾,相比一些所謂大數(shù)據(jù)分析的眉毛胡子一把抓,通常得出的結(jié)果更為精準(zhǔn)。
3.還有一類就是持續(xù)追蹤個(gè)體的小數(shù)據(jù),也就是我們每個(gè)人的數(shù)字化信息。因?yàn)槿舜嬖诤芏嗟膫€(gè)體差異,所以每個(gè)人身上的小數(shù)據(jù)也是千差萬(wàn)別的。它不比大數(shù)據(jù)那樣浩瀚繁雜,卻對(duì)我自己至關(guān)重要。當(dāng)然把大量的人的小數(shù)據(jù)整合起來(lái)可以視為大數(shù)據(jù)分析,但是前文Dr.2也說(shuō)過(guò),有的時(shí)候整體平均趨勢(shì)對(duì)個(gè)人是無(wú)價(jià)值的,甚至有害的。前天看個(gè)笑話,有個(gè)身高1.8米的人問(wèn)大數(shù)據(jù)科學(xué)家能不能過(guò)前面這條河,科學(xué)家經(jīng)過(guò)全河流域的大數(shù)據(jù)分析后,得出平均水深1.2米,于是他放心地趟過(guò)去,結(jié)果淹死了!
再比如癌癥治療,現(xiàn)在有十分火熱的個(gè)體化治療,基因治療和細(xì)胞治療,不是僅僅“對(duì)癥下藥”,而是要同時(shí)“對(duì)人下藥”。與其他行業(yè)不同,一些重大疾病的治療是一個(gè)“非標(biāo)”的過(guò)程,這其中需要組織醫(yī)生、患者、醫(yī)療資源等,治療每個(gè)疾病,不同患者所需要的時(shí)間、財(cái)力、流程和預(yù)后都是不同的,而且每個(gè)人的基礎(chǔ)和個(gè)性需求也是多樣化的,不可能達(dá)到標(biāo)準(zhǔn)化。因此,這些個(gè)性化的治療都需要記錄和分析個(gè)人的小數(shù)據(jù),并進(jìn)行預(yù)判和綜合評(píng)估。
當(dāng)然,Dr.2從來(lái)沒(méi)有說(shuō)過(guò)大數(shù)據(jù)不重要。事實(shí)上,在醫(yī)學(xué)上發(fā)現(xiàn)的一般規(guī)律,往往是從大量數(shù)據(jù)中隱藏的一些重要線索。歐美各國(guó)都在計(jì)劃編制患者信息的整體數(shù)據(jù)庫(kù),不僅是為了統(tǒng)計(jì)分析,也是為開(kāi)發(fā)新藥物、新技術(shù)和新方法,更好地服務(wù)整個(gè)人群。集成大量的在線數(shù)據(jù)庫(kù)也可以指導(dǎo)個(gè)性化用藥(如計(jì)算安全性的概率),減輕他們的痛苦。
從大數(shù)據(jù)中得到規(guī)律,用小數(shù)據(jù)去驗(yàn)證,在小數(shù)據(jù)中發(fā)現(xiàn)問(wèn)題,再觀察相關(guān)大數(shù)據(jù)的變化,交互印證是非常重要的,但是目前很多的商業(yè)行為充斥著我們的移動(dòng)醫(yī)療圈,過(guò)分強(qiáng)調(diào)大數(shù)據(jù)的背后,是有利益驅(qū)動(dòng)的故事在的!
接下來(lái),我就來(lái)跟大家說(shuō)一說(shuō)大數(shù)據(jù)的陷阱!
1.?dāng)?shù)據(jù)采集帶有傾向性。
我們?cè)趯?duì)海量數(shù)據(jù)進(jìn)行分析,這其中存在了一個(gè)概念的偷換,就是你首先假設(shè)了你分析的大數(shù)據(jù)都是有價(jià)值的,然后才會(huì)去做這個(gè)事情。打個(gè)不恰當(dāng)?shù)谋扔鳎孟瘳F(xiàn)在的各大媒體,無(wú)論結(jié)果如何,不需審判,就可以都對(duì)郭美美進(jìn)行“有罪推定”,而不再考慮什么嚴(yán)謹(jǐn)啊,法律合規(guī)啊,人權(quán)之類的事情(即使是罪犯也有人權(quán)),那么無(wú)窮無(wú)盡批評(píng)中國(guó)缺乏法制精神的這批道貌岸然的人,其法制精神何在?一切只為利益、眼球和收視率!
采用嚴(yán)重有偏的數(shù)據(jù)幾乎能夠產(chǎn)生任何人需要的任何結(jié)果。Dr.2在第一章就曾經(jīng)說(shuō)過(guò),我們經(jīng)常能夠看到有些公司說(shuō)“通過(guò)XX大數(shù)據(jù)分析,得出YY的結(jié)論,而我們的產(chǎn)品符合啥啥的結(jié)論,所以是多么多么好!”你乍一看就不怎么樣,仔細(xì)一看還不如乍一看!因?yàn)檫@樣帶來(lái)的結(jié)果能給他們帶來(lái)商業(yè)價(jià)值。
2.大數(shù)據(jù)本身的“陷阱”。
大數(shù)據(jù)“采礦”常犯的錯(cuò)誤之一,就是由于因?yàn)橄嚓P(guān)性存在于多種可能性之中,但是你會(huì)怎么選擇呢?這是系統(tǒng)性問(wèn)題,理論上來(lái)說(shuō),只要有超大樣本和很多變量,我們都可能找到無(wú)厘頭式的相關(guān)性。它完全符合統(tǒng)計(jì)方法的嚴(yán)格要求,但兩者之間是個(gè)什么關(guān)系呢?只要我們對(duì)著一堆足夠多的數(shù)據(jù)進(jìn)行反復(fù)研究,進(jìn)行不同模型的嘗試,上千次后,一定會(huì)找到統(tǒng)計(jì)學(xué)意義上成立的相關(guān)性。這就是常見(jiàn)的大數(shù)據(jù)分析所犯的另一個(gè)人為的錯(cuò)誤——由相關(guān)性去論證因果關(guān)系。
在剛剛結(jié)束不久的2014年百度聯(lián)盟峰會(huì)中,李彥宏在大數(shù)據(jù)和醫(yī)療的結(jié)合中提到:“未來(lái)真正的大數(shù)據(jù)積累應(yīng)該是可以提前預(yù)測(cè)人的疾病情況,因?yàn)榧膊〔皇且惶斐霈F(xiàn)的,而是天長(zhǎng)日久累計(jì)出來(lái)的,各種數(shù)據(jù)一定發(fā)生變化。有價(jià)值的數(shù)據(jù),不是無(wú)用的信息爆炸,而是有價(jià)值的慢數(shù)據(jù),可以預(yù)測(cè)個(gè)性化信息的數(shù)據(jù)。”Dr.2深表同意,在大數(shù)據(jù)之上的慢數(shù)據(jù),去掉了很多雜波干擾的數(shù)據(jù),才是真正有價(jià)值的。
醫(yī)療監(jiān)測(cè)是時(shí)下行業(yè)內(nèi)很熱的一個(gè)話題?,F(xiàn)在已經(jīng)出現(xiàn)了某種監(jiān)測(cè)技術(shù)通過(guò)對(duì)周圍的大數(shù)據(jù)進(jìn)行監(jiān)測(cè)并分析周邊疫情動(dòng)態(tài)來(lái)預(yù)測(cè)下一場(chǎng)變異性流感等流行病的大規(guī)模爆發(fā)。人們?cè)僖膊槐乜只藕蛽?dān)心被傳染,早就有相應(yīng)提示及時(shí)應(yīng)對(duì)預(yù)防;而與此密切相關(guān)的醫(yī)療行業(yè),可以及時(shí)獲悉疾病爆發(fā)趨勢(shì),合理分配和部署好醫(yī)務(wù)人員,同時(shí)提醒和建議市民預(yù)防疫病,降低人們?nèi)静茁?hellip;…這是不是看似很美好很強(qiáng)大?其實(shí)不然。
大數(shù)據(jù)監(jiān)測(cè)流行病忽略了一個(gè)事實(shí):大數(shù)據(jù)是根據(jù)所收集到的海量數(shù)據(jù),與目前醫(yī)學(xué)領(lǐng)域中已有的傳統(tǒng)疾病進(jìn)行對(duì)照研究、數(shù)據(jù)分析等一系列工作。所以其通常很難預(yù)測(cè)未知的新疾病,像SARS、甲型H1N1流感和現(xiàn)在的埃博拉病毒的爆發(fā)等。去年衛(wèi)生部發(fā)言人就曾提到:“中國(guó)面臨傳統(tǒng)流行病威脅持續(xù)存在、新發(fā)流行病不斷出現(xiàn)的嚴(yán)峻形勢(shì)。”所以我們要對(duì)大數(shù)據(jù)的疾病預(yù)測(cè)能力有客觀的評(píng)估,一邊倒地鼓吹并無(wú)價(jià)值,從系統(tǒng)上來(lái)說(shuō),想預(yù)測(cè)黑天鵝,這本身就是一個(gè)“mission impossible”的哲學(xué)命題!
3. 統(tǒng)計(jì)學(xué)一樣會(huì)欺騙你。
統(tǒng)計(jì)學(xué)是通過(guò)搜索、整理、分析數(shù)據(jù)等手段,以達(dá)到推斷所測(cè)對(duì)象的本質(zhì),甚至預(yù)測(cè)對(duì)象未來(lái)的一門綜合性科學(xué)。它是一種模型,是一種探索未知世界的工具,試圖對(duì)事物本身有所認(rèn)知上的突破。但通過(guò)統(tǒng)計(jì)學(xué)所得來(lái)的認(rèn)知是僅供參考的,誰(shuí)說(shuō)90%的人說(shuō)它正確,它就一定正確了?就像千百年前,所有人都認(rèn)為太陽(yáng)圍繞地球轉(zhuǎn)一樣。
其實(shí)這與“市場(chǎng)失靈”是一個(gè)道理,再比如物理課上我們還總是假設(shè)一個(gè)小球從沒(méi)有摩擦的斜坡上滾下,然后以此來(lái)計(jì)算小球的各種數(shù)據(jù)……然在現(xiàn)實(shí)生活中,怎么可能呢?所以統(tǒng)計(jì)學(xué)經(jīng)常會(huì)出錯(cuò)的,黑天鵝無(wú)處不在。
谷歌雖然在09年的流感預(yù)測(cè)上做出了漂亮的成績(jī),但是在2013年初,谷歌流感趨勢(shì)被媒體大量批評(píng),原因就在于其數(shù)據(jù)總是大幅偏高于真實(shí)的流感數(shù)據(jù)。因?yàn)樵谶M(jìn)行數(shù)據(jù)分析的時(shí)候,我們需要盡可能地利用各種統(tǒng)計(jì)分析方法來(lái)剔除系統(tǒng)誤差。但是在谷歌流感案例中因?yàn)樗鼰o(wú)法剔除殘差的“自相關(guān)性”以及季節(jié)性(因?yàn)榈搅藫Q季時(shí)節(jié)容易感冒,所以即使我沒(méi)有生病,那時(shí)也會(huì)去進(jìn)行相關(guān)的檢索),也就是Dr.2前文中提到的“大數(shù)據(jù)反作用于大數(shù)據(jù)”,所以導(dǎo)致它的分析結(jié)果出現(xiàn)系統(tǒng)性誤差。
4. 無(wú)法確定“主觀性數(shù)據(jù)”是否經(jīng)過(guò)數(shù)據(jù)來(lái)源者的美化。
移動(dòng)醫(yī)療大數(shù)據(jù)分析確實(shí)有一部分是客觀資料,但是也有很多是來(lái)自于受眾的“主觀性數(shù)據(jù)”。如果普通大眾愿意配合提供自身數(shù)據(jù),那我們?nèi)绾伪WC這些數(shù)據(jù)都是真實(shí)有效的目標(biāo)數(shù)據(jù)呢?這也是移動(dòng)醫(yī)療需要提前考慮的一個(gè)重要問(wèn)題。
我們假設(shè)某移動(dòng)醫(yī)療企業(yè),不帶偏向性地深入市場(chǎng)調(diào)研然后進(jìn)行大數(shù)據(jù)分析證明,20~40歲群體中有20%的人每日鍛煉時(shí)間在2小時(shí)以上。從該公司的整個(gè)調(diào)查和分析過(guò)程中,確實(shí)是沒(méi)有什么問(wèn)題,均衡性檢驗(yàn)我們也發(fā)現(xiàn)不了異常。但是!有時(shí)候我們忽略了,被調(diào)查的人他們自己會(huì)虛報(bào)情況!出于這樣那樣的原因,比如跟別人說(shuō)自己從來(lái)不運(yùn)動(dòng),是不是不好啊,沒(méi)面子啊,感覺(jué)很low啊,于是就會(huì)將自己的數(shù)據(jù)向上統(tǒng)計(jì)。
所以喬布斯說(shuō),我從來(lái)不做所謂的市場(chǎng)調(diào)查,這是有原因的。因?yàn)橹饔^性數(shù)據(jù)非常容易出現(xiàn)虛假!在進(jìn)行街頭調(diào)查的時(shí)候,你可能會(huì)得出,喜歡閱讀各類時(shí)尚雜志和財(cái)經(jīng)雜志的人特別多,但是當(dāng)大伙冷靜地看一下銷售量,你就會(huì)發(fā)現(xiàn)故事會(huì)、知音和青年文摘這種有深度的期刊,其月銷量是某些“高大上”雜志的幾十倍!
全文連載至現(xiàn)在將告一段路,Dr.2收到了很多小伙伴們的反饋、鼓勵(lì)與批評(píng),我將其整理了一下,發(fā)現(xiàn)這也是一個(gè)有意思的小規(guī)模“大數(shù)據(jù)分析”。一般移動(dòng)醫(yī)療從業(yè)者,他們中性或者批評(píng)意見(jiàn)比較多,不明真相的群眾一般都是“好,太棒了,漲姿勢(shì)”之類的話,專業(yè)人士多會(huì)針對(duì)某一點(diǎn)進(jìn)行辯論和探討,并給我列出不少參考文獻(xiàn),在此一并感謝,我會(huì)繼續(xù)努力學(xué)習(xí),與時(shí)俱進(jìn)的!
最近我讀了美國(guó)頗有影響力的預(yù)測(cè)專家納特·西爾弗的《信號(hào)與噪聲》,他在書中分析到:“如果信息的數(shù)量以每天250兆億字節(jié)的速度增長(zhǎng),其中有用的信息肯定接近于零。大部分信息都只是噪聲而已,而且噪聲的增長(zhǎng)速度要比信號(hào)快得多。”由此看來(lái),當(dāng)數(shù)據(jù)信息鋪天蓋地而來(lái)之時(shí),我們也有可能距離真相越來(lái)越遠(yuǎn)。最后我也提出一個(gè)問(wèn)題讓大家進(jìn)行思考,因?yàn)榕u(píng)一件事很容易,構(gòu)建一個(gè)體系很困難,在現(xiàn)實(shí)中,對(duì)于一個(gè)想以大數(shù)據(jù)分析來(lái)運(yùn)營(yíng)驅(qū)動(dòng)的移動(dòng)醫(yī)療企業(yè)來(lái)說(shuō),到底該如何去做才能一步一步實(shí)現(xiàn)我們的理想呢?