使用大數(shù)據(jù)預(yù)測退伍士兵的自殺風(fēng)險
概述
Patterns and Predictions(P&P)是一家預(yù)測分析公司,其核心技術(shù)提供非結(jié)構(gòu)化和語義驅(qū)動的預(yù)測。正是該技術(shù)為Durkheim項(xiàng)目的“大數(shù)據(jù)”分析網(wǎng)絡(luò)提供了用于評估心理健康風(fēng)險的技術(shù)支撐。Patterns and Predictions(P&P)公司的合作伙伴包括彭博(Bloomberg)、達(dá)特茅斯的蓋瑟醫(yī)學(xué)院(The Geisel School of Medicine at Dartmouth)、Cloudera和Attivio。其客戶包括全球100強(qiáng)大型公司。該公司的主要合作伙伴Chris Poulin,是該公司核心Centiment®技術(shù)的共同發(fā)明者,Centiment®是一種提供非結(jié)構(gòu)化和語義驅(qū)動預(yù)測的技術(shù)。
Durkheim 項(xiàng)目是為了紀(jì)念法國社會學(xué)家David Émile Durkheim在1897年出版的書籍《自殺論(Suicide)》而命名的,在該書中其最早定義了自殺風(fēng)險的文本分析,并且提供了與社會脫節(jié)相關(guān)的重要理論解釋。該項(xiàng)目遵循其Durkheim的研究方向,即Durkheim所稱的自殺的“特性” – 指向自殺風(fēng)險的具體模式和線索。而Durkheim 項(xiàng)目具有一個創(chuàng)始社會學(xué)家未曾擁有的有價值的工具,即技術(shù)。
面臨的挑戰(zhàn)
自殺多年來一直困擾著美國軍方。如今,這種無處不在的戰(zhàn)爭后遺癥對于美國社會來說,是一場長期且無處不在的戰(zhàn)爭,并且令人震驚的是傷亡率仍在持續(xù)增加。在很多文章中都提到了這一問題,其中美國《時代(Time)》雜志報(bào)道說,2012年全年美軍達(dá)到了創(chuàng)紀(jì)錄的349例士兵自殺事件,遠(yuǎn)遠(yuǎn)超過了美軍同期在阿富汗戰(zhàn)死的士兵數(shù)。士兵自殺的比例大約是美國一般民眾中成年人的兩倍。
在《2012年自殺數(shù)據(jù)報(bào)告》中,美國退伍士兵事務(wù)部(VA)指出,“關(guān)于退伍士兵自殺風(fēng)險的特征和結(jié)果的信息對于改善自殺預(yù)防計(jì)劃的制定是至關(guān)重要的。”
Durkheim 項(xiàng)目旨在提供這一重要信息。憑借其強(qiáng)大的高級分析、實(shí)時預(yù)測建模和機(jī)器學(xué)習(xí)協(xié)同工作功能,該項(xiàng)目尋求確定退伍士兵的溝通和自殺風(fēng)險之間的關(guān)鍵相關(guān)性,F(xiàn)ast Company 稱贊其為我們所見過的“對大數(shù)據(jù)最重要的使用”。
關(guān)鍵要點(diǎn)
行業(yè)
• 政府
• 醫(yī)療保健和生命科學(xué)行業(yè)
地理位置
• 美國新罕布什爾州普茨茅斯
支持的業(yè)務(wù)應(yīng)用
• 識別自殺風(fēng)險因素的預(yù)測分析
影響
• 實(shí)時溝通和自殺風(fēng)險之間的準(zhǔn)確的、語義驅(qū)動的相關(guān)性
• 基礎(chǔ)架構(gòu)提供了更低的成本,更好的計(jì)算吞吐量,并降低了IT 支持的復(fù)雜性
使用的技術(shù)
• Hadoop 平臺:CDH
• Hadoop 組件:Cloudera Impala和Cloudera Search
• 服務(wù)器:Cray grid、Amazon EC2
• 分析工具:Patterns and Predictions Centiment®;Attivio
大數(shù)據(jù)規(guī)模
• 每天實(shí)時處理超過1TB 的作業(yè)
• 實(shí)時支持高達(dá)100,000 名現(xiàn)役和退伍士兵
解決方案
第一階段
Durkheim 項(xiàng)目于2010年開始設(shè)立,該項(xiàng)研究最初由達(dá)特茅斯學(xué)院(Dartmouth College)發(fā)起,并且P&P 和Poulin 都參與了該項(xiàng)研究。Poulin 及其專家是該項(xiàng)目的多學(xué)科協(xié)作團(tuán)隊(duì)的關(guān)鍵成員,其中還包括人工智能領(lǐng)域的專家,以及來自私人公司、達(dá)特茅斯蓋瑟醫(yī)學(xué)院(Dartmouth’s Geisel School of Medicine)和VA 的醫(yī)療專業(yè)人員。
該項(xiàng)目的第一階段開始對三個實(shí)驗(yàn)組進(jìn)行研究,每個實(shí)驗(yàn)組包含100 名受試者,分別代表“非精神失調(diào)”、“精神失調(diào)”和“自殺陽性”狀態(tài)。研究人員開發(fā)了語義驅(qū)動的預(yù)測模型,從非結(jié)構(gòu)化臨床診治記錄數(shù)據(jù)中預(yù)估可能的自殺風(fēng)險。
2011 年,P&P 開始引入該技術(shù),并建立了綜合性的基礎(chǔ)架構(gòu)和預(yù)測模型,在經(jīng)過系統(tǒng)擴(kuò)展之后可以支持該項(xiàng)目海量的數(shù)據(jù)收集和分析工作。此外,Apache
Hadoop 等分布式技術(shù)為高效和高度可擴(kuò)展的大數(shù)據(jù)平臺提供了適宜的解決方案;但是該項(xiàng)目需要一個輕量級的機(jī)器學(xué)習(xí)框架,該框架可以在Hadoop 上運(yùn)行并能檢測大規(guī)模的實(shí)時風(fēng)險。
Poulin 解釋說:“大多數(shù)大數(shù)據(jù)機(jī)器學(xué)習(xí)解決方案的精確度都很低,或者在實(shí)施以及與我們現(xiàn)有環(huán)境的集成方面非常復(fù)雜。”
Cloudera 公司在Hadoop 和大數(shù)據(jù)領(lǐng)域的領(lǐng)導(dǎo)地位和豐富的專業(yè)知識使Poulin 能夠充分利用Cloudera 專業(yè)服務(wù)共同開發(fā)貝葉斯計(jì)數(shù)器(Bayesian counters),這是一個基于Apache HBase 和市場主流的100%開源CDH(Cloudera’s Distribution Including Apache Hadoop)基礎(chǔ)上,能夠大規(guī)模檢測風(fēng)險的輕量級統(tǒng)計(jì)模型?;贑loudera 的框架體系是Durkheim 項(xiàng)目的技術(shù)基石。
通過引入獨(dú)立的統(tǒng)計(jì)指標(biāo)(包括關(guān)鍵字組合、模式和其他語義線索),仔細(xì)分析來自各種退伍士兵數(shù)據(jù)庫源的先前數(shù)據(jù),對該緊密集成的系統(tǒng)進(jìn)行“訓(xùn)練”。在訓(xùn)練后,機(jī)器學(xué)習(xí)功能可以識別出實(shí)際數(shù)據(jù)中的有用線索,并建立風(fēng)險“得分”。
因?yàn)樽詺⑹且环N個體行為,而且傾向于自殺的個人往往在體態(tài)方面都保持良好,Poulin 解釋說:“風(fēng)險信號比較弱。當(dāng)大規(guī)模部署該系統(tǒng)時,機(jī)器學(xué)習(xí)功能必須對大數(shù)據(jù)非常敏感。”
第一階段的構(gòu)建和測試工作于2013 年初完成。結(jié)果驗(yàn)證了該項(xiàng)目的機(jī)器學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)是可行的,并且證實(shí)了其預(yù)測能力在預(yù)測退伍士兵控制組自殺風(fēng)險中有65%的準(zhǔn)確率。
“ 憑借Cloudera Search 和Impala,Hadoop 在數(shù)據(jù)擷取方面可以非常有效地降低成本,提高計(jì)算吞吐量以及降低IT 支持的復(fù)雜性。”
Chris Poulin,Patterns and Predictions 公司首席合作伙伴
第二階段
Durkheim 項(xiàng)目的第二階段于2013 年07 月啟動,在Cloudera 公司的支持下,其重點(diǎn)關(guān)注的是針對不同類型的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的“大規(guī)模自主性預(yù)測”的最終目標(biāo)。同時,F(xiàn)acebook 在這一階段加入了DARPA,通過推廣自愿參與者的內(nèi)容以支持項(xiàng)目的監(jiān)控目的。
因?yàn)閰⑴c者目標(biāo)數(shù)量為100,000 名退伍士兵,因此該數(shù)據(jù)肯定會非常“大”。選擇參與該項(xiàng)目的退伍士兵會收到一個獨(dú)特的Facebook 應(yīng)用程序以及一個移動應(yīng)用程序(iOS 或Android 系統(tǒng)),這些應(yīng)用程序都旨在收集用戶帖子、Tweets、手機(jī)上傳數(shù)據(jù),甚至是位置信息。這些應(yīng)用程序還收集一些其它特性數(shù)據(jù),包括醫(yī)師信息和臨床診斷記錄。為了確保遵守各種隱私和HIPAA 法規(guī)要求,所有采集的數(shù)據(jù)都存儲在達(dá)特茅斯蓋瑟醫(yī)學(xué)院裝有醫(yī)療防火墻的安全環(huán)境中。
隨著眾多參與者的不斷加入,該系統(tǒng)建立起了個人資料信息,并且蓋瑟醫(yī)學(xué)院的研究人員和臨床醫(yī)生都可以通過儀表板訪問這些信息。該系統(tǒng)根據(jù)共性信息和針對每一位參與者特定的關(guān)鍵字為每一種特性都指定了總體風(fēng)險評分。
對連續(xù)導(dǎo)入的大數(shù)據(jù)池使用文本分析可以提供指數(shù)級數(shù)量的變量,然后可以對其進(jìn)行比較和分析,從而實(shí)現(xiàn)對參與者的心理健康的實(shí)時評估。Poulin 說到:“分析這些數(shù)據(jù)的計(jì)算處理需要建立一個大數(shù)據(jù)結(jié)構(gòu),但其帶來的好處是可以獲取更多的信息量。”
該項(xiàng)目的技術(shù)目標(biāo)是“以最低成本實(shí)現(xiàn)最大速度”,這就促使了Cloudera Search 和Cloudera Impala 的采用。“該項(xiàng)目的工作流非常復(fù)雜,”Poulin 解釋說,“我們所有的機(jī)器學(xué)習(xí)都建立了索引,我們實(shí)際上通過搜索接口訪問了所有的機(jī)器學(xué)習(xí),因此代價是非常昂貴的。憑借Cloudera Search 和Impala,Hadoop 在數(shù)據(jù)擷取方面可以非常有效地降低成本,提高計(jì)算吞吐量以及降低IT 支持的復(fù)雜性。”
Durkheim 項(xiàng)目第一階段的實(shí)驗(yàn)結(jié)果預(yù)測了退伍士兵對照組中的自殺風(fēng)險的精確度達(dá)到了65%,表現(xiàn)出顯著的統(tǒng)計(jì)學(xué)意義。
影響力
由于自殺議題的復(fù)雜性和敏感性,加上美國軍方面臨的嚴(yán)峻形勢,使Durkheim 項(xiàng)目受到各方的密切關(guān)注。因此,就此而言,“該項(xiàng)目的技術(shù)層面與社會工程相比來說要容易得多,”Poulin 說到,“如果一個人真的一心想自殺結(jié)束自己的生命,那么必須要具備足夠的信息同時足夠耐心溫柔,幫助他/ 她找到更好的解決方法。”
盡管如此,Durkheim 項(xiàng)目仍然處于初始階段,僅被美國軍方授權(quán)用于監(jiān)測和分析數(shù)據(jù)。雖然該項(xiàng)目已經(jīng)提供了統(tǒng)計(jì)學(xué)上有效的結(jié)果,準(zhǔn)確地預(yù)測退伍士兵控制組中的自殺風(fēng)險,但是其關(guān)鍵研究結(jié)果(至少暫時)仍然受到非干預(yù)性協(xié)議的限制。通過使用Cloudera,Poulin 希望,該項(xiàng)目不斷進(jìn)步的風(fēng)險分類器將有助于該項(xiàng)目建立實(shí)時評估風(fēng)險的能力,以便他們能夠應(yīng)用于干預(yù)性研究。
Poulin 指出:“在這種情況下,大數(shù)據(jù)的目標(biāo)承諾之一是可以縮短需要幫助的人和可以幫助他們的系統(tǒng)之間的距離。這就是我們奮斗的目標(biāo),并且我們希望繼續(xù)與Cloudera 公司一起竭誠合作,矢志不移地向著成功前進(jìn)。”


2013-11-08 17:57:01




