漫談醫(yī)療大數(shù)據(jù)建設
醫(yī)療大數(shù)據(jù)是當前醫(yī)療信息化最熱門的話題之一。然而,面對如何建設醫(yī)療大數(shù)據(jù)的問題,大部分醫(yī)療信息化從業(yè)者都是非常迷茫的。
我們先來看看現(xiàn)階段大家對醫(yī)療大數(shù)據(jù)的期望是什么。業(yè)界廣泛認為,醫(yī)療大數(shù)據(jù)目前可以應用在疾病預防、臨床決策、藥品研發(fā)、就診行為分析、費用監(jiān)管和分析等方面。觀察這部分應用的基礎對象—數(shù)據(jù),被用于分析的數(shù)據(jù)包括就診記錄、檢查報告、用藥情況、費用情況等等,從EMR、HIS、PACS、LIS等系統(tǒng)中獲取,數(shù)據(jù)源會有結構化數(shù)據(jù)和非結構化數(shù)據(jù)。然而,在實際大數(shù)據(jù)分析過程中,使用的基本上是結構化數(shù)據(jù)或者轉化為結構化數(shù)據(jù)的信息,我們目前沒有太好的辦法對非結構化數(shù)據(jù)直接進行大數(shù)據(jù)分析,例如Pacs的影像文件,一般只能分析從Pacs圖像中提取出來的病理信息來用于分析。這樣,醫(yī)療大數(shù)據(jù)處理數(shù)據(jù)的類型和方式就基本確定:結構化數(shù)據(jù)以及非機構化數(shù)據(jù)提取出來的結構化信息用于復雜、快速的大數(shù)據(jù)分析應用;非結構化文件不用于分析,大數(shù)據(jù)系統(tǒng)提供統(tǒng)一存放管理非結構化數(shù)據(jù)的資源池,并且提供快速檢索查詢文件的能力。
先看看大數(shù)據(jù)分析拿結構化數(shù)據(jù)來做什么。例如,疾病預防應用主要分析歷史的流行病相關數(shù)據(jù),多維度歸納分析出影響各類疾病流行的因素以及影響程度大小,從而判斷預測疾病流行的趨勢和可能性。該應用屬于事后分析,不要求實時性,但是有時效性需求,也就是越快越好,預期是在分析數(shù)據(jù)規(guī)模非常龐大的時候。分析的算法其實就是使用數(shù)據(jù)庫的排序,對比,條件查詢、篩選等基礎操作組合成算法,數(shù)據(jù)規(guī)模不大的情況下關系型數(shù)據(jù)庫完成可以勝任,數(shù)據(jù)規(guī)模達到一定程度之后,可以使用MPP DB、Hadoop Hive/Hbase等方式處理,從實際測試驗證過程得知,當前階段,采用MPP DB效率***,并不一定要用到Hadoop。部分情況下,處理該類算法,MPP DB效率會比HBase高出一個數(shù)量級。藥品研發(fā)、臨床決策、就診行為分析等應用情況類似。此類應用一般要求將分析結果多維度展示和提供報告,目前看來,傳統(tǒng)BI的展示工具是最為成熟和適用的。綜上所述,使用大數(shù)據(jù)系統(tǒng)的MPP DB取代BI原有單機數(shù)據(jù)庫,結合BI展示工具組成整體方案,是事后分析型業(yè)務***選擇之一。
另一類結構化數(shù)據(jù)大數(shù)據(jù)業(yè)務是需求實時性的,例如違規(guī)用藥監(jiān)管,異常醫(yī)保監(jiān)管,過度醫(yī)療監(jiān)管等,海量數(shù)據(jù)流實時不斷流入,需求實時判斷和監(jiān)管。此類應用***的選擇是Storm類的實時流處理引擎,設定簡單的判定算子,所有數(shù)據(jù)經(jīng)算子過濾,實時篩選出異常情況供人工處理,這里也不需要Hadoop。
我們回頭再看非結構數(shù)據(jù)部分,這部分數(shù)據(jù)量是最為龐大的,目前缺乏有效的工具對醫(yī)療行業(yè)非機構化數(shù)據(jù)直接進行大數(shù)據(jù)分析,但這并不意味著醫(yī)療大數(shù)據(jù)不需要考慮非結構化數(shù)據(jù)?,F(xiàn)有的技術條件下,對非結構化數(shù)據(jù)的大數(shù)據(jù)價值挖掘手段有這么兩種:其一,抽取非機構化數(shù)據(jù)中關鍵信息,利用結構化數(shù)據(jù)處理手段進行分析;其二,構建非機構化數(shù)據(jù)資源池,統(tǒng)一存放管理原本分散的非結構化數(shù)據(jù),部署檢索引擎,建立資料庫供醫(yī)務人員、研究人員查閱和參考。
說到這里,可能大家會有疑問,醫(yī)療大數(shù)據(jù)僅僅這么簡單?業(yè)界風起云涌的各種大數(shù)據(jù)技術、趨勢、工具好像都沒怎么用上呀。就我國醫(yī)療行業(yè)信息化現(xiàn)狀來說,目前的確只能是這樣。我們的醫(yī)療信息化缺乏基礎,這個基礎并非是指技術或者工具,這些都可以借鑒和學習,無法照搬的是醫(yī)療行業(yè)對大量數(shù)據(jù)的使用思路和使用效率,這類經(jīng)驗必須在實踐過程中逐步積累和成型,無捷徑可走。所以,對于國內(nèi)醫(yī)療行業(yè)來說,機器學習、人工智能太遙遠,給了也用不上或者不知道怎么用,從簡單的應用開始,逐步摸索,逐步積累才是效率***的方式,無捷徑可走。
醫(yī)療行業(yè)現(xiàn)在沒有現(xiàn)成可用的大數(shù)據(jù)應用,為了積累大數(shù)據(jù)經(jīng)驗,當前階段醫(yī)療大數(shù)據(jù)的建設都是帶有一些嘗試性質的,都是需要長期投入人力、物力進行開發(fā)、試用、改進的。每個行業(yè)的大數(shù)據(jù)都需要經(jīng)歷這樣的過程,包括目前看起來大數(shù)據(jù)試用比較成熟的互聯(lián)網(wǎng)行業(yè),在行業(yè)應用中用出來的大數(shù)據(jù)系統(tǒng)才是成熟的,具備行業(yè)適用性的。
在實際的醫(yī)療大數(shù)據(jù)嘗試過程中,我們發(fā)現(xiàn),醫(yī)療專家缺乏大數(shù)據(jù)技術,包比如醫(yī)院和衛(wèi)計委,而包括IT廠商、軟件開發(fā)商、互聯(lián)網(wǎng)廠商在內(nèi)大數(shù)據(jù)專家缺乏對醫(yī)療體制和醫(yī)療專業(yè)經(jīng)驗的認識。單獨一方進行醫(yī)療大數(shù)據(jù)嘗試往往很難成功,相互合作,互為補充或許是一條可行的路。華為公司作為IT與大數(shù)據(jù)技術全球領先的公司,期待與醫(yī)院和衛(wèi)計委的合作,共同開拓中國的醫(yī)療大數(shù)據(jù)成功之路!