薛萬國:醫院大數據中心建設的技術路徑
隨著大數據在醫療行業臨床診療、醫院管理、健康管理等領域應用熱度增加,越來越多醫院設立了大數據中心或者在信息中心基礎上開展了大數據的建設。在4月20日舉辦的北京衛生信息技術協會(PHITA)上,解放軍總醫院醫療大數據中心主任、CHIMA副主任委員薛萬國詳細剖析了醫院大數據中心的技術路徑。他指出,醫院在建大數據中心或平臺時,首先要做好定位。
大數據中心三個定位:管理、處理和分析
薛萬國認為,大數據中心有三種定位:
第一, 數據資源管理,即把大數據整合管理起來提供數據資源服務,科室需要的數據經過審批和授權后,由大數據中心提供,這是基本職能;
第二個,數據的處理和加工服務,根據臨床問題研究需要對原始數據進行處理,從中抽取一些特征,然后提供給臨床。
第三個,數據的分析服務,即按照科室的需求做數據的分析,比如病例分布、基于數據建立模型進行疾病和不良事件預測等。
薛萬國指出,大數據中心的定位不同,其職責也不同。如果大數據中心定位
大數據管理職能,有三個職責:第一,整合各個業務系統數據;第二,形成長期的管理機制,即對歷史的、現在的數據資源進行一體化的管理;第三,根據臨床訪問需求,進行訪問授權。這一定位的工作平臺為數據整合平臺(ETL)、數據檢索系統、數據瀏覽系統和數據在線使用(虛擬桌面),所需人才為IT工程師。
如果大數據中心定位為加工中心,其職責主要是根據用戶需求,從原始數據加工生成特征數據。這一定位的工作平臺包含以下幾方面:第一,增加自然
語言處理工具;第二,建立專病數據庫的平臺,幫助一線的醫護人員或科研人員整理數據;第三,建立組學數據等專業化技術平臺支撐特定數據的處理。該定位所需人才還是IT工程師 。
如果大數據中心定位為分析服務中心,其職責是為用戶提供數據分析服務,所需平臺除了數據檢索、加工分析外,還包括以下幾個方面:第一,各種類型的建模工具;第二,可視化平臺,通過圖表把數據分析結果更直觀的展示出來;第三,需建立大數據深度學習平臺。這時所需人才除了傳統的IT工程師,還需要專門的數據分析工程師。
薛萬國總結道,“大數據中心”有不同的內涵,不同的職能定位對應不同的技術平臺與人才團隊建設內容。在提出建設大數據中心規劃時,首先要明確大數據中心的職能定位。
整體預處理帶來信息缺失,建議采用“數據湖”
數據是否要做整體預處理一直是業界探討的話題。對此,薛萬國并不建議開展整體預處理。他指出,大數據中心數據處理有兩種流程:整體預處理和應用時預處理。通常情況下,整體預處理會帶來信息的損失,比如:病歷文本結構化的結果不能完整表達原病歷文本的語義;標準化(歸一化)可能導致特定信息丟失。同時,數據整體進行預處理在技術上也存在較大困難,包括歷史數據不一致、整體結構化困難等。
因此,他建議采用應用時預處理的方式,即采用“數據湖”概念,保留數據的原始性,針對特定研究問題開展數據預處理是更好的選擇。
依托原始數據開展研究
薛萬國強調,臨床數據研究有兩種路徑:專病數據庫路徑和按需從原始數據特征提取路徑。
針對建立科研病種數據庫是否是臨床數據研究的必然選擇這個話題,他指出,科研數據庫有其局限性,表現為:單一研究目的的科研病種數據庫是以特定問題為導向收集病種數據;而泛研究目的的數據庫涉及數據項多,結構復雜,人工加工工作量巨大,持續難度大,針對問題分析時需要二次加工。“因此,在現實研究實踐中,特別是在回顧性研究中,更多地采用直接依托原始數據的方式。”他談到。
薛萬國在演講時提到,醫療大數據平臺既面向一線臨床研究人員的需求,也面向數據處理分析人員的需求,數據在數據檢索、數據處理、數據分析和專病系統中的適宜形態也各不相同。“它是一個多種技術形態并存、多樣化功能協作的異構系統,因此數據管理技術選擇要考慮生態,避免生搬硬套。”他總結道。
上一篇: 醫院信息部門負責人必須親自做的大事
下一篇: 岳陽:“互聯網+醫療”帶您走進智慧婦幼