貴陽市衛生健康局:貴陽市健康醫療大數據治理系統
本案例獲得CHIMA 2020醫院新興技術創新應用典型案例“醫院數據治理建設”方向三等獎。
貴陽市健康醫療大數據治理項目以醫療大數據轉為數據資產為導向,通過治理數據為手段,將逐步整合全市范圍內的醫療相關數據,從而形成高質量、標準化的健康醫療數據資產。項目建成后會將會把相關數據分析提供給政府決策,醫療政策制定,商業分析;以健康醫療大數據資產助推科學治貧、精準扶貧、有效脫貧的實施和落地;健康醫療數據資產反哺至醫療、科研機構和患者。本項目在進一步健全和加強醫療大數據在互聯網+醫療健康、公共衛生、家庭醫生等業務方面的支撐作用的同時,用數據支撐臨床科研成果轉化。構健康醫療大數據產業生態鏈。
本項目以貴陽市衛生健康局為核心單位,服務對象包括市貴陽市衛生健康局、貴陽市各級衛生健康部門和醫療機構。也可通過貴陽市政府共享交換數據平臺給其他市直部門提供數據服務。
本項目通過數據治理主要覆蓋范圍包括全市20多家二級以上公立醫療機構、一百余家基層衛生服務機構的“云HIS”系統、以及部分私立醫療機構的相關信息系統。項目包含全員人口數據,以及居民健康檔案、門診病歷、住院病歷等數據,預計共計超過100T的健康醫療大數據。
1.數據工程服務
按照健康醫療領域的相關國家數據標準、省市地方標準,為數據治理全生命周期提供規范的數據處理標準,制定《貴陽市健康醫療數據標準規范》,促進貴陽市健康醫療大數據治理項目過程規范化、制度化,推動數據治理高效、有序的開展,以保證數據的統一性、科學性和可靠性。
2.軟件系統開發服務
數據目錄管理系統:為數據使用者提供醫療相關數據和信息資源目錄展示、檢索等服務。明確健康醫療數據資源的種類、來源、去向、基本組成元素等信息,促進健康醫療數據標準的制訂和更新,實現數據目錄有效管理。
健康醫療大數據倉庫:包括健康醫療大數據資源、健康醫療主題數據倉庫等在內的健康醫療數據倉庫服務,為全市健康醫療事業發展提供數據基礎和主題數據支撐。
大數據應用系統:包括區域疾病圖譜子系統、健康數據智能查詢子系統、醫療機構數據視圖子系統、行為數據監控子系統、健康大數據誠信檔案子系統、居民健康數據視圖、健康大數據知識庫等多個系統。為健康醫療相關用戶提供面向市、區兩級衛健部門、醫療機構的數據應用功能,逐步構建以數據應用為中心的平臺體系。
1.數據標準化技術
數據標準化技術使用在數據處理階段,在數據處理過程中將表示同一種含義的多種稱呼的醫療術語,統一為標準化的名稱,同時梳理不同診斷的流程關系,滿足后續數據分析的需要。
2.多源異構數據處理技術
多源異構數據處理技術使用在大數據計算集群服務器進行多源異構數據處理階段,可以快速對前置機備份過來的醫院的多源異構數據結構進行識別,并快速建立不同數據表之間的關聯辨析,實現數據整合。數據整合為不同維度,通過智能的運算模型及不同的數據元標準,對數據進行清洗加工。
3.自然語言處理技術
自然語言處理子系統分為三個主要層次。分別是基礎數據層,自然語言挖掘算法層,以及結構化系統層。在基礎數據處理層主要通過整合權威醫學標準,大規模專業詞庫以及真實臨床醫學詞庫構建基礎詞庫。之后在挖掘算法層利用自然語言識別模型的訓練進行實體識別,關鍵詞提取,關系識別分類等工作。之后在結構化系統通過工具化人機協同工作針對臨床病歷數據進行疾病,手術,藥品,癥狀,診斷,檢查檢驗等數據項的結構化工作。
4.大數據治理技術
大數據治理技術應用在數據采集、清洗、轉換、關聯、數據質控等過程,通過人機結合的方式實現高效精準的數據治理,通過大規模自動化的采集、清洗、歸類、關聯數據,提升數據分析利用的準確性和實用性,形成統一數據視圖為后續系統提供服務。
5.K8S(微服務架構)
Kubernetes是一個全新的基于容器技術的分布式架構技術路線,在本項目中使用在應用架構搭建階段,Kubernetes(k8s)是Google開源的容器集群管理系統。在Docker技術的基礎上,為容器化的應用提供部署運行、資源調度、服務發現和動態伸縮等一系列完整功能,提高了大規模容器集群管理的便捷性。
6.Hadoop
Hadoop是Apache開放源代碼框架,在本項目中將采用Hadoop技術搭建大數據計算平臺,對匯總的健康醫療大數據進行分布式的集中處理。
7.Kylin
Apache Kylin?在本項目中應用在健康醫療大數據的查詢分析中,Kylin提供Hadoop/Spark之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據,它能在亞秒內查詢巨大的Hive表。
8.MongoDB
在本項目中MongoDB應用在線索引信息的存儲,在高負載的情況下,添加更多的節點,可以保證服務器性能。
9.大數據挖掘與分析技術
本項目將使用大數據挖掘與分析技術,如建立疾病圖譜等。整合和利用來自不同醫療服務機構和業務分散的信息和數據,從不同視角為各部門的數據分析、宏觀決策等提供依據。
貴陽市健康醫療大數據治理項目于2019年底正式啟動,目前項目基本框架和應用已經初步成型。截至2020年6月底,已經納入5家二、三級醫院和1個基層云HIS的醫療數據,本年內預計完成10家二級以上規模醫院和4個基層HIS的醫療數據。預期項目結束時,貴陽市所有公立醫院、部分私立醫療機構、全市基層醫云端療服務機構的醫療數據將全部進入治理體系,完成醫療數據資產化的工作。
大數據平臺建立應用體系:包括區域疾病圖譜子系統、健康數據智能查詢子系統、醫療機構數據視圖子系統、行為數據監控子系統、健康大數據誠信檔案子系統、居民健康數據視圖、健康大數據知識庫等多個系統。
圖1 截至6月平臺上完成數據接入情況
圖2 數據總體分析情況
圖3 健康數據智能查詢子系統
圖4 疾病特征分布
圖5 疾病分析圖譜
圖6 科研數據平臺
圖7 健康大數據知識庫平臺
《“健康中國2030”規劃綱要》中提到,“充分發揮健康醫療大數據作為國家重要基礎性戰略資源的作用”,以數據為依托,支撐以大健康為核心的健康、醫療、保險、藥品等產業的聯合發展,發揮健康醫療大數據在臨床決策支持、藥物研發、遠程病人數據分析、公共衛生領域等方面的價值。李克強總理明確表示,發展健康醫療大數據產業已經“迫在眉睫”?!袄习傩諏】档男枨笤絹碓礁?,大數據在健康醫療領域的運用也在突飛猛進。這些都倒逼我們必須加快發展規范健康醫療大數據應用的步伐”。
貴陽市健康醫療大數據治理項目通過醫療數據治理整合所有健康相關的數據,形成高可用的數據資產,并消除數據壁壘,以市級政府為主導,并運用大數據技術分析手段,對貴陽市人口疾病數據以及其他相關市直單位數據融合,在進一步健全和加強醫療大數據在互聯網+醫療健康、公共衛生、人工智能、家庭醫生等業務方面的支撐作用的同時,用數據支撐各項互聯網醫療服務的落地。同時,以健康大數據資產助推科學治貧、精準扶貧、有效脫貧的實施和落地。
但是,健康大數據發展應用的問題也逐漸浮現出來,如數據的多源性、多樣性問題,以及數據質量、可信度問題等。這些問題只有在根本上對數據產生、傳輸和利用的組織機構有清醒的認識和合理的定位,才能真正從根本上提升健康醫療大數據的可用性。
2015年習近平總書記視察貴陽時強調:“貴州發展大數據確實有道理”。同年“中國數谷”正式落戶貴陽。2016年李克強總理在國務院會議上強調,發展和應用好健康醫療大數據,是一項重大民生工程,既可以滿足群眾需求,也能促進培育新業態、形成新的經濟增長點?;诖?,貴陽市健康醫療數據治理項目下一步的主要目標是在支持好現有成果的前提下,逐步地進行迭代升級。進一步推進健康大數據在科研成果轉化方面,以及構建健康大數據產業生態鏈,用數據推動保險、藥企、養老等產業的融合。將以健康醫療大數據資產為基礎、健康醫療信息化建設為推手、健康醫療大數據應用為目的。努力通過大數據資產化來構建健康醫療大數據產業生態鏈,用大數據推動大數據、大健康、大扶貧等產業的聯合發展。