25.東華醫為:助力醫院構建“AI+大數據”疾病風險預測模型【CHIMA 2019案例分享】
案例提供:東華醫為
案例概要
在國家“十三五”規劃之際,國家先后發布《關于促進和規范健康醫療大數據應用發展的指導意見》和《“健康中國2030”規劃綱要》等重要性指導綱要,其中指出大力推動健康醫療信息系統和公眾健康醫療數據互聯融合、開放共享,消除信息孤島,并推進健康醫療行業治理、健康醫療臨床和科研大數據應用,系統加強臨床和科研數據資源整合共享,提升醫學科研及應用效能,推動智慧醫療發展。
為落實《關于促進和規范健康醫療大數據應用發展的指導意見》,推進健康醫療臨床和科研大數據應用,激發創業創新活力,建設健康中國。以搭建疾病預測模型構建策略為目的,探究海量異構的HIS數據中隱性知識到顯性知識的發現途徑,東華醫為搭建了基于大數據與人工智能的疾病風險預測模型。充分利用人工智能+醫療的技術,將醫療健康與人工智能的創新成果深度融合,實現了個性化、精準化、智能化的“AI+大數據”疾病風險預測模型。2019年1月,東華醫為利用大數據應用技術協助北京協和醫院神經外科專家構建了庫欣病術后復發風險的預測模型,以此模型為基礎的文章在SCI來源期刊Neuroendocrinology雜志上發表見刊。
東華醫為(全稱東華醫為科技有限公司)成立于2012年5月,注冊資金5000萬,是東華軟件股份公司旗下專業服務醫療、衛生等大健康領域IT業務的全資子公司。東華醫為現有員工2400余人,其中技術人員占比達到90%,擁有近100項大健康類自主知識產權的軟件產品,所覆蓋的大健康領域有醫療機構、衛生管理機構、互聯網醫療、人工智能、大數據、健康管理等,所涉及的主要業務有IT咨詢規劃、方案設計、系統集成、軟件開發與交付、工程實施與交付、人才培養、售后運維、合作運營等。東華醫為現為全國500余家大健康領域的各類用戶提供著持續的技術服務,還連續多年蟬聯中國十佳醫療行業解決方案商榜首。
解決問題
本案例充分發揮東華醫為優勢,面向健康醫療臨床和科研大數據應用,提升醫學科研及應用效能,推動智慧醫療發展,形成了“AI+大數據”疾病風險預測模型,并旨在解決以下兩個核心問題:
1.完善“AI+醫療大數據”支撐體系,形成個性化的疾病風險預測模型。在醫學研究領域中,“預測模型”常被用來預測某種疾病未來的發病情況。具體來說就是以疾病的多病因為基礎,建立預測模型,用來預測具有某些特征的人群未來某種結局事件發生的概率。目前多數臨床決策支持應用研究包括疾病診斷、危險因素或復發與否等預測。構建“AI+大數據”疾病風險預測模型輔助臨床決策,不僅僅是建立預測模型或評判預測方法,而是在于如何提高醫生工作質量,例如縮短診療時間、避免過度醫療、減少醫療差錯等。
2.建立“AI+個體化治療”服務體系,提供線上線下一體化的優質醫療服務體驗。臨床醫生在臨床實踐中應用疾病風險預測模型,可以快速準確地確定高?;颊?,進行有針對性的治療。還可以加強醫患之間的溝通和交流,使患者能夠更加明白和信任醫生采用的治療方案。此外,通過模型還可以尋找到能預測疾病發生相關危險因素,為發病機制研究提供線索并指導臨床診斷和篩查。而對人群進行高危篩查,可以更好地實施高危人群策略,開展三級預防。通過高危人群的篩查,使有限的衛生資源得以合理化應用,降低疾病的發病率和死亡率。
數據內容
數據來源于科研大數據中心,內容包括專病數據在院HIS數據及隨訪數據(脫敏后),包括醫院信息系統(hospital information system,HIS)數據、臨床信息系統(clinical information system,CIS)數據、實驗室信息系統(laboratory information system,LIS)數據、放射信息管理系統(radioiogy information system,RIS)數據、影像歸檔和通信系統(picture archiving and communication system,PACS)數據和病案系統數據等。
關鍵技術
1.基于科研大數據中心的數據探索系統
實現一個包含院級科研數據中心的數據探索系統,簡化臨床科研工作中病歷查詢、篩選等核心環節,同時具備研究項目管理、數據導出和數據分析等功能,以滿足科研用戶快速查詢提取院內數據、在線分析的臨床科研需求。
2.構建數據集市
根據臨床科研標準化、結構化的需要,在標準數據層的基礎上,對數據分類細化處理,形成應用數據集市。通過聚合/統計計算,補充就診次數、住院次數、手術次數,就診年齡等計算指標,為后續搜索和數據分析提供基礎數據支持。將醫院醫療業務系統中的長文本數據,通過自然語義處理技術,結合醫療專業術語的語義結構,將醫療語義信息從原始的自然語言表達,擴展分析為結構化的Key-Value模式,為后續的應用、挖掘、機器學習提供基礎數據支持。
3.大數據引擎技術
通過基于Lucene的搜索服務器Elasticsearch,提供了一個分布式多用戶能力的檢索引擎。通過構建倒排索引+分布式檢索實現快速檢索的功能。倒排索引:非結構化數據中所存儲的信息是每個文件包含哪些字符串,也即已知文件,欲求字符串相對容易,也即是從文件到字符串的映射。分布式檢索:Elasticsearch的查詢執行過程通常要分成兩個階段,分散階段及合并階段。分散階段是向所查詢的索引中的所有節點發起執行查詢的過程,合并階段是將各節點返回的結果合并、排序并響應給客戶端的過程。
4.AI建模技術
人工智能通過場景、算法、平臺和醫療大數據疾病風險預測這一場景,可以讓技術與場景結合,加速技術落地產生價值;在算法上,通過三維識別、去躁降維提供結構化的數據分析;通過強大算力,建立數據中心,最終使得人工智能技術與疾病風險預測場景相輔相成。結合人工智能技術對于數據進行整合與挖掘、并進行數據共享機制的探討,使其具備可應用的價值和向縱深發展的潛能。
成果成效
以北京協和醫院神經外科庫欣病術后復發風險預測模型為例。
東華醫為利用大數據應用技術協助北京協和醫院神經外科專家構建了庫欣病術后復發風險的預測模型,以此模型為基礎的文章《Prediction of recurrence after transsphenoidal surgery for Cushing’s disease: the use of machine learning algorithms》(IF=5)在SCI來源期刊Neuroendocrinology雜志上發表見刊。
東華醫為于2012年開始與北京協和醫院神經外科合作,共同搭建多中心數據科研平臺,通過多中心科研平臺收集、整合并清洗分散在北京協和醫院及其合作醫療機構的HIS、電子病歷、檢查、檢驗、病理及手麻等多個信息系統內的數據,同時收集醫生手動整理的多源異構數據。截至2018年共收集整理垂體瘤患者病例近2萬例。
通過病例分析研究,選定庫欣病的術后復發預測作為研究突破方向,東華醫為提供技術支持,協和專家提供疾病專業知識,雙方合作完成了庫欣病術后復發風險預測模型的構建,并利用人工智能技術在2個月內完成數據清洗挖掘工作,建立模型測算。該模型AUROC達到0.70以上,并發現了與庫欣病相關的18個有價值的風險因素和保護性因素。該模型可在臨床診療過程中,輔助醫生預測庫欣病手術患者術后復發情況、指導患者進行有針對性的預防、降低術后復發風險,從而改善患者的生活質量。
下一步計劃
在國家發展健康大數據的政策支持下,隨著大數據技術的發展,醫療大數據的挖掘和分析工作不斷深入,大數據對臨床和科研的助力開始顯現。
東華醫為一直以來持續投入大量人力、財力開展新技術的應用和新產品的研發工作,針對醫療機構的醫療大數據應用需求,東華醫為推出了醫療大數據分析系統。該系統集臨床數據采集、存儲、分析和統計功能于一體,可進行全面的數據整合和高效的數據治理,協助醫生充分挖掘臨床數據的潛在價值,高效產出科研成果、提升醫療服務質量。
在未來,東華醫為將通過“健康鏈”平臺協助醫院完成從IT治理向數據治理的轉變,協助醫院最大程度的發揮醫療大數據的價值,協助更多的醫學專家完成科研成果轉化,幫助他們走向世界科研舞臺。