楊廣黔:數據治理規劃與實踐助力醫院高質量發展
2021年,國務院辦公廳印發了《關于推動公立醫院高質量發展的意見》,提出要提升公立醫院高質量發展新效能。其中,高質量運營管理、全面預算和績效評價等都離不開高質量數據的支撐。圍繞臨床診治、醫院管理和服務模式等都離不開數據的利用。為保證醫院數據是高可用的,數據治理非常重要。在這方面,廣州醫科大學附屬第二醫院(簡稱“廣醫二院”)進行了諸多探索。在CHIMA 2022大會上,該院信息科主任楊廣黔詳細介紹了醫院對數據進行治理的實踐。
以下內容根據楊廣黔主任發言整理。
構建自己的數據中心
廣醫二院信息化建設共分為四個階段:第一階段,是2000年以前,以人、財、物管理為主的模式;第二階段,2009年開始,以電子病歷為核心,建設面向管理、面向醫療、面向病人三位一體的管理模式;第三階段,是2012年開始,主要進行平臺化區域化建設,包括集成平臺建設(ESB)、HRP、質量管理平臺和區域醫療對接,實現了數據的共享和互認;第四階段,2016年開始,建立了數據中心,包括臨床數據中心、運營數據中心、科研數據中心等。在數據中心基礎之上,醫院開始數據治理和智能化應用,使管理邁向更精細化。
廣醫二院的信息化主要從患者端、臨床、后勤保障體系、綜合管理、對外數據共享和數據安全6個方面進行建設,而所有信息系統建設的基礎都是數據。如何利用好數據也是當前著力去做的一件事情。
回顧醫院信息系統建設之路,廣醫二院從很早開始就非常重視數據應用。醫院最早的數據應用主要包括以下兩方面:系統數據統計,制定科室定額;監控模塊的建立,實時監測。早期數據應用的特點是基于業務系統,以報表為主,人工分析數據,做一些同比和環比。數據來源主要是業務庫直接計算、日志還原疊加,而且是單個業務系統為主,也就是跨業務系統分析較少。最大的一個缺點是直接來源于業務庫,多為五年以上的數據。
為解決上述問題,廣醫二院考慮建立自己的數據中心。在進行數據中心規劃時,醫院主要考慮了以下幾點:第一,在做任何數據分析和統計時,不影響生產庫,生產庫是針對業務而言,而數據中心只是作為分析統計、獲取數據使用的,不能影響業務數據;第二,可跨系統、多維度收集和分析數據;第三,更換系統時依然可以保持數據的連貫性,可進行多年的數據對比。
廣醫二院建立數據中心主要有三種方式:通過集成平臺的消息;通過ETL數據采集工具;業務庫做日志還原的備份庫方式。醫院對數據中心的定位是從橫向、縱向兩方面收集醫院數據,關鍵在于數據的一致性及數據的及時性。醫院對數據中心一個最基本的要求是,所有系統應用的數據來源都可以取自數據中心,同時數據中心里的數據都是能夠不斷擴展的。
廣醫二院在2016年建立了集成平臺,系統通過平臺整合到一起,對信息進行了標準化處理。大部分數據中心的數據來自于集成平臺的消息服務,少部分數據是通過ETL工具在業務系統進行自動采集。當時,醫院業務集成情況如下:構建業務系統改造接口,接口涉及21個廠商、51個業務系統,原有接口484個,改造后接口275個;建立患者主索引,整理門診、住院共534萬患者信息,索引規則包括患者證件號、姓名、性別、出生日期和聯系方式,信息清洗后生成患者索引數450萬;設置術語字典,完成65個術語字典標準化,其中國際標準2個、國內標準8個、行業標準25個、院內字典30個;單點登錄改造,實際單點登錄改造系統32個,涉及廠商11個。
數據資源標準化主要分為三個步驟:梳理各系統數據集、數據元現狀及標準差異;對各業務系統進行改造,滿足數據集、數據元標準;根據相關標準,建立完整的數據集、數據元管理平臺。
經過多年數據標準資源化建設,我們發現改造最多的系統是電子病歷:病歷模板改造數量為2062個,數據集改造數量為58個,數據元數據共10448項。首先,電子病歷涉及的業務過程較多,同時電子病歷里面有很多非量化的信息,要做到數據元和數據集標準,必須要改很多模板。然后再根據醫院標準,建立數據元和數據集平臺。
在進行數據改造后,醫院把2009年至今的所有臨床數據、科研數據等都搜集到數據中心,在數據中心基礎上,也完成了患者主索引、全文搜索等應用。
但是廣醫二院在建成數據中心后,產生了一個瓶頸,即數據中心的數據是否質量很好,能否應用起來?經過檢查后發現,數據中心的數據實際上有一定問題,因為它們是從業務系統里抽出來,但是數據之間的邏輯關系其實沒有辦法判斷,并且沒有辦法進行合理的排除、清洗,導致有些數據多了,而有的數據卻缺失了。因此,醫院決定進行數據治理,以保證數據質量。
開展數據治理
在進行數據治理前,廣醫二院首先研究了當前較為通行的數據治理模式。
第一,數據治理前置模式。它是在原數據系統里面進行數據治理,治理后存一份數據在業務庫里,然后把數據抽取到數據中心,提供給數據中心使用。這種模式主要缺點如下:當我們的數據治理規則改變后,每一個業務系統都得跟著業務規則進行改造,工作量非常大;標準的修改會導致數據矯正出現偏差。因為數據治理規范工程師不是一個專門的隊伍,會讓業務工程師去做治理。而業務工程師可能會對規則理解不透,因此導致治理出來的數據不規范,不符合標準。因此,在數據治理中一般不建議采取前置模式。但數據治理前置模式也有其應用場景,如上傳衛生健康委健康平臺,建議各個醫療機構數據前置后,再上傳數據。
第二,數據治理后置模式。原業務系統不變,同步歷史數據和實時數據到數據中心,在數據中心里面保持一份數據原貌,如果標準修改只需要重新對標。然后根據數據治理的規則進行數據治理,對標完后由數據中心提供給其他部門使用。這種方式對數據治理而言會比較規范。這種模式也存在一個挑戰,即實時數據治理的壓力全部壓在數據中心,對資源要求很高,而且會有一定的數據延時性。這種挑戰對醫院而言是可以應對的,因此數據治理一般會選擇后置模式。
在進行數據治理時,廣醫二院發現之前采集數據是基于集成平臺進行,這種方式面臨的一個最大挑戰在于可能并不是所有數據都是經過集成平臺采集的。因此,醫院后來改變了數據采集模式,全部數據來源于源業務系統,在此基礎上,采取的是智能數據采集的方式。
這主要有兩大部分:歷史數據抽取和實時數據捕捉,盡量使數據湖里的數據和源業務系統數據保持一致。數據湖里的數據分為數據內容和數據結構進行保存,每個數據內容標注數據結構版本號。
智能數據采集可以自動感知數據結構變化,但需要人工處理。在進行數據采集時,主要分為兩大部分:第一部分是歷史數據抽取,難點在于數據分割;第二部分是實時數據捕捉,需把握好頻次。這兩種抽取方式根據業務系統的數據庫不同,進行數據抽取的組件方式也不同,因此在抽取數據時一定要小心。在進行數據治理時,先治理歷史數據,再治理增量數據(理想狀態),現實一般是按系統混合治理。
智能數據治理系統主要涉及以下四部分:首先是設定治理規則,包括表治理規則、行過濾規則、數據項治理規則和數據項治理明細設定;其次是行數據治理,包括源行數據過濾、行數據載入、行數據關聯載入;第三,單項數據治理,包括單項源數據載入、數據標準化、數據映射、數據格式化處理、清洗函數處理、數據關聯性處理;第四,結構化處理,包括數據歸一、數據分類、數據聯動、數據追溯。在實踐中過程中,規則如果修改了,只能啟用新規則,停用上一次的規則。是否全部重新治理也是人為判斷。
總體而言,影響數據治理建設的因素主要有以下三大方面:對新技術的把控能力;對數據庫的深度應用;對業務數據的熟悉程度。
上一篇: “互聯網+護理服務”質量安全保障機制研究