馬麗明:推動醫院信息系統業務連續性管理
隨著醫院信息化建設的普及和深入,信息系統連續的重要性日益凸顯。要提高醫院信息系統的連續性和穩定性,需采取相應措施保障信息系統安全,降低突發事件概率。在CHIMA 2019大會上,佛山市婦幼保健院信息中心主任馬麗明詳細闡述了推動醫院信息系統業務連續性管理的方法。
以下內容根據馬麗明主任演講內容整理。
佛山市婦幼保健院是一所集醫療、保健、科研、教學、信息管理、健康教育六大功能于一體三甲專科醫院,是佛山市婦幼保健業務的指導中心,2015年通過德國KTQ醫院質量認證。設有婦、產、兒等多個重點學科,其中產科2011年成功實施亞洲首例開放式子宮內胎兒手術,婦科陰式系列手術連續20年位居全國領先。
醫院信息中心現有專業技術人員20名,碩士6名,本科以上占比100%,其中已考取高級職稱4名。信息中心自行負責數據庫、數據中心的運維,承擔HIS、電子病歷、BI等等開發與維護,同時負責佛山一市五區58所產院及200多個社區的區域婦幼信息化建設和管理。
醫院信息化建設起步于1992年,2004年實施結構化、一體化電子病歷, 2007年參與國家區域信息資源規劃,先后參與區域平臺、區域健康檔案、電子病歷數據標準、婦幼系統功能規范、居民健康卡等標準的研制,并把成果應用到工作中,2015年實現移動智能,包括門診、住院、保健服務,以及臨床診療、后勤服務、辦公管理的互聯網應用,覆蓋院前、院中、院后的醫療服務全流程。
醫院信息系統業務連續性管理的需求源自于人們的風險防范意識,其中核心是容災系統。
信息系統容災是指建立兩套或多套功能相同的IT系統,系統之間能夠進行健康狀態監視和功能切換。容災系統的目標是保證業務的連續性,災備效果取決于數據恢復時間的長短。如果恢復時間過長,則不存在業務連續性。容災目標是縮短恢復時間,終極目標是消除這個時間。
按照對系統的保護程度,容災系統大致可分為三種:
一是數據級容災。強調的是數據的遠程備份,確保原有數據不丟失,它的費用較低,構建實施相對簡單,但應用可能會中斷,恢復時間也較長。
二是應用級容災。是在數據級容災基礎上,再構建一套相同的應用系統,保證關鍵應用在允許的時間范圍內能夠恢復,它需要更多技術實現快速切換,確保業務的連續性,系統建立相對復雜,不僅需要一份可用的數據復制,還需要網絡、主機、應用、甚至IP等各資源間良好協調。
三是業務級容災。它要求更高的全業務災備,包含很多非IT技術,如辦公場地、供應商、供應鏈的管理等。
業務連續性管理是一個體系,是容災技術的升華概念,是相關所有活動的一個集合。它是由計劃和執行過程組成的策略,覆蓋了技術和操作方式,目的是保證機構信息流在任何時候及任何狀況下都能保持業務連續運行。策略通常以服務器及主機為核心,包括預算、IT系統、基礎通信設施、人員培訓、應急演練、安全防范等重要環節。
業務連續性總體設計的主要依據是《信息安全技術網絡安全等級保護基本要求》、《信息安全技術信息系統災難恢復規范》、《 數據中心設計規范》,同時還可參考《ISO27001信息安全管理體系》、《BS25999業務連續性管理的標準》等要求,但最關鍵還是結合自身業務、資源等實際情況進行量化設計。
醫院信息系統很復雜,系統從客戶端發送請求到服務器,服務器返回數據到客戶端,中間經歷非常多的環節,就像人體一樣,雖然只是動一個小手指頭,但卻需要人體八大系統協調配合。因此,醫院在做業務連續性總體規劃時,要從物理層、網絡層、接入層等綜合因素進行考慮,要結合醫院的實際情況,正如每個人的體質不同,每家醫院的現有條件也是不一樣的。
業務連續性管理的核心基礎是IT備份和恢復。整個系統的高可用性,是通過每一層的冗余加上自動故障轉移來綜合實現的。在硬件層面上,設備性能需要滿足業務處理能力且滿足業務高峰期需要,服務器、存儲、核心交換機等關鍵設備要冗余配置,同時關鍵設備的關鍵部件,如電源、CPU等也要冗余配置。
容災系統主要分為以下四級:
第0級:沒有備援中心,數據本地備份。備份數據只在本地保存,沒有送往異地。
第1級:本地備份,異地保存。成本低、易于配置。但數據量增大時,存在存儲介質難管理,難以及時恢復等問題。這個級別的容災,需要注意預先確定數據恢復的先后次序和步驟,確保關鍵業務數據優先恢復。
第2級:熱備份站點備份,異地建立熱備份點。使用同步或異步方式通過網絡進行數據備份,不承擔業務。當出現災難時,備份站點接替主站點的業務。
第3級:活動備援中心。兩個數據中心,都處于工作狀態,并進行相互數據備份。當某個中心發生災難時,另一個中心接替其工作任務。這個要求最高,需要的資源和投入也是最大,但發生災難時,它的恢復速度最快。
容災系統設計時需考慮包括備份/恢復數據量的大小、應用數據中心和備援數據中心之間的距離、數據傳輸方式、災難發生時所要求的恢復速度、備援中心的管理及投入資金等因素,并根據以上因素,結合自身業務狀況確定選用的等級。
系統的可用性是系統正常運行時間的百分比,是架構組最主要的KPI,此外,還有復原時間目標(Recovery Time Objective,RTO)和復原點目標(Recovery Point Objective,RPO)。RTO主要指企業所能容忍的業務停止服務的最長時間,RPO主要指業務系統所能容忍的數據丟失量。兩者沒有必然的關聯性,不同業務RTO和RPO需求不同,不同企業的同一種業務,RTO和RPO的需求也會有所不同,理想是兩者皆為零。
各分項設計包括機房設計,以及網絡、接入層、應用層、服務層、數據層服務器、存儲等的高可用設計。
1.機房設計。機房是信息系統業務連續性的基本保障(可參考四星級IDC機房標準)。首先,在機房選址上,除了要考慮防震、抗災、抵御強烈的風暴外,還要避免頂層或地下室以及用水設備下層或隔壁。其次,在機房材料選擇上,要注意選擇耐火材料,安全為主、裝飾為輔。同時,機房放置的往往不只是醫院信息系統使用的設備,可能也會涉及一些經常需要正常運維的設備網或運營商的設備,因此,這些設備要避免混雜在一起,盡量分成獨立的物理區域進行管理,這樣有利于降低日后的運營管理成本。
構建雙機房時,要考慮多方面的因素,例如:機房間的距離遠近,光纖部署方式是單模還是多模?雙活機房間的群集系統通訊心跳時間是否滿足?機房間的系統硬件配置是否一致?是否存在低配機房性能無法接管高配機房業務系統?建議采取雙活機房模式時,兩機房之間的距離小于100KM。
供配電是機房設計中最重要的部分之一,雙回路市電+發電機+UPS供電模式幾乎成為機房設計的標配,但是,需要特別注意UPS供電的范圍,建議UPS的供電保證到配線間,有條件的甚至可考慮機房空調的供電。
此外,防水、空調、照明、消防、安防等均需要嚴格按照國家的規定進行設計,保證機房平穩安全運行。
2.網絡高可用設計。它是業務連續性的保障之一,而且是非常重要的一個組成。其中,主干和水平子系統一定要做冗余配置,建議采用多條物理鏈路連接,并配置鏈路聚合。A級數據中心的核心網絡設備應采用容錯系統,并應具有可擴展性,相互備用的核心網絡設備宜布置在不同的物理隔間內。同時要做業務、心跳、備份鏈路隔離,這是鏈路高可用的一個很重要的保障。
現在很多醫院是多院區的,在做異地機房互聯時,建議用兩對以上的光纖鏈路,同時要求運營商的光纖鏈路設計要端到端的雙路由,走不同管道,從不同的入口進入院區。
網絡分區分域管理,是國家信息安全等級保護的要求,也是醫院自身降低風險的需要,因為很多醫療設備、監控設備,由于特殊性無法安裝準入系統和殺毒軟件,需要根據不同特點對網絡進行分區隔離,采取不同的管理措施。從我們自身經驗來看,網絡基礎安全配置,是目前最有效、性價比最高的一種安全防護手段。醫院可以通過相應的管理策略,降低整個網絡安全運維的風險。此外,建議做好網絡邊界防護,部署準入控制系統,定期清查無用端口。
進行網絡高可用設計,在構建容災系統時,需要建立多層次的網絡故障切換機制,才能確保快速反應和迅速的業務接管。建議至少包含以下機制:本地系統安全機制、遠程數據復制機制、遠程故障診斷機制和故障切換策略。
3.接入層的高可用設計。主要考慮可用性、擴展性,可使用反向代理+負載均衡等技術,使請求可以均勻分攤到后端的操作單元執行。
4.應用層高可用設計。建議在應用層不要包括復雜的業務邏輯,只做呈現和轉換。可以通過負載均衡轉換和高可用進行對外接入,同時做好程序的更新備份與回退機制。
5.服務層高可用設計。盡可能把服務微小化,同時,業務領域的每個子域單獨一個服務。要對服務進行分類分級,采取分而治之的管理辦法,對服務的設計、部署、上線發布等各個環節進行管理,建議核心服務可采取獨立服務器且N+1的部署方式。
6.數據庫高可用設計。主要使用Mongo DB等分布式數據庫或使用數據庫軟件自身的高可用機制,如ORACLE RAC等方式實現。合理使用緩存,數據、應用分離,數據讀寫分離是高可用數據庫架構最常用到的方法。對于訪問量大的數據庫可做讀寫分離,對于數據量大的數據庫可做分庫分表,不同業務域數據庫做分區隔離,重要數據庫配置備庫。
7.服務器高可用設計。傳統服務器虛擬化和超融合虛擬化是目前實現服務器高可用的兩種主流技術,兩者各有優缺點,應根據自身業務特點選用適合的實現方式。
8.存儲的高可用設計。存儲虛擬化技術和分布式存儲技術是目前實現存儲高可用的兩種主流技術。
信息安全從來不是信息部門單獨的事情,必須全員的配合。醫院應把業務連續性管理融入到組織文化中,完善相關組織架構、制度流程和操作規范,落實經費、明確人員及崗位職責,并建立應急管理機制,明確安全事件發現報告和處理流程。業務連續性方案和方針管理中,需特別關注人員教育和培訓,應不斷根據新的安全動態,制定和修訂相應的安全計劃和制度。同時,及時在全院開展相關的培訓與學習。我院在每年新員工崗前培訓、中層會議上,進行信息安全基本知識培訓,收效顯著。
制訂業務連續性策略,要根據醫院的實際情況,進行業務影響分析、風險評估,以及連續性資源分析,然后根據分析的結果,制定業務恢復指標。它一定是有差別化的業務恢復策略和業務恢復預案,其中必須包括關鍵業務資源恢復、業務替代手段和數據追補和數據恢復的優先級等。
制定和實施業務連續性響應時,需建立并實施覆蓋重要業務的連續性計劃;制定總體應急預案及重要業務專項應急預案;要與公共事業部門、同業單位、外部金融服務平臺建立有效銜接;應要求重要業務及信息系統的外部供應商建立業務連續性計劃,并證明其業務連續性計劃的有效性,建立重要供應商備份制;應急預案應內明確數據追補方案和業務替代手段;建立危機公關,做好輿情監控和引導。
服務器永不宕機,是所有醫療信息化人士的共同期望。我們在業務連續性管理中,應做到事前有預案、事中有響應、事后有監測,并在故障事件處理過程主動告知、及時回應、合理引導,為醫院臨床和管理業務的可持續運行提供安全保障。
下一篇: 包國峰:探索醫療云服務模式