北京友誼醫院:OCR文字識別助力放射防護精細化管理
CHIMA 2020醫院新興技術創新應用優秀案例征集自啟動以來,獲得了業內各方的積極響應。CHIMA將陸續刊登參評案例,展示醫療信息技術科技創新應用成果。案例征集截止日期為11月5日,歡迎大家踴躍投稿。
2019年6月,根據北京市衛生健康委關于印發《2019年北京市放射衛生監測項目工作方案的工作》的通知:推進2019年職業病防治項目,切實做好北京市職業性放射性疾病監測、醫療衛生機構醫用輻射防護監測、非醫療機構放射性危害因素監測等3項監測工作,各區需要在轄區范圍內選擇部分醫療機構作為試點開展監測工作,并逐漸將范圍覆蓋全市各區、各級醫療衛生機構。
北京友誼醫院作為其中一家監測試點醫療機構,需填報“北京市放射衛生監測數據庫”,上傳所有放射工作人員的職業健康檢查結果、個人劑量監測數據、持證在崗培訓情況,與各放射診療設備檢測數據。但放射人員數據復雜、設備種類繁多,如果依賴手工統計整理,工作量龐大,需要通過建設信息化系統實現放射相關數據的統一管理與業務流程規范化,在此背景下,我院建設了放射防護管理系統。
放射工作人員的體檢情況與操作培訓是否合格、每臺設備儀器的定期檢測結果是否正常,一直是醫院放射防護管理中的重點工作,需要及時掌握情況并做出正確措施以保證放射防護工作的正常開展,但之前由于沒有信息化系統支撐,存在以下管理痛點:
(1)對于每年度或者季度的人員體檢報告、劑量筆檢測報告、設備檢測報告,各個檢測服務商基本以PDF電子掃描版或者紙質版提供,醫院管理人員無法直接用于線上管理,只能通過手工方式在excel表中一一錄入,效率低下,而且難免錯漏。
(2)當出現體檢結果或者設備檢測結果有問題的報告,管理人員只能通過線下單一溝通方式,進行科室之間聯系通知,溝通成本大,而且對后續的復查進度與效果難以把控,管理工作質量無法保證。
(3)管理部門與各放射診療科室之間,關于放射防護管理工作的信息無法及時共享,經常出現信息不對等情況而影響工作成果與效率。
我院通過梳理放射防護管理工作中遇到的實際問題,于2019年7月,從需求調研階段開始建設放射防護管理系統,對各放射診療相關人員及設備的基本信息進行統一線上管理,并通過OCR文字識別技術(簡稱OCR)自動采集人員體檢報告或設備檢測報告結果數據,同時支持管理工作中所需要的多種維度的數據分析、統計與導出。
(1)系統架構
放射防護管理系統采用分層的系統架構,從下至上分為數據接入層、聚合層、服務層和應用層,層與層之間只需通過標準接口就可實現交互,滿足高內聚,低耦合特點,便于后期版本迭代,功能拓展。
系統架構示意圖如下:
圖1 放射防護管理系統架構圖
數據接入層:
系統數據接入方式包括三類:企業服務總線、ETL及API。企業服務總線是實時地從信息平臺訂閱生產數據,根據條件規則,將滿足條件的數據存儲到系統數據庫;ETL方式是按照系統同步轉換規則,定時從其他業務系統獲取數據并進行存儲;API集成方式通過API接口實時獲取其他系統的業務數據。
聚合層:
采用關系型數據庫,將不同數據接入方式的業務數據,按照數據模型集中存儲到本地數據庫中,提高數據的訪問效率,同時存儲隨訪系統用到的標準化字典及知識庫數據。
服務層:
主要提供文件管理服務、OCR識別服務、統計分析服務、消息提醒服務及統一通訊服務。圍繞著上層的應用,服務層完成系統的核心業務功能,為表現層提供基于業務的操作管理功能,主要實現報告導入,文字識別,數據的統計分析、消息提醒等功能。
表現層:
提供B/S架構的展現界面,為系統使用者提供豐富靈活、友好的人機界面,同時要確保信息展示的完整性、準確性、時效性。主要功能包括:人員管理、設備管理、監督管理、證件管理、消息提醒等。
(2)關鍵技術一:OCR技術
計算機文字識別,俗稱光學字符識別,英文全稱是Optical Character Recognition(簡稱OCR),它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,并轉換成一種計算機能夠接受、人又可以理解的格式。OCR技術是實現文字高速錄入的一項關鍵技術。
放射防護管理系統利用OCR技術,將紙質掃描版的放射人員年度或季度體檢報告、各個檢測服務廠商提供的設備檢測報告進行識別讀取轉換存儲到系統數據庫中去。
圖2 OCR技術識別提取
目前系統中涉及到三大類報告分別為:人員體檢報告、人員劑量筆報告、設備檢測報告;需要從人員體檢報告中識別獲取:人員身份信息,體檢結果及結論,體檢日期等有效信息;人員劑量筆檢測報告需要獲?。簞┝拷y計時間、個人劑量值等有效信息;設備檢測報告需要獲?。涸O備編號,設備廠商,檢測日期,檢測結果,設備使用地等有效信息。
通過將上述有效關鍵信息項識別提取之后,準確填充到系統對應數據庫中用于數據分析管理。
圖3 相關報告
最初直接使用OCR技術時,由于上述相關報告來自于多家檢測服務商,報告格式各不相同,內容形式也不統一,同時由于掃描紙質版報告過程中會存在一系列的操作問題出現:清晰度不夠、公章水印覆蓋、標題順序差異、部分報告缺失關鍵首頁等各種現象,導致在進行識別時準確率不足50%,有的報告甚至不足20%。
為了解決此問題,提高OCR識別準確率,信息技術人員經過不斷地試驗訓練,對識別的圖像進行預處理:包括圖像裁剪、矢量偏移、灰度化、降噪處理等技術提高關鍵信息的識別度、并通過特征提取、系統容錯處理等手段對采集到的信息進行校驗修正,從而提高文字識別率和準確率,經統計,目前為止,識別數總共4361項,準確率為92%以上。對于識別不準的項目,系統會給出原因提示,告知用戶由于圖像質量問題導致識別不到掃描項,提醒用戶需要進行修改編輯;另外對于識別到的關鍵項信息,系統也做了標識處理,達到快速定位的目的,方便使用人員快速定位及進一步核查。
圖4 圖像處理技術
(3)關鍵技術二:利用統一的通訊服務平臺進行消息推送
利用統一的通訊服務平臺,不同的消息類型采用不同的消息模板通過分支選擇推送到相應角色的人員。
圖5 消息推送提醒
(1)實現放射人員與設備的一體化管理
建立統一的放射人員及設備信息管理平臺,將醫院各科室種類繁多的相關電子報告導入到系統中,并對各管理版本的報告進行處理存儲到數據庫中,提供查看、核對;并對體檢不合格人員進行預警通知,支持數據導出等操作功能,并通過權限管理設定,實現多科室全方位一體化管理。
本年度已經通過信息化管理所有放射相關人員與各類放射診療設備,大幅度提升管理效率。
圖6 年度管理報告數
(2)通過高識別準確率的OCR技術擺脫低效手工作業
借助OCR技術,將放射防護管理人員由之前的查閱人員體檢報告、劑量值檢測報告后人工錄入到Excel中的繁瑣工作中解脫出來,現在只需要短短的幾分鐘便可將之前可能需要花費數天的統計內容清晰明了地展示在系統中,供管理人員查看導出等操作,使數據采集更加高效便捷,節省了人工操作時間,同時也大大提高正確率。
根據分析統計,設備檢測報告平均識別準確率為95.2%,劑量筆檢測報告識別準確率為96.02%,而體檢報告識別準確率已經高達100%。
圖7 OCR識別準確率
(3)消息推送提醒更加及時,改變線下單一溝通方式
管理人員可以直接在系統中設定體檢不合格需要復查的人員或者有培訓排期的人員,系統將自動推送通知消息給相應人員,并及時高效地得到信息反饋,與之前一對一的線下溝通的方式相比,節省了大量的時間,降低了溝通成本。
(4)監督整改工作實現流程閉環管理
放射防護管理人員進行監督檢查后通過系統發送督辦事項提醒,相關科室進行分析整改、持續改進形成完整的知識體系,實現了整個監督整改的閉環管理。
圖8 消息推送提醒
基于放射防護系統的建設,實現了對放射相關人員基本信息、體檢報告、培訓報告、劑量筆檢測報告及放射設備基本信息、檢測報告、防護儀器、防護用品、質控設備的統一管理,提高效率與管理質量。實現了管理部門對于整改過程中的閉環管理。通過統一通訊服務,更加及時對相關人員進行消息提醒,提升了對相關工作的精細化管理水平。
隨著醫院后續進一步的管理需要,在滿足數據接入的條件下,繼續做好與其他業務系統的集成工作;后續相關體檢機構與設備廠商能夠提供電子化文檔數據進行對接后,便可以進一步提高錄入效率及準確率。同時在保障醫療數據安全前提下,根據業務靈活調整平臺功能模塊,持續優化平臺功能,提高易用性及可靠性。
申報單位:
首都醫科大學附屬北京友誼醫院
聯合申報單位:
北大醫療信息技術有限公司
參選方向:
人工智能創新應用