北京協(xié)和醫(yī)院:醫(yī)療大數(shù)據(jù)平臺研究及應(yīng)用
2021年醫(yī)院新興技術(shù)創(chuàng)新應(yīng)用典型案例征集活動共選出21篇典型案例,在CHIMA 2021大會上對獲選案例進(jìn)行了頒獎。
2021年2月19日,國家最高領(lǐng)導(dǎo)人主持召開中央全面深化改革委員會第十八次會議并發(fā)表重要講話,通過了《關(guān)于推動公立醫(yī)院高質(zhì)量發(fā)展的意見》,提出以改革創(chuàng)新為動力,推動公立醫(yī)院高質(zhì)量發(fā)展。
據(jù)此,北京協(xié)和醫(yī)院將智慧科研的建設(shè)作為創(chuàng)新切入點,通過全系統(tǒng)數(shù)據(jù)整合,完善臨床信息系統(tǒng)標(biāo)準(zhǔn)化建設(shè),不斷探索科研模式創(chuàng)新、構(gòu)建智慧科研新生態(tài),建設(shè)了多層次、多領(lǐng)域覆蓋的全院級綜合性醫(yī)療大數(shù)據(jù)平臺,以及以專科為核心的專病數(shù)據(jù)庫平臺等。
根據(jù)建設(shè)目標(biāo)及要求,我院搭建了從數(shù)據(jù)到應(yīng)用的多層架構(gòu)體系,其中包括:標(biāo)準(zhǔn)體系、多模態(tài)數(shù)據(jù)體系、多模態(tài)數(shù)據(jù)融合與處理、科技創(chuàng)新應(yīng)用等。
1.標(biāo)準(zhǔn)體系
通過構(gòu)建科研標(biāo)準(zhǔn)體系,實現(xiàn)了數(shù)據(jù)存儲體系、數(shù)據(jù)治理體系、科研知識庫標(biāo)準(zhǔn)的建設(shè),為建設(shè)全生命周期的臨床數(shù)據(jù)標(biāo)準(zhǔn)化應(yīng)用體系、提高數(shù)據(jù)利用水平和信息系統(tǒng)智能化程度打下基礎(chǔ)。
2.多模態(tài)數(shù)據(jù)融合與處理
結(jié)合機(jī)器學(xué)習(xí)、NLP等大數(shù)據(jù)技術(shù),整合院內(nèi)外及公共衛(wèi)生等多模態(tài)數(shù)據(jù),實現(xiàn)了數(shù)據(jù)融合與處理、數(shù)據(jù)標(biāo)化與治理、數(shù)據(jù)質(zhì)量質(zhì)控等一系列數(shù)據(jù)的深度治理,為科研數(shù)據(jù)的使用提供保障。
3.便捷數(shù)據(jù)查詢服務(wù)
構(gòu)建數(shù)據(jù)服務(wù)開放平臺,實現(xiàn)數(shù)據(jù)資產(chǎn)查詢與統(tǒng)一調(diào)用,同時啟動數(shù)據(jù)授權(quán)與審批機(jī)制,保障數(shù)據(jù)調(diào)用的安全。
4.一站式統(tǒng)計分析服務(wù)
基于數(shù)據(jù)的使用分析,匹配相關(guān)應(yīng)用場景,開展臨床研究、精準(zhǔn)醫(yī)療等內(nèi)容建設(shè),推動科研應(yīng)用。
5.研究成果轉(zhuǎn)化“基地”
基于科研創(chuàng)新項目,提煉研究成果轉(zhuǎn)化思路,實現(xiàn)數(shù)據(jù)集構(gòu)建、研究模型的臨床落地應(yīng)用,加速實現(xiàn)成果轉(zhuǎn)化。
1.標(biāo)準(zhǔn)體系建設(shè)
從臨床數(shù)據(jù)標(biāo)準(zhǔn)化和臨床系統(tǒng)數(shù)據(jù)處理的實際應(yīng)用場景出發(fā),提出以實時采集、標(biāo)準(zhǔn)化、可利用、可更新為主要原則的標(biāo)準(zhǔn)化體系建設(shè),構(gòu)建覆蓋醫(yī)療機(jī)構(gòu)標(biāo)準(zhǔn)實施、應(yīng)用、更新的臨床數(shù)據(jù)標(biāo)準(zhǔn)化應(yīng)用體系。
2.多模態(tài)數(shù)據(jù)融合與治理
基于大數(shù)據(jù)及人工智能技術(shù),對院內(nèi)外數(shù)據(jù)進(jìn)行抽取,形成科研數(shù)據(jù)中心,從數(shù)據(jù)庫層面打通各信息化應(yīng)用之間的數(shù)據(jù)通道,同時對數(shù)據(jù)進(jìn)行加工處理,形成可識別、可利用的數(shù)據(jù)信息,助力臨床研究發(fā)展。
(1)數(shù)據(jù)抽取
對病歷、檢驗、檢查、醫(yī)囑、護(hù)理等數(shù)據(jù)進(jìn)行歷史數(shù)據(jù)抽取和增量抽取。抽取數(shù)據(jù)過程中,支持不同數(shù)據(jù)源、各種接口、抽取歷史數(shù)據(jù)和增量數(shù)據(jù)、字段映射、字段過濾、條件過濾、工作閑時抽取數(shù)據(jù)等。在確保不增加臨床業(yè)務(wù)系統(tǒng)日常工作系統(tǒng)負(fù)荷的情況下,以最短的時間抽取數(shù)據(jù)。
(2)數(shù)據(jù)融合與處理
1)EMPI患者主索引
平臺支持患者匹配功能,支持基于患者主索引的患者唯一性匹配功能(依賴于患者主索引系統(tǒng))、就診信息整合功能,以及按照患者就診類型、時間展示就診時序的功能和按照就診時序進(jìn)行患者數(shù)據(jù)歸集的功能。
2)多模態(tài)數(shù)據(jù)間關(guān)聯(lián)關(guān)系
通過數(shù)據(jù)間的關(guān)系按照門診、急診、住院等就診次數(shù)據(jù)融合,同時分析醫(yī)院就診電子化數(shù)據(jù)缺失和無法關(guān)聯(lián)情況,確定處理方案。可通過科室、日期選擇器,對當(dāng)前患者的歷次就診信息(基本信息、醫(yī)囑、檢查報告、檢驗報告、病歷文書、手術(shù)記錄、護(hù)理信息等模塊)進(jìn)行數(shù)據(jù)分類選擇、融合選擇,并進(jìn)行后期的融合處理。
3)自然語言處理
通過自然語言分詞以及上下文語義識別,利用機(jī)器學(xué)習(xí)結(jié)合數(shù)據(jù)模型實現(xiàn)對自由文本病歷、檢查報告、護(hù)理記錄等全量數(shù)據(jù)的后結(jié)構(gòu)化處理。從醫(yī)療文獻(xiàn)、醫(yī)學(xué)指南和醫(yī)院臨床病歷中發(fā)掘隱含的醫(yī)學(xué)知識,將自然語言文本數(shù)據(jù)轉(zhuǎn)化為臨床知識,便于原有業(yè)務(wù)系統(tǒng)的自然語言文本數(shù)據(jù)應(yīng)用到新的臨床診療與研究。
4)OCR識別
系統(tǒng)將OCR識別后的非結(jié)構(gòu)化病歷文本庫和病案首頁系統(tǒng)中的首頁數(shù)據(jù)進(jìn)行采集,應(yīng)用自然語言處理技術(shù),構(gòu)建初步結(jié)構(gòu)化與標(biāo)準(zhǔn)化的通用項目數(shù)據(jù)庫;采用病歷對照人工與自動核查并行的方式,保證通用項目數(shù)據(jù)質(zhì)量,為科研提供數(shù)據(jù)支撐。
(3)數(shù)據(jù)標(biāo)化與治理
1)數(shù)據(jù)標(biāo)準(zhǔn)化處理
針對結(jié)構(gòu)化數(shù)據(jù),如首頁診斷、首頁手術(shù)、檢驗、醫(yī)囑、費用、入轉(zhuǎn)出記錄、人口學(xué)信息等數(shù)據(jù),實現(xiàn)與標(biāo)準(zhǔn)化編碼的整合及映射,保證各??频讓訑?shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一,方便后期進(jìn)行統(tǒng)計分析及科研利用。
針對非結(jié)構(gòu)化數(shù)據(jù),進(jìn)行系統(tǒng)源頭改造、自然語言分詞、語義關(guān)聯(lián)等操作之后,形成后結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)自然語言的計算機(jī)可識別、可計算、可分析。建立真實世界疾病領(lǐng)域模型,助力臨床研究。
2)數(shù)據(jù)一致性
對于不規(guī)范的數(shù)據(jù),通過標(biāo)準(zhǔn)化數(shù)據(jù)預(yù)處理將其轉(zhuǎn)換為標(biāo)準(zhǔn)化數(shù)據(jù)存儲,基于大數(shù)據(jù)分析技術(shù),對于數(shù)據(jù)出現(xiàn)錯誤的情況,根據(jù)既往病歷的數(shù)據(jù)基礎(chǔ)進(jìn)行糾正。
3)數(shù)據(jù)殘缺治理
對識別出的缺失數(shù)據(jù),根據(jù)語義和上下文的數(shù)據(jù)關(guān)聯(lián)進(jìn)行智能填補(bǔ)完整。
4)可量化計算
主要分兩種形式:一是將分類型的數(shù)據(jù)自動量化,數(shù)據(jù)類型包括海量枚舉、少量枚舉和二值型,自動轉(zhuǎn)化成可用于統(tǒng)計分析的數(shù)值類型;二是根據(jù)提供的值域量化表,將變量量化成表中對應(yīng)的值,完成量化。
(4)數(shù)據(jù)質(zhì)量質(zhì)控
1)數(shù)據(jù)完整性質(zhì)控
按照質(zhì)控變量分類,包括數(shù)據(jù)完整度百分比及空數(shù)據(jù)的百分比來依次展示所選變量數(shù)據(jù)完整程度,支撐科研數(shù)據(jù)應(yīng)用。
2)數(shù)據(jù)規(guī)范性質(zhì)控
包括展示研究樣本的規(guī)范數(shù)據(jù)、不規(guī)范數(shù)據(jù)和空數(shù)據(jù)的情況,以及異常數(shù)據(jù)涉及的患者列表和數(shù)據(jù)值域詳情,原始異常值等。
(5)數(shù)據(jù)脫敏與加密
根據(jù)HIPAA法案和實際業(yè)務(wù)需求,針對患者信息、醫(yī)護(hù)人員信息等敏感字段信息數(shù)據(jù)進(jìn)行脫敏。包括:敏感數(shù)據(jù)自動檢測;對患者關(guān)鍵信息脫敏處理;通過特定加密不可逆算法對關(guān)鍵數(shù)據(jù)進(jìn)行加密處理,使用時進(jìn)行解密。
針對數(shù)據(jù)安全和平臺使用友好性,建設(shè)數(shù)據(jù)安全管理規(guī)范和相關(guān)咨詢、培訓(xùn)服務(wù)。
1.數(shù)據(jù)安全管理規(guī)范
對于數(shù)據(jù)需求明確的研究,可通過醫(yī)療大數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)查詢,經(jīng)醫(yī)院管理、信息等部門審批后授權(quán)使用。醫(yī)療大數(shù)據(jù)平臺內(nèi)數(shù)據(jù),對姓名、身份證號、地址等信息進(jìn)行加密處理,如有特殊隨訪等需求,經(jīng)審批后走解密流程。
2.用戶培訓(xùn)
針對用戶數(shù)據(jù)查詢和統(tǒng)計分析,建立線上和線下培訓(xùn)規(guī)范,線上通過培訓(xùn)視頻和說明手冊進(jìn)行指導(dǎo),線下通過現(xiàn)場培訓(xùn)和一對一指導(dǎo)進(jìn)行。
3.科研大數(shù)據(jù)咨詢
由于大部分臨床醫(yī)務(wù)人員缺少醫(yī)療大數(shù)據(jù)相關(guān)專業(yè)知識,我院創(chuàng)新性的提出設(shè)置科研大數(shù)據(jù)門診咨詢服務(wù),并于2020年11月15日開始運行,為臨床醫(yī)務(wù)人員提供數(shù)據(jù)庫設(shè)計、大數(shù)據(jù)技術(shù)、研究方案制定等內(nèi)容咨詢,提高研究效率。
1.醫(yī)療大數(shù)據(jù)平臺
針對通用科研需求,我們通過醫(yī)療大數(shù)據(jù)平臺提供服務(wù)。利用人工智能技術(shù),對數(shù)據(jù)進(jìn)行自動化采集、關(guān)聯(lián)整合、標(biāo)準(zhǔn)化處理以及便捷化檢索分析,構(gòu)建臨床大數(shù)據(jù)知識圖譜及推理引擎,刻畫臨床各項知識及其關(guān)系,深度挖掘疾病癥狀之間的潛在關(guān)聯(lián),提高數(shù)據(jù)的利用率及科研效率,促進(jìn)醫(yī)生科研成果發(fā)表,多角度滿足不同階段和場景下的研究需求。醫(yī)療大數(shù)據(jù)平臺現(xiàn)已服務(wù)臨床研究100余項,建立數(shù)據(jù)集1000余個,約90%的數(shù)據(jù)需求通過平臺完成,已支撐多篇文章投稿和研究方案制定,涉及科室包括:內(nèi)分泌科、肝臟外科、婦產(chǎn)科、胸外科、全科醫(yī)學(xué)科(普通內(nèi)科)、風(fēng)濕免疫科等。
2.專病隊列研究
針對個性化強(qiáng)的專科需求,通過專病隊列提供服務(wù)。依托院級醫(yī)療大數(shù)據(jù)平臺,整合院內(nèi)外數(shù)據(jù),為科室提供了以疾病為中心的詳細(xì)臨床科研數(shù)據(jù),通過全系統(tǒng)數(shù)據(jù)整合、加強(qiáng)歷史數(shù)據(jù)治理、完善臨床信息系統(tǒng)標(biāo)準(zhǔn)化建設(shè),建設(shè)??萍膊≡\療標(biāo)準(zhǔn),為各學(xué)科開展研究工作提供標(biāo)準(zhǔn)、優(yōu)質(zhì)的數(shù)據(jù)資源和高效的數(shù)據(jù)利用工具?,F(xiàn)已搭建全國重大傳染性疾病危重型多中心臨床研究隊列數(shù)據(jù)庫,覆蓋二十余家成員單位,支撐500+數(shù)據(jù)維度的高維度分析。
科研是醫(yī)學(xué)科學(xué)發(fā)展的主要源動力。醫(yī)院要保持高速可持續(xù)發(fā)展,必須依靠科技進(jìn)步和創(chuàng)新來提高醫(yī)院的綜合競爭力。科研平臺作為醫(yī)院科技攻關(guān)、人才培養(yǎng)、學(xué)術(shù)交流的重要基地,在提高醫(yī)學(xué)科技創(chuàng)新能力和水平方面發(fā)揮著十分重要的作用。我院科研平臺的建設(shè)以及??茢?shù)據(jù)庫平臺的建立,面向科研人員,提供全院數(shù)據(jù)快速檢索、數(shù)據(jù)集創(chuàng)建及25種統(tǒng)計分析方法,實現(xiàn)基于大數(shù)據(jù)技術(shù)的一站式智能分析功能,輔助臨床研究的開展。數(shù)據(jù)安全是醫(yī)學(xué)研究的重要基礎(chǔ)。我院除通過堡壘機(jī)等技術(shù)手段提升數(shù)據(jù)安全級別,同時,建設(shè)數(shù)字閱覽室,在獨立、安全的網(wǎng)絡(luò)環(huán)境下進(jìn)行研究探索。未來,還將在此基礎(chǔ)上,進(jìn)一步探討如何最大化發(fā)揮科研平臺的支撐作用,結(jié)合我院特點和優(yōu)勢,以重點??祁I(lǐng)域為引領(lǐng),建設(shè)多級科研平臺體系,提升區(qū)域科研發(fā)展水平。
1.多模態(tài)數(shù)據(jù)集成
大數(shù)據(jù)智能分析平臺的數(shù)據(jù)來源于業(yè)務(wù)系統(tǒng)多模態(tài)數(shù)據(jù)集成,包括結(jié)構(gòu)化數(shù)據(jù)如檢驗數(shù)據(jù),文本數(shù)據(jù)如病歷、檢查報告數(shù)據(jù)等。通過自然語言處理技術(shù)對文本數(shù)據(jù)進(jìn)行分詞結(jié)構(gòu)化。
2.一站式統(tǒng)計分析
用戶可在平臺進(jìn)行數(shù)據(jù)檢索、處理、分析等一站式研究,方便快捷。
(1)研究對象篩選
支持多種篩選模式靈活組合,可自助篩選研究對象,并根據(jù)入排條件動態(tài)更新研究對象數(shù)量;
(2)研究分組建立
完成對象篩選后,根據(jù)課題需要,可靈活創(chuàng)建多個研究組別或亞組;
(3)統(tǒng)計分析及結(jié)果解讀
平臺通過嵌入R語言,可實現(xiàn)對數(shù)據(jù)的實時在線統(tǒng)計分析,目前已涵蓋25種常用統(tǒng)計算法。同時,系統(tǒng)支持對統(tǒng)計結(jié)果自動解讀,方便醫(yī)生一站式完成全部科研流程。
3.多維度安全監(jiān)管
系統(tǒng)和數(shù)據(jù)安全主要通過以下手段來保障:
患者隱私數(shù)據(jù)脫敏入庫,加密存儲,禁止明文;
系統(tǒng)登錄帳號LDAP域驗證,加強(qiáng)帳號監(jiān)管;
系統(tǒng)登錄瀏覽全頁面增加水印;
系統(tǒng)后臺嚴(yán)格監(jiān)控登錄等操作日志;
建立閱覽室使用場景,配置訪問白名單,限制特定地址訪問。
4. 科研大數(shù)據(jù)門診服務(wù)
通過提供數(shù)據(jù)和大數(shù)據(jù)技術(shù)咨詢服務(wù),為臨床醫(yī)務(wù)人員解決科研大數(shù)據(jù)技術(shù)難題困擾,提高科研效率。