13.廣州醫(yī)科大學(xué)附屬第二醫(yī)院:構(gòu)建大數(shù)據(jù)科研平臺(tái)實(shí)現(xiàn)“一站式”工作模式【CHIMA 2019案例分享】
案例提供:廣州醫(yī)科大學(xué)附屬第二醫(yī)院
案例概要
廣州醫(yī)科大學(xué)附屬第二醫(yī)院(簡(jiǎn)稱廣醫(yī)二院),是一所集醫(yī)、教、研于一體的大型三甲綜合醫(yī)院,也是廣州市重要的醫(yī)療診治、醫(yī)學(xué)教育及醫(yī)學(xué)研究機(jī)構(gòu)。尤其在科研方面,過去十年,在神經(jīng)內(nèi)科、心血管疾病、外科學(xué)、急診醫(yī)學(xué)都多個(gè)領(lǐng)域都取得了重大突破,建立了數(shù)個(gè)重點(diǎn)學(xué)科及重點(diǎn)實(shí)驗(yàn)室,并獲得各級(jí)課題立項(xiàng)超600余項(xiàng),為醫(yī)院的綜合實(shí)力提升做出了巨大貢獻(xiàn)。
但與此同時(shí),傳統(tǒng)科研模式中存在的數(shù)據(jù)獲取難、統(tǒng)計(jì)分析難、論文總結(jié)難等弊端,也一直困擾著臨床醫(yī)生,成為阻礙科研工作進(jìn)一步發(fā)展的最大壁壘。亟需找到一種方法,來緩解日益增長(zhǎng)的科研需求與數(shù)據(jù)挖掘利用困難之間的矛盾,簡(jiǎn)化科研流程、提高科研效率,加速成果轉(zhuǎn)化。
在此背景下,我院基于原有數(shù)據(jù)中心,建立了大數(shù)據(jù)科研分析平臺(tái)。該平臺(tái)是以智能醫(yī)學(xué)數(shù)據(jù)中臺(tái)為基礎(chǔ),通過數(shù)據(jù)采集、治理,以及自然語言分詞、機(jī)器學(xué)習(xí)、知識(shí)圖譜等大數(shù)據(jù)處理和建模技術(shù),整合并挖掘院內(nèi)電子病歷、檢驗(yàn)檢查、醫(yī)療影像、基因序列以及院外隨訪、課題數(shù)據(jù)庫(kù)等在內(nèi)的海量醫(yī)療數(shù)據(jù),構(gòu)建以疾病為中心、具有完整時(shí)間序列的高質(zhì)量專病數(shù)據(jù)庫(kù);并利用機(jī)器學(xué)習(xí)算法及統(tǒng)計(jì)分析模型等,實(shí)現(xiàn)對(duì)數(shù)據(jù)的深度解析與可視化,形成覆蓋從科研構(gòu)思到數(shù)據(jù)統(tǒng)計(jì)分析的全流程“一站式”工作模式。此外,還可以通過大數(shù)據(jù)分析提取出疾病重點(diǎn)特征,訓(xùn)練智能預(yù)測(cè)引擎,實(shí)現(xiàn)對(duì)疾病危險(xiǎn)因素的預(yù)測(cè)等,促使科研成果有效轉(zhuǎn)化臨床,提升醫(yī)療服務(wù)質(zhì)量。
智能醫(yī)學(xué)數(shù)據(jù)中臺(tái)架構(gòu)如下圖所示:
解決的主要問題
1.輔助科研構(gòu)思
傳統(tǒng)模式下,科研人員在面對(duì)雜亂無章的海量數(shù)據(jù)時(shí),往往很難在第一時(shí)間發(fā)現(xiàn)數(shù)據(jù)潛在的關(guān)聯(lián)關(guān)系,提出有效的科研假設(shè);同時(shí),也無法在實(shí)驗(yàn)開始前驗(yàn)證研究思路的可行性,存在后期因數(shù)據(jù)質(zhì)量等問題導(dǎo)致實(shí)驗(yàn)失敗的風(fēng)險(xiǎn)。基于此,大數(shù)據(jù)科研分析平臺(tái)通過文獻(xiàn)復(fù)習(xí)、數(shù)據(jù)回顧和可行性研究三種路徑,在實(shí)驗(yàn)設(shè)計(jì)階段即幫助科研人員很好地解決了上述問題。
(1)文獻(xiàn)復(fù)習(xí):通過平臺(tái)知識(shí)庫(kù),可以讓醫(yī)生方便地查找相關(guān)文獻(xiàn),了解研究現(xiàn)狀及最新發(fā)展;
(2)數(shù)據(jù)回顧:通過對(duì)全院或各科室門急診人次、住院人次、時(shí)間分布等情況的回顧統(tǒng)計(jì),或?qū)颊叻植肌⒓膊》植嫉冗M(jìn)行多維特征分析,可以快速找出其中隱含的知識(shí)或規(guī)律,幫助創(chuàng)新科研思路;
(3)可行性研究:在統(tǒng)計(jì)學(xué)處理模塊,系統(tǒng)可對(duì)所選變量的數(shù)據(jù)完整度進(jìn)行預(yù)覽,若數(shù)據(jù)缺失程度過高,則認(rèn)為該統(tǒng)計(jì)結(jié)果不成立,需要重新調(diào)整或改變研究思路,提高實(shí)驗(yàn)成功幾率。
2.輔助數(shù)據(jù)獲取
以往科研數(shù)據(jù)絕大部分都是基于CRF表格,通過臨床科室與信息科、檔案室、統(tǒng)計(jì)室等協(xié)調(diào)后傳遞給醫(yī)生,數(shù)據(jù)還有可能不合要求,費(fèi)時(shí)費(fèi)力且效果不佳。大數(shù)據(jù)科研分析平臺(tái)通過集成院內(nèi)外全量疾病相關(guān)數(shù)據(jù),可實(shí)現(xiàn)多種形式、不同維度的數(shù)據(jù)實(shí)時(shí)檢索,查詢結(jié)果秒級(jí)返回,召回率可達(dá)90%以上,大大提高了數(shù)據(jù)獲取的效率及準(zhǔn)確性。
3.輔助數(shù)據(jù)處理
由于病歷中存在著大量自由文本數(shù)據(jù),無法直接用于科研,依靠人工轉(zhuǎn)錄不僅耗時(shí)耗力且極容易出錯(cuò)。利用大數(shù)據(jù)科研分析平臺(tái)的自然語言處理、數(shù)據(jù)歸一等技術(shù),則可輕松實(shí)現(xiàn)對(duì)數(shù)據(jù)的后結(jié)構(gòu)化處理,以及標(biāo)準(zhǔn)化、清洗、量化等,形成計(jì)算機(jī)可識(shí)別、可利用的有效信息。
4.輔助統(tǒng)計(jì)分析
統(tǒng)計(jì)分析是科研活動(dòng)中的環(huán)節(jié)關(guān)鍵之一,也是制約科研產(chǎn)出的主要壁壘。以往醫(yī)生通常需要手工采集、導(dǎo)出數(shù)據(jù),處理后再導(dǎo)入SPSS/SAS進(jìn)行統(tǒng)計(jì)學(xué)分析,過程繁瑣且容易出現(xiàn)錯(cuò)誤。大數(shù)據(jù)科研分析平臺(tái)通過集成R算法,可根據(jù)課題研究目的及分組情況自動(dòng)選擇合適的統(tǒng)計(jì)模型,包括比較均值分析、非參檢驗(yàn)、回歸分析、相關(guān)性分析等,有效提升了科研效率及質(zhì)量。
5.輔助數(shù)據(jù)質(zhì)控
臨床科研對(duì)數(shù)據(jù)質(zhì)量有著極高的要求,但實(shí)際中的數(shù)據(jù)卻存在很多問題,如:數(shù)據(jù)表示不統(tǒng)一,數(shù)據(jù)不一致、不完整,錯(cuò)誤數(shù)據(jù)等,嚴(yán)重影響著其在疾控、臨床、疾病預(yù)測(cè)等方面的適用性。大數(shù)據(jù)科研分析平臺(tái)可提供對(duì)科研全變量的實(shí)時(shí)數(shù)據(jù)質(zhì)控,包括數(shù)據(jù)缺失、異常值等,為醫(yī)生選擇科研統(tǒng)計(jì)指標(biāo)提供參照,避免到研究終末階段因數(shù)據(jù)質(zhì)量不合格導(dǎo)致數(shù)據(jù)重復(fù)采集和研究周期拉長(zhǎng)等問題。同時(shí),還可將問題溯源至原始病歷,促進(jìn)病歷書寫質(zhì)量的改進(jìn),從而提升科研數(shù)據(jù)采集質(zhì)量。
數(shù)據(jù)內(nèi)容
我院利用大數(shù)據(jù)臨床科研平臺(tái),將院內(nèi)數(shù)據(jù)(醫(yī)院數(shù)據(jù)中心HDR)與課題數(shù)據(jù)庫(kù)集成后,經(jīng)過整合、清洗、標(biāo)記、解析、對(duì)齊等數(shù)據(jù)處理和自然語言分詞后,輸入到數(shù)據(jù)中臺(tái),可方便醫(yī)生通過科研平臺(tái)直接進(jìn)行研究人群的篩選、確定、關(guān)聯(lián)分析,以及對(duì)數(shù)據(jù)質(zhì)量的核對(duì)、統(tǒng)計(jì)建模分析等。
截至目前,我院大數(shù)據(jù)科研平臺(tái)已累積經(jīng)過規(guī)范化處理的住院患者232,813人次,門診患者9,253,814人次,覆蓋包括病歷文書、醫(yī)囑、檢驗(yàn)檢查報(bào)告、課題隨訪數(shù)據(jù)等在內(nèi)的37種文檔類型,總量達(dá)36,688,402份。平臺(tái)開放變量4000余維,其中經(jīng)過自然語言處理之后的變量可占80%。
平臺(tái)目前已開通醫(yī)生使用賬號(hào)336個(gè),輔助醫(yī)生搭建完成專病庫(kù)200多個(gè),研究課題10余項(xiàng),累計(jì)登錄次數(shù)達(dá)2500余次。與傳統(tǒng)人工操作相比,無論數(shù)據(jù)質(zhì)量、科研效率及還是成果產(chǎn)出,均有明顯提升。
關(guān)鍵技術(shù)
1.多層次醫(yī)療術(shù)語抽取技術(shù)
基于對(duì)病歷數(shù)據(jù)的深入理解,設(shè)計(jì)了一種基于多層次醫(yī)療術(shù)語抽取技術(shù)的醫(yī)學(xué)自然語言處理方法,以實(shí)現(xiàn)對(duì)病歷自由文本的語義分詞。語義分詞與傳統(tǒng)標(biāo)簽分詞的區(qū)別主要體現(xiàn)在病歷數(shù)據(jù)本身復(fù)雜的分級(jí)結(jié)構(gòu)上,傳統(tǒng)標(biāo)簽分詞是實(shí)體抽取,詞性標(biāo)注,缺乏上下文語義性關(guān)聯(lián),語義分詞則能達(dá)到串聯(lián)病歷復(fù)雜分級(jí)結(jié)構(gòu)的效果。如:10年前,患者的癥狀是什么?癥狀的持續(xù)時(shí)間多長(zhǎng)?恢復(fù)方式是什么?近期又是什么臨床表現(xiàn)?
2.數(shù)據(jù)歸一
“數(shù)據(jù)歸一”是保證數(shù)據(jù)檢索快速、精準(zhǔn)的必不可少的核心工作,包含診斷、實(shí)驗(yàn)室檢查、手術(shù)名稱、藥物名稱等專用名詞的歸一。由于病歷會(huì)持續(xù)產(chǎn)生新的非標(biāo)準(zhǔn)詞匯,需要一個(gè)增量模式去擴(kuò)展詞庫(kù)。平臺(tái)以標(biāo)準(zhǔn)詞匯庫(kù)為中心,對(duì)病歷中出現(xiàn)的非標(biāo)準(zhǔn)醫(yī)療詞匯,通過機(jī)器學(xué)習(xí)技術(shù)和人工標(biāo)注相結(jié)合,將意義相同的醫(yī)療詞匯進(jìn)行歸一處理,持續(xù)擴(kuò)大詞庫(kù),滿足動(dòng)態(tài)變化需求。
3.醫(yī)療知識(shí)圖譜構(gòu)建與應(yīng)用
醫(yī)療知識(shí)圖譜,是在醫(yī)療命名、實(shí)體及其屬性信息抽取的基礎(chǔ)上,構(gòu)建出的不同命名實(shí)體之間的關(guān)聯(lián)模型。平臺(tái)針對(duì)醫(yī)療數(shù)據(jù)跨語種、專業(yè)性強(qiáng)、結(jié)構(gòu)復(fù)雜等特點(diǎn),利用馬爾可夫隨機(jī)場(chǎng)、貝葉斯網(wǎng)絡(luò)等概率圖模型方法,從大量結(jié)構(gòu)化、非結(jié)構(gòu)化的醫(yī)學(xué)數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等知識(shí)圖譜的組成元素,以合理高效的方式存入知識(shí)庫(kù);并對(duì)知識(shí)庫(kù)內(nèi)容進(jìn)行消歧和鏈接處理,大大增強(qiáng)了其內(nèi)部邏輯性與表達(dá)能力。通過知識(shí)圖譜,可以完成知識(shí)推理,輔助疾病診斷、治療等。
4.統(tǒng)計(jì)分析R語言的無縫接入
R是一套完整的數(shù)據(jù)處理、計(jì)算和制圖的開源軟件系統(tǒng),功能包括:數(shù)據(jù)存儲(chǔ)和處理;數(shù)組運(yùn)算;完整連貫的統(tǒng)計(jì)分析工具;優(yōu)秀的統(tǒng)計(jì)制圖功能;簡(jiǎn)便強(qiáng)大的編程語言。鑒于其開源性和在統(tǒng)計(jì)分析方面的強(qiáng)大優(yōu)勢(shì),大數(shù)據(jù)科研分析平臺(tái)無縫接入R語言,實(shí)現(xiàn)多種醫(yī)學(xué)常用統(tǒng)計(jì)分析方法及決策樹和主成分分析等數(shù)據(jù)挖掘算法,保證科研過程流暢性的同時(shí),也提高了研究過程數(shù)據(jù)階段分析的可行性,降低了臨床研究人員使用統(tǒng)計(jì)工具的門檻。
成果成效
1.“一站式”科研工作模式
(1)研究對(duì)象篩選:支持多種篩選模式靈活組合,可自助篩選研究對(duì)象,并根據(jù)入排條件動(dòng)態(tài)更新研究對(duì)象數(shù)量;
(2)確定課題信息并建立研究分組:完成對(duì)象篩選后,需進(jìn)一步確定研究基本信息,如目的、類型、起止時(shí)間等;之后根據(jù)課題需要,可靈活創(chuàng)建多個(gè)研究組別或亞組;
(3)統(tǒng)計(jì)分析及結(jié)果解讀:平臺(tái)通過嵌入R語言,實(shí)現(xiàn)了對(duì)數(shù)據(jù)的實(shí)時(shí)在線統(tǒng)計(jì)分析,目前已涵蓋包括獨(dú)立樣本T檢驗(yàn)、卡方檢驗(yàn)等在內(nèi)的30余種常用統(tǒng)計(jì)算法;同時(shí)也支持對(duì)統(tǒng)計(jì)結(jié)果的解讀,使醫(yī)生能夠更好地選擇統(tǒng)計(jì)算法及統(tǒng)計(jì)結(jié)果。
2.數(shù)據(jù)導(dǎo)出服務(wù)
平臺(tái)可提供基于多維變量的數(shù)據(jù)導(dǎo)出,并可實(shí)現(xiàn)檢驗(yàn)指標(biāo)相對(duì)時(shí)間計(jì)算和導(dǎo)出值域自動(dòng)量化等。
3.個(gè)案視圖
平臺(tái)通過整合患者在院期間的各類門急診、住院就診記錄,可通過時(shí)間軸進(jìn)行統(tǒng)一展示,方便醫(yī)生全面了解患者情況。
4.專病庫(kù)建立
此外,平臺(tái)還支持對(duì)已有數(shù)據(jù)庫(kù)的導(dǎo)入,對(duì)其數(shù)據(jù)進(jìn)行處理分析,從而輔助建立高質(zhì)量專病庫(kù)。目前,我院已建成9個(gè)單病種專病庫(kù),包括:腦梗塞、乳腺腫瘤、冠心病、過敏性鼻炎、膿毒癥、下肢深靜脈血栓、椎間盤突出、帶狀皰疹后神經(jīng)痛、癲癇。
5.文獻(xiàn)檢索
平臺(tái)可提供對(duì)1400多萬種中外文獻(xiàn)的摘要檢索服務(wù),方便醫(yī)生隨時(shí)查閱。
6.權(quán)限管理
平臺(tái)提供靈活的權(quán)限管理機(jī)制。可通過不同層級(jí)的權(quán)限設(shè)置,確保對(duì)患者數(shù)據(jù)應(yīng)用安全的最大保障。
下一步計(jì)劃
1.構(gòu)建智能預(yù)測(cè)引擎
智能預(yù)測(cè)引擎,是利用影響因素分析、主成分分析、決策樹等多種數(shù)據(jù)挖掘算法,從專病庫(kù)中提取出重點(diǎn)疾病特征,并通過相關(guān)真實(shí)病歷的機(jī)器學(xué)習(xí)和模型訓(xùn)練,得出疾病精準(zhǔn)預(yù)測(cè)規(guī)則,納入到知識(shí)庫(kù)中。這樣,在臨床遇到相似病例時(shí),即可觸發(fā)該規(guī)則,實(shí)現(xiàn)對(duì)患者相關(guān)疾病危險(xiǎn)因素的預(yù)測(cè)分析、疾病嚴(yán)重程度分級(jí)、治療效果評(píng)估等,從而提高和改善臨床診療質(zhì)量。
目前,我院已積攢包含30余種疾病類型、12大分析主題的近百個(gè)模型知識(shí)庫(kù),用來對(duì)疾病的再手術(shù)、再入院、并發(fā)癥以及生存期等進(jìn)行預(yù)測(cè)分析,并可針對(duì)疾病不同干預(yù)方式進(jìn)行療效評(píng)價(jià)。未來,將逐步探索將模型知識(shí)應(yīng)用于實(shí)際臨床業(yè)務(wù),用以進(jìn)行疾病危險(xiǎn)程度評(píng)估和手術(shù)預(yù)警等,使科研成果能夠更好地服務(wù)臨床,擴(kuò)大臨床效益。
2.多中心協(xié)作網(wǎng)絡(luò)建設(shè)
此外,我院大數(shù)據(jù)科研分析平臺(tái)目前主要還是支持本院的單中心研究。未來,發(fā)展協(xié)作網(wǎng)絡(luò)、開展多中心研究將是優(yōu)化臨床實(shí)踐和學(xué)科探索的必然趨勢(shì)。因此,將利用該平臺(tái)大力發(fā)展涉及大樣本、多中心的實(shí)驗(yàn),以智能化科研工作模式支持醫(yī)生搭建協(xié)同研究網(wǎng)絡(luò),快速積累病例、縮短研究周期,開展大規(guī)模回顧性或前瞻性研究,以提高研究水平,獲取高質(zhì)量研究成果。