易應(yīng)萍:源于醫(yī)療大數(shù)據(jù)的科研思路
當(dāng)前,醫(yī)療大數(shù)據(jù)在臨床研究、人工智能、精細(xì)化管理等獲得了越來(lái)越廣泛的應(yīng)用,為臨床決策和醫(yī)院管理提供了強(qiáng)有力的數(shù)據(jù)支撐。在CHIMA 2021大會(huì)上,江西省醫(yī)療大數(shù)據(jù)工程技術(shù)研究中心主任及南昌大學(xué)第二附屬醫(yī)院(以下簡(jiǎn)稱“南昌大學(xué)二附院”)大數(shù)據(jù)中心常務(wù)副主任易應(yīng)萍詳細(xì)闡述了醫(yī)療大數(shù)據(jù)在科研的應(yīng)用。
江西省醫(yī)療大數(shù)據(jù)工程技術(shù)研究中心主任及南昌大學(xué)第二附屬醫(yī)院大數(shù)據(jù)中心常務(wù)副主任 易應(yīng)萍
以下內(nèi)容根據(jù)易應(yīng)萍主任演講整理。
大數(shù)據(jù)是指所涉及的數(shù)據(jù)量規(guī)模大到超出傳統(tǒng)數(shù)據(jù)管理工具的處理能力,無(wú)法在合理時(shí)間內(nèi)進(jìn)行擷取、管理、分析的復(fù)雜、大規(guī)模數(shù)據(jù)集合,具有超量、種類繁多、高速、真實(shí)性、有價(jià)值等五V特征。醫(yī)療大數(shù)據(jù),即臨床醫(yī)療中所產(chǎn)生的海量數(shù)據(jù),主要來(lái)源于電子病歷、醫(yī)囑、檢查、檢驗(yàn)等,符合大數(shù)據(jù)的五V特征。
醫(yī)療大數(shù)據(jù)和人工智能是密不可分的。人工智能醫(yī)療產(chǎn)業(yè)是人工智能技術(shù)應(yīng)用的一個(gè)細(xì)分領(lǐng)域,其產(chǎn)業(yè)鏈包括網(wǎng)絡(luò)、算法、硬件鋪設(shè)和數(shù)據(jù)獲取的基礎(chǔ)層,模擬人工智能相關(guān)特征構(gòu)建路徑的技術(shù)層,以及集成人工智能技術(shù)面向特定場(chǎng)景的應(yīng)用層。
科研是一種思維方式及解決問(wèn)題的能力。目前,南昌大學(xué)二附院醫(yī)療大數(shù)據(jù)研究方向主要包括隊(duì)列研究、人工智能、智慧管理。
1.隊(duì)列研究。一般是前瞻性和回顧性研究,是將某一特定人群按是否暴露于某可疑因素或暴露程度分為不同的亞組,追蹤觀察兩組或多組成員結(jié)局發(fā)生的情況,比較各組之間結(jié)局發(fā)生率的差異,從而判定這些因素與該結(jié)局之間有無(wú)因果關(guān)聯(lián)及關(guān)聯(lián)程度的一種觀察性研究方法,主要涉及臨床療效、疾病診斷、病因/風(fēng)險(xiǎn)因素研究、疾病預(yù)防等臨床問(wèn)題。平臺(tái)上線2年來(lái),南昌大學(xué)二附院科研工作者已在平臺(tái)上建立臨床隊(duì)列研究1086個(gè),科研項(xiàng)目600余項(xiàng)。
2.人工智能。主要用于影像輔助診斷、疾病風(fēng)險(xiǎn)預(yù)測(cè)等。在臨床的應(yīng)用分為應(yīng)用研究和技術(shù)研究?jī)蓚€(gè)方向。應(yīng)用研究包括基于XGboost的首次腦梗后再入院預(yù)測(cè)模型研究、基于BPNN的腦卒中后肺部感染預(yù)測(cè)模型研究、基于大數(shù)據(jù)的臨床路徑挖掘模型和基于CYP2C19基因和尿11-dhTxB2檢測(cè)技術(shù)的精準(zhǔn)用藥平臺(tái)。技術(shù)研究主要是基于江西醫(yī)療大數(shù)據(jù)平臺(tái)的腦卒中電子病歷自然語(yǔ)言抽取模型和實(shí)體庫(kù)建設(shè)、基于隨機(jī)森林的醫(yī)療缺失值填補(bǔ)研究。
3.智慧管理。主要是醫(yī)療質(zhì)量、運(yùn)營(yíng)、績(jī)效、風(fēng)險(xiǎn)管理。包括基于醫(yī)療大數(shù)據(jù)挖掘的臨床路徑構(gòu)建方法研究、基于大數(shù)據(jù)的醫(yī)療投訴風(fēng)險(xiǎn)分析及預(yù)測(cè)和醫(yī)院精益管理。
南昌大學(xué)二附院于2017年完成大數(shù)據(jù)平臺(tái)建設(shè),平臺(tái)采用基于X86架構(gòu)的分布式計(jì)算集群,具有286個(gè)CPU核心、2T內(nèi)存、808T存儲(chǔ)的計(jì)算資源。基于該融合集群建立了臨床數(shù)據(jù)中心、影像數(shù)據(jù)中心、基因數(shù)據(jù)中心,并從臨床系統(tǒng)、醫(yī)療儀器實(shí)時(shí)接入、處理各類數(shù)據(jù),為醫(yī)院科研、臨床、運(yùn)營(yíng)提供了強(qiáng)大的數(shù)據(jù)支撐。在數(shù)據(jù)治理方面,醫(yī)院進(jìn)行了主索引合并、結(jié)構(gòu)化、標(biāo)準(zhǔn)化和質(zhì)量控制,目前的治理成果是完成了醫(yī)院78個(gè)業(yè)務(wù)系統(tǒng),總計(jì)過(guò)往醫(yī)院15年15.3億條數(shù)據(jù)的治理,形成清洗后、結(jié)構(gòu)化、標(biāo)準(zhǔn)化數(shù)據(jù)11.1億條。
研究團(tuán)隊(duì)成員的專業(yè)涉及計(jì)算機(jī)學(xué)、臨床醫(yī)學(xué)、生物信息學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)等學(xué)科,實(shí)現(xiàn)了合作交叉。醫(yī)院的大數(shù)據(jù)研究團(tuán)隊(duì)是以研究項(xiàng)目為基礎(chǔ)建立的,比如《腦血管病抗血小板治療智能化決策體系建立》這一研究是國(guó)家重大慢性非傳染性疾病防控研究專項(xiàng),為前瞻性、大樣本注冊(cè)研究和隨訪研究。大數(shù)據(jù)中心與神經(jīng)內(nèi)科合作,共同完成了該課題。
南昌大學(xué)二附院大數(shù)據(jù)研究主要采取的是統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)方法。統(tǒng)計(jì)學(xué)方法主要包括Logistic回歸、Cox回歸和線性回歸三方面。機(jī)器學(xué)習(xí)方法主要有單一機(jī)器學(xué)習(xí)方法、深度機(jī)器學(xué)習(xí)方法和集成機(jī)器學(xué)習(xí)方法。
創(chuàng)新是科研的靈魂。創(chuàng)新思路主要體現(xiàn)為以下方面:大數(shù)據(jù)平臺(tái)的構(gòu)架、數(shù)據(jù)匯聚方法、質(zhì)量控制、算力的提高等方面;數(shù)據(jù)治理技術(shù)、方法,主要為標(biāo)準(zhǔn)、非結(jié)構(gòu)化(自然語(yǔ)言)處理技術(shù)、數(shù)據(jù)缺失值的處理方法等;Lasso回歸、Ridge回歸、RFE等特征選擇;PCA、LDA等特征降維;邏輯回歸、決策樹、集成算法(RandomForest、Adboost、Xgboost、LightGBM等)、神經(jīng)網(wǎng)絡(luò)(BP、CNN、RNN、LSTM)、遷移學(xué)習(xí)等算法應(yīng)用;模型的臨床應(yīng)用。
項(xiàng)目創(chuàng)新主要包括原始創(chuàng)新、集成創(chuàng)新、引進(jìn)消化吸收再創(chuàng)新:原始創(chuàng)新是指“元?jiǎng)?chuàng)新”(meta-innovation),即是一種觀念上的根本性創(chuàng)新;集成創(chuàng)新是在算法模型構(gòu)建時(shí),在不同的階段采用不同的算法以解決不同的問(wèn)題,如采用CNN與NLP技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,并采用LightGBM進(jìn)行模型構(gòu)建;引進(jìn)消化吸收創(chuàng)新是指引進(jìn)已經(jīng)存在的知識(shí)對(duì)不同但是相關(guān)領(lǐng)域的問(wèn)題的求解以及進(jìn)一步修正的創(chuàng)新,遷移學(xué)習(xí)是一種將已經(jīng)訓(xùn)練好的算法模型遷移至擬解決的問(wèn)題上加以學(xué)習(xí)和優(yōu)化。
目前,醫(yī)療大數(shù)據(jù)及人工智能研究主要面臨以下挑戰(zhàn):
1.數(shù)據(jù)質(zhì)量不高。因?yàn)閿?shù)據(jù)缺失情況導(dǎo)致數(shù)據(jù)完整性不夠高,數(shù)據(jù)質(zhì)控流程不完善、影像報(bào)告判讀帶有主觀性等原因?qū)е聰?shù)據(jù)不夠準(zhǔn)確。
2.數(shù)據(jù)開放共享程度低。由于醫(yī)療數(shù)據(jù)歸屬權(quán)不明晰,使用利益分配問(wèn)題、使用過(guò)程中個(gè)人隱私保護(hù)、86%機(jī)構(gòu)擔(dān)心數(shù)據(jù)流通過(guò)程中存在數(shù)據(jù)泄漏風(fēng)險(xiǎn)等問(wèn)題,制約了醫(yī)院數(shù)據(jù)開放共享。醫(yī)院沒(méi)有動(dòng)力開放電子病歷、影像庫(kù)及病理庫(kù)等相關(guān)醫(yī)療數(shù)據(jù),一定程度上造成醫(yī)院內(nèi)部數(shù)據(jù)以“信息孤島”的形式存在。數(shù)據(jù)的共享模式可分為合作共享、開放共享和交易共享:合作共享是以完成某項(xiàng)研究為目標(biāo)實(shí)現(xiàn)數(shù)據(jù)共享;開放共享是將機(jī)構(gòu)數(shù)據(jù)變成公共資源實(shí)現(xiàn)數(shù)據(jù)共享;交易共享是指數(shù)據(jù)脫敏后保證數(shù)據(jù)安全的基礎(chǔ)上可以交易。
3.數(shù)據(jù)使用的倫理性。主要體現(xiàn)為以下幾個(gè)方面:臨床診療過(guò)程中患者數(shù)據(jù)采集是否需要患者簽署數(shù)據(jù)采集知情同意書?研究型醫(yī)療機(jī)構(gòu)通過(guò)哪種方式合法采集患者數(shù)據(jù)用于未來(lái)研究?臨床研究征得知情同意的例外主要有以下兩種情況:對(duì)于產(chǎn)品上市后研究,以驗(yàn)證產(chǎn)品安全性和有效性為目的,在數(shù)據(jù)去標(biāo)識(shí)化的前提下,相關(guān)申辦者不需要獲得受試者知情同意;申辦者出于公共利益開展統(tǒng)計(jì)或?qū)W術(shù)研究所必要且其對(duì)外提供學(xué)術(shù)研究或描述的結(jié)果時(shí),對(duì)結(jié)果中所包含的個(gè)人信息進(jìn)行去標(biāo)識(shí)化處理的,不需要獲得受試者知情同意。
以下情況可以向倫理委員會(huì)申請(qǐng)知情同意豁免:受試者可能遭受的風(fēng)險(xiǎn)不超過(guò)最低限度;豁免征得受試者的知情同意并不會(huì)對(duì)受試者的權(quán)益產(chǎn)生負(fù)面影響;對(duì)于回顧性研究,已無(wú)法追溯到患者,或獲取受試者知情同意代價(jià)太高,在數(shù)據(jù)去標(biāo)識(shí)化的前提下,可以申請(qǐng)知情同意豁免;對(duì)于回顧性研究,主體已簽署知情同意書,范圍包含現(xiàn)有范圍,在數(shù)據(jù)去標(biāo)識(shí)化的前提下,可以申請(qǐng)知情同意豁免。
(本文由CHIMA秘書處楊永燕整理)