郭有:臨床數(shù)據(jù)挖掘的基本流程
臨床數(shù)據(jù)挖掘過程包括定義臨床問題并確定變量數(shù)據(jù)集、從業(yè)務信息系統(tǒng)中提取數(shù)據(jù)、根據(jù)數(shù)據(jù)特征與分析目的對數(shù)據(jù)做預處理,特征變量選擇或特征提取、構建模型與評價,最后是結論報告與模型應用。
在數(shù)據(jù)挖掘過程中,特別需要強調三點:
第一,為降低生物噪聲、數(shù)據(jù)噪聲、數(shù)據(jù)缺失等不可控因素對于數(shù)據(jù)挖掘的影響,數(shù)據(jù)挖掘的每項具體過程或細節(jié)都需要反復探索;
第二,數(shù)據(jù)挖掘不能簡單依賴一種統(tǒng)計方法,應該考慮多種技術方法,并對不同方法進行比對與適當改進,以使數(shù)據(jù)挖掘方法適用于研究對象及變量數(shù)據(jù)分布特征;
第三,在特征提取時,為有效地降維降噪,數(shù)據(jù)分析模型中需要引入部分參數(shù),參數(shù)選擇設置的正確與否直接影響降維降噪效果,因此需要反復探索。
一 定義臨床問題
提出臨床問題是臨床數(shù)據(jù)挖掘研究的核心過程,一個有價值的、有數(shù)據(jù)支持的臨床問題是數(shù)據(jù)挖掘研究的前提,有助于制定變量數(shù)據(jù)收集策略,提高解決臨床問題的針對性。找準臨床問題不僅要具備對患者的責任心、豐富的臨床診療知識、扎實的臨床實踐,而且要有一定的醫(yī)患心理行為學知識與綜合分析判斷能力。
定義臨床問題是確定變量數(shù)據(jù)集的前提,也是數(shù)據(jù)挖掘中的最主要的任務, 推薦采用PIOC法則(Participants,Interventions,Outcomes,Comparisons)來定義臨床問題。例如,臨床問題是“肝癌患者術后早期是否復發(fā)”,PIOC分別為以下四方面:
Participants指明確臨床診斷的肝癌患者,需明確診斷手段和診斷標準;
Interventions指手術切除,需要進一步明確切除范圍、具體術式如腹腔鏡下肝切除術;
Outcomes指早期復發(fā)或進一步明確為術后特定時間段內(nèi)的原位或遠端復發(fā)。此外,還有次要結局、競爭性結局、自報告等;
Comparisons是指肝癌術后早期有復發(fā)和無復發(fā)患者形成的兩個可比組,即復發(fā)組VS無復發(fā)組。
若臨床問題屬于診斷范疇,可省去Interventions。例如,臨床問題是“局部進展期直腸癌患者是否有淋巴結轉移”,則PIOC分別為:
Participants是明確臨床診斷的局部進展期直腸癌;
Outcomes是特定部位淋巴結是否出現(xiàn)腫瘤轉移;
Comparisons為有無淋巴結轉移的局部進展期直腸癌患者形成的可比較組,即淋巴結轉移組VS淋巴結非轉移組。
在臨床研究方案中,將臨床結局Outcomes定義為“死亡”,往往不符合臨床實踐認識,且一家醫(yī)院無法滿足臨床研究對陽性病例的樣本量需求。這主要是因為醫(yī)療技術先進,多數(shù)危重疾病已經(jīng)慢病化。而且瀕死患者會自行轉院,或出于傳統(tǒng)習俗出院返家。因此,Outcomes采用“臨床不良事件發(fā)生”則更適合臨床現(xiàn)實場景,可以將醫(yī)囑中“術前抗生素使用”“電除顫”“心外按壓或鹽酸腎上腺素注射液3次”等急危病情救治措施作為臨床不良結局。
二 數(shù)據(jù)準備與數(shù)據(jù)提取
根據(jù)PIOC法則確定的臨床問題和臨床特征變量定義,從醫(yī)療信息系統(tǒng)如HIS、LIS中提取數(shù)據(jù)、建立臨床數(shù)據(jù)挖掘的變量數(shù)據(jù)集。
提取臨床特征變量數(shù)據(jù),由數(shù)據(jù)工程師利用結構化查詢語言(Structured Query Language,SQL)代碼批量處理。非結構化和半結構數(shù)據(jù),需要利用自然語言處理技術配合人工標注,提取具體臨床特征變量。在實際工作中,因研究方案經(jīng)常更迭,臨床數(shù)據(jù)提取會被多次修正。
慢性疾病研究涉及患者數(shù)量多、治療周期長,一家醫(yī)院患者的臨床數(shù)據(jù)完整程度不高,許多重要指標需隨訪跟蹤,完成難度相對較大。在“直腸癌化療后心血管疾病發(fā)生風險研究”中,研究結果的影響因素就比較多。臨床科研工作者很難掌握直腸癌患者院外醫(yī)囑執(zhí)行情況,化療周期長和患者流動性也使得疾病進展中獲取特征變量數(shù)據(jù)難度較大,難以準確判斷心血管疾病患病時點。這些因素都增加了化療與心血管疾病的因果關系分析難度。
急危重癥患者的治療周期比較短,治療見效快,臨床特征變量數(shù)據(jù)的完整度也比較高,數(shù)據(jù)提取工作相對容易。在“急性胰腺炎患者是否耐受院內(nèi)腸營養(yǎng)研究”中,患者規(guī)模相對較小、治療周期短、臨床特征變量數(shù)據(jù)的完整度高,治療后“是否耐受腸營養(yǎng)”在病程記錄中有完整記錄。
此外,在提取特征變量數(shù)據(jù)過程中,需注意在所選時間段內(nèi)業(yè)務信息系統(tǒng)是否發(fā)生變更、特征變量編碼法則是否發(fā)生改變,是否會對分析結果產(chǎn)生影響。提取所需數(shù)據(jù)時,要提取設定時間段內(nèi)相應特征變量的質控數(shù)據(jù),方便后續(xù)數(shù)據(jù)清洗,并將數(shù)據(jù)以常見格式儲存。
三 數(shù)據(jù)預處理
從業(yè)務信息系統(tǒng)提取到的原始數(shù)據(jù),需要進一步加工以適于后續(xù)分析。數(shù)據(jù)預處理包括數(shù)據(jù)清洗、標準、清理和變換等。其中,數(shù)據(jù)清洗是數(shù)據(jù)預處理最為關鍵的一步。醫(yī)院業(yè)務信息系統(tǒng)中存在著大量臟數(shù)據(jù)(Dirty Read)。在保證與原始數(shù)據(jù)一致性與可追溯性的基礎上,臨床科研工作者需要對空缺數(shù)據(jù)、重復數(shù)據(jù)、異常數(shù)據(jù)進行反復確定、降低誤差,最終形成便于挖掘分析的數(shù)據(jù)。
在處理缺失數(shù)據(jù)時,需要考慮缺失比例、缺失是否隨機,因為特征變量的字段編碼或名稱改變也會導致數(shù)據(jù)提取失效。在數(shù)據(jù)去重時,需要依據(jù)主索引對于特征變量數(shù)據(jù)進行比對去重,門診數(shù)據(jù)要保留末次就診記錄值。在識別和剔除異常值時,可以執(zhí)行三倍標準差原則。由于各項臨床特征變量指標取值范圍不同,故其特征變量維度(單位)也不同。要將各個特征變量縮放到相同量級,就需要對索引特征變量數(shù)據(jù)進行歸一標準化處理。
四 特征提取
特征提取,又稱為自變量篩選,是數(shù)據(jù)挖掘最為關鍵的一個分析環(huán)節(jié)。由于臨床特征變量的數(shù)目較多,其中一些特征變量在預測臨床結局時,實際臨床意義不大或缺乏臨床應用場景。因此,需要對特征變量進行選擇,即特征提取。其目的是探索特征變量對于預測結局的影響大小及重要性,進而綜合權衡選擇對結局影響更加顯著的或有巨大臨床應用價值的特征變量進入預測模型,以提高預測模型的穩(wěn)定性、準確性、實用性。
特征提取方法有相關分析、邏輯回歸模型(Logistic regression)、平均準確度減少(Mean accuracy reduction)法、遞歸特征消除(Recursive feature elimination)、互信息與最大信息法則(Mutual information and maximum information),相關分析最為常用,具體分析方法可依據(jù)特征變量的數(shù)據(jù)分布類型進行確定。
五 建立預測建模與模型評估
提取特征后,使用邏輯回歸模型、決策樹、隨機森林、隨機支持向量機、神經(jīng)網(wǎng)絡等機器學習算法,建立全局最優(yōu)(Global optimal)或局部最優(yōu)(Local optimal)的預測模型。
評估預測模型,就是利用內(nèi)部數(shù)據(jù)或公共數(shù)據(jù)庫中的同質研究對象數(shù)據(jù)集,對預測模型的準確性與臨床意義進行評估驗證。使用內(nèi)部數(shù)據(jù)進行評估屬于交叉驗證,使用外部數(shù)據(jù)進行評估則屬于獨立性驗證,后者驗證力度更強,也更受歡迎,但難度相對要大。
評估預測模型的臨床意義,就是從臨床使用預測模型后的收益角度進行評估,其重要性并不亞于準確性評估。區(qū)分準確性評估和臨床意義評估非常重要,如建立分子診斷模型或者影像診斷模型,用于判斷直腸癌患者是否存在淋巴結轉移即屬于準確性問題。而使用上述診斷模型指導患者接受治療后的效果是否更好,即屬于診斷模型的臨床意義問題。
模型評估是建模過程中最為關鍵的一步,這就要求研究者十分熟悉數(shù)據(jù)挖掘方法與臨床特征變量的各自特點,才能科學評估并建立準確且有臨床價值的預測模型。
六 分析報告與結果發(fā)表
基于上述五個分析過程,總結報告需要詳細描述研究設計、特征變量數(shù)據(jù)集的建立和預處理、數(shù)據(jù)質控、檢測分析平臺、統(tǒng)計分析流程和原理,并在結果報告中恰當使用圖表和圖形等可視化方式,呈現(xiàn)特征變量數(shù)據(jù)的基本特征及模型擬合優(yōu)度。
臨床科研數(shù)據(jù)挖掘研究融合了多學科知識,需要多學科人員協(xié)同合作,在臨床數(shù)據(jù)處理過程中需要不斷修正研究方案,重新調整數(shù)據(jù)提取和分析策略。但是,分析方案的更迭,向多方參與協(xié)作這一方式提出了挑戰(zhàn)。臨床科研工作者負責臨床背景與意義和數(shù)據(jù)內(nèi)容需求,包括特征變量的重要性、名稱、來源、取值范圍、臨床意義和提取標準,數(shù)據(jù)工程師負責數(shù)據(jù)提取代碼、數(shù)據(jù)分析過程和結果輸出等分析執(zhí)行與報告撰寫。建立合理的數(shù)據(jù)質控點,可以使臨床數(shù)據(jù)挖掘有據(jù)可依,既方便追溯,又有助于多方協(xié)同合作,及時發(fā)現(xiàn)漏洞,完善研究方案,提高工作效率。
本文選自作者主編出版的《大數(shù)據(jù)時代下的臨床科研數(shù)據(jù)挖掘》(江西科學技術出版社)第一章第四節(jié)
作者簡介
郭有,男、醫(yī)學博士,雙聘碩導(贛南醫(yī)學院公共衛(wèi)生、江西理工大學計算機科學與技術)、副教授,贛南醫(yī)學院第一附屬醫(yī)院醫(yī)藥大數(shù)據(jù)中心副主任(負責人)、贛南醫(yī)學院創(chuàng)新團隊負責人、贛州市醫(yī)藥大數(shù)據(jù)重點實驗室主任。