郭有:臨床數據挖掘的基本思想
臨床科研數據挖掘以臨床問題為導向。臨床診療場景繁雜,不同場景面臨的問題各有不同,對數據挖掘的需求也不同,決定了臨床數據挖掘研究的多樣化、個性化。
臨床數據挖掘涉及學科范圍廣、技術難度大,需要將信息處理、計算機、統計分析有機融合為挖掘工具來解決臨床科學問題。這就要求研究者具備深厚的醫學知識,以洞察臨床場景背后潛藏的有待解決的臨床科學問題,更需要掌握解決問題的數據挖掘技術。因為基于臨床診療數據和面向臨床診療應用,任何一種分析算法都沒有絕對優劣,必須結合具體臨床應用場景和臨床數據特點,選擇合適方法才能得到準確而有價值的分析結果。因此,在反復執行臨床數據挖掘的各個環節時,需要貫徹臨床思維,從多個角度反復思考權衡。
一臨床應用場景為導向
臨床問題是數據挖掘的起點和歸宿點,解決什么樣的臨床問題,能解決到何種程度,從根本上決定了臨床數據挖掘研究成果的臨床價值。因此,對臨床問題的把握和認知,直接決定了臨床數據挖掘結果的命運,是文章發表后的束之高閣,還是在臨床實踐中生根發芽。此外,受到廣泛認可的跨行業數據挖掘標準流程(Cross-industry standard process for data mining,CRISP-DM),也將理解和把握應用場景排在數據挖掘的首要位置。因此,把臨床問題有效轉化為數據分析需求,才能設計臨床特征變量的數據提取、建立統計指標體系、合理選擇參數、擬定實施計劃,這就要求把臨床思維貫穿至整個數據挖掘研究過程中。
對于臨床數據挖掘初學者,很容易被數據挖掘本身的技術魅力所吸引,特別是在熟悉和掌握了一些數據分析技術后,極容易陷入“唯數據、唯統計”的陷阱之中,把數據挖掘技術與分析過程以華彩炫目的可視化作為重點,把解決臨床問題卻放在了次要地位,甚至忘記了數據挖掘起點的臨床問題。
以臨床應用場景為導向,可以從四個方面思考臨床數據挖掘研究的整個過程。
一是臨床問題的重要性,可以通過疾病負擔如受累患者的群體規模、不良結局的嚴重性、經濟負擔、生活質量等多個角度衡量考慮。
二是對臨床特征變量分析變換時,根據特征變量取值分布特征及臨床特點來決定轉換方式。例如,分析血小板是不是術后感染的影響因素,就需要根據血小板數據分布范圍的臨床意義,將連續性變量數據轉換為降低、正常、升高三個等級。正確合理轉換特征變量有兩個優點 :能夠凸顯臨床特征變量對結局影響的效應大小;便于解釋臨床特征變量效應值的臨床意義。
三是在選擇特征變量或特征提取時,除了考慮對結局影響的效應值大小,還需要考慮以下情況 :①特征變量的臨床檢測手段或檢測工具在臨床診療目標人群中的使用率。若某個臨床特征變量檢測手段使用頻率低,但是很重要,就可以使用其他相關特征變量或構建預測模型加以代替。②特征變量在目標人群中的流行率。例如,是否選擇肥胖作為術后嚴重感染的預測模型的特征變量,除了考慮與結局的效應值(OR、RR、HR)大小外,還需要考慮目標人群的肥胖率。如果目標人群肥胖率過低,則可不考慮將其納入預測模型。
四是模型評估時的臨床考慮。臨床模型預測不準是常態,預測準確是變態。臨床數據分析和預測模型面對的是帶有強烈不確定性和變異性的臨床數據,預測不準(小于100%)是一種常態。但是,不準確的預測價值在哪里呢?來自臨床實踐的對照,與合理對照比較后,才能充分展現預測模型的臨床價值。更為重要的是,除了從模型準確性角度進行評估外,更要從模型使用的預期臨床收益角度進行評估。
二臨床問題背后的多學科問題
常見臨床問題可以分為五類。
病因:哪些因素與發病有關?什么機制?分子網絡?
診斷:目前診斷的檢查手段準確性如何?安全、可靠、方便、經濟嗎?可及性如何?
治療:當前治療手段有效性如何?新方案如何?
預后:治療后臨床結局受哪些因素影響?這些因素能夠改變嗎?改變難嗎?
成本:診斷或干預的經濟費用是多少?如何提高收益?
臨床問題是核心,只有將臨床問題背后的科學問題說清楚了,才能知道要將哪些特征變量數據納入分析。將臨床問題分解成科學問題時,會發現一個臨床問題背后常常存在多個科學問題。按照PIOC法則,可以把“如何提高局部進展期直腸癌新輔助放化療后完全應答率”拆解為幾個問題。
Participants存在診斷準確性問題,混入了其他類型的患者,需要進一步提高準確性。
Participants診斷是準確的,但是現有診斷分型不充分,不能區分患者中的耐藥和敏感者。
Participants現有治療方案需要改進,需要新的治療方案,如全輔助放化療治療。
Participants接受新輔助放化療后,判斷患者是否完全應答的檢查方法不夠準確,需要新的手段或多學科判斷。
Participants新輔助放化療后,判斷應答的時間點需要優化。
這就是臨床科學問題的主要類型。任何數據挖掘,不僅僅是針對一種問題,而且一般一次只選擇一個科學問題進行數據挖掘分析。如果科學問題太多,則難以組織數據,分析也非常復雜,導致很難執行。
三控制多重檢驗的假陽性發現率
在臨床數據挖掘研究中,多重檢驗(Multiplicity test)普遍存在,其中四種情況最為常見。第一種,多次使用假設檢驗判斷特定臨床結局在三個以上比較組間是否有差別。第二種,多次使用假設檢驗判斷多個臨床結局如腫瘤復發、轉移、并發癥、死亡等在兩組間是否有區別。第三種,多次使用假設檢驗判斷成千上萬個特征變量如基因組核苷酸位點多態性、轉錄組、蛋白質組、代謝組等生物分子是否與某特定結局相關。第四種,多次使用假設檢驗判斷多個變量兩兩之間是否存在相關性。
每次假設檢驗都有錯誤風險,特別是當拒絕原假設時,會犯I類錯誤即假陽性(False positive)。對同一個問題進行多次假設檢驗,I類錯誤就會積累膨脹。因此,需要采取適當方法,將總的I類錯誤控制在預定水準以下,這就是對多重檢驗的校正。
美國Benjamini和Hochberg在1995年首次提出了假陽性發現率(False discovery rate,FDR)的概念,即陽性檢驗結果中錯判所占比例,并給出了相應控制方法,簡稱BH方法。相對于I類錯誤取值校正,FDR可以根據數據挖掘需要靈活取值,作為選擇變量或特征提取的篩選標準。特別需要強調的是,FDR是基于在特定無效假設下的P值計算而來,且特征變量與結局變量間廣泛存在著強弱不等的相關性。所以,FDR并非必然的絕對準確。
四亞組分析
亞組分析(Subgroup analysis)是按照研究對象的某個特征如人口統計學特征、臨床病史特征、分子和并發癥等,將研究對象分成不同的亞組或子集(Subset),然后在不同亞組中分別計算特征變量對臨床結局影響的效應值,并進一步進行比較。其目的是探索干預措施對具有上述某種特征患者的療效是否會更好。例如,治療急性冠脈綜合征,替格瑞洛比氯吡格雷療效好。但是,患者使用了大劑量阿司匹林后,氯吡格雷比替格瑞洛的療效好。
亞組設定主要考慮臨床應用場景。根據分析目的,可以將亞組分析分為三類——探索性(Exploratory)、驗證性(Confirmatory)和支持性(Supportive)。探索性亞組分析是通過亞組分析探索藥物或治療方案對不同亞組患者可能存在的療效和安全性上的差異,主要關注差異的可能機制或臨床合理性。驗證性亞組分析是按照預先制訂的研究計劃,以特定亞組為主要目標人群,能夠對I類錯誤進行控制的亞組分析,以確證亞群患者的臨床效果。支持性亞組分析是通過亞組分析探討藥物或方案的療效和安全性在各亞組中的一致性,為研究結論適用于全人群提供進一步的證據支持。
但是,探索性亞組分析有引入偏倚的風險,從而使結論不夠穩健甚至錯誤,需要進一步在足夠的統計把握度下驗證分析。亞組分析常見錯誤是分別檢驗各個亞組的效應值是否有統計學意義,這會導致假陽性率增高。正確的做法是采用交互分析判斷各亞組的效應值是否有差別。當亞組分析結果與主要研究結論沖突時,應結合病理生理學原理、非臨床和藥理學支持、相似藥物的臨床經驗、其他支持性終點結果、亞組的獲益—風險評價、臨床醫療需求和其他實際考慮,忌統計分析至上。
五分層分析
分層分析的目的是控制混雜變量后,對各層研究對象進行合并,從而增大研究樣本量,增加研究說服力。
分層分析是按照某個待控制的混雜變量,將研究對象分層,然后分層估計特征變量對臨床結局影響的效應值,再根據各層效應值是否一致,決定是否對各層研究對象進行合并。
年齡是臨床數據挖掘研究中最常見的混雜變量,它與疾病診斷、治療、預后存在著極為密切的關系。在進行分層分析時,要將連續性變量轉變為有序分類變量。如何對年齡進行分層即不造成信息損失,又提高數據利用效率呢?這里介紹兩種方法。第一種方法是依據專業知識進行判斷,如大家公認早發性結直腸癌的年齡以45歲為截斷點。第二種方法是依據年齡在兩個比較組(Comparisons)源人群中分布的截斷值(Cut off value)來劃分,即年齡等于截斷值的個體,來自兩個比較組源人群的概率是相同的。從數據挖掘角度來說,更傾向于推薦第二種方法。
因此,分層分析常用于數據挖掘的驗證階段。其流程是先在總人群中研究計算特征變量與臨床結局的關聯效應值如RR或OR,然后按照混雜變量對目標人群分層。在各層研究對象中分別計算關聯效應值,并進行比較。若各層所計算的關聯效應值不一致,則分層報告關聯效應值。如果基本一致,則可以用 Mantel-Haenszel法計算合并關聯效應值,即控制混雜變量后的調整關聯效應值。若調整關聯效應值與分層前不一致,如RR或OR小于1時差值在0.1以上,或RR或OR大于1時差值在0.5以上,可認為分層變量存在著混雜效應。
需要強調的是,實際研究中混雜變量數目往往較多,而且非常復雜,分層分析時研究對象被分割為很多亞層,計算就會變得非常復雜。同時,每一層的樣本量就會變得很少,結果也會很不穩定。此外,可采用傾向性評分法(Propensity Score Analysis,PSA)、多因素調整分析(Multivariable risk adjustment)、工具變量分析(Instrumnental Variable Analysis,IVA)等方法控制混雜變量。其中,臨床數據挖掘中使用頻率最高的是傾向評分法。
六對照選擇
對比是臨床研究方法學的邏輯核心,無論何種類型臨床問題,對照選擇都必不可少,各類研究方法本質都是選擇最可比的對照組。對比思路有兩種。一種是由特征不同的兩個群體間形成對照,如病例對照研究就是病例組與非病例組形成對照,隊列研究是特征變量暴露組與非暴露組形成對照。另一種對照思路是同一個體特征不同的兩個時間段之間形成對照,如病例交叉研究就是某結局發生前特定時間段與非結局前特定時間段形成對照。
醫療大數據的積累,顯著增加了臨床研究的對照類型。但是,在回答特定臨床研究問題時,研究者經常面臨對照個體選擇困難的挑戰。當某臨床專病患者全部都使用某一種藥物時,在數據庫中必然找不到未用該藥的對照個體。當存在臨床指征偏倚、疾病嚴重程度等難控制、難測量的混雜變量時,同樣很難找到直接可比的對照個體。指征偏倚是最常見的混雜變量,病情嚴重患者傾向于獲得治療或獲得強化治療,最終導致治療結局看起來非常糟糕,似乎治療患者反而預后更差。
此外,對照選擇也跟研究成本及可行性密切相關。在保證結果可靠的前提下,樣本量盡可能小、特征變量數目盡量少些。這不僅能降低研究難度,也更符合數據安全與倫理安全要求。對照選擇的需求難題,都要求數據挖掘時不斷思考如何優化或提出更為妥善的對照選擇策略。但是,必須明確指出,任何一種對照選擇策略都不可能適用于所有臨床研究問題,都存在一定的局限性。
理想可比的對照往往很難找到,對照選擇不盡完美時,就需要評估研究結果受到何種影響及影響大小。既往病例對照研究都會提及,對照選擇會造成結果高估還是低估。如采用病例對照研究宮頸癌與人乳頭狀瘤病毒的關系,選擇修女作為對照會造成關聯被高估,選擇性工作者作為對照會造成關聯被低估。
定量評估不同類型對照組對效應值的影響有兩種方法:
第一種思路是計算E值。研究獲得的E值越大,代表特征變量與臨床結局之間的關聯強度,越難以被未知混雜因素抵消。反之, E值較小時,尤其接近1,研究者需要慎重看待,說明研究發現的關聯很容易被未知混雜因素所影響甚至反轉。提倡在報告觀察性研究結果時,報告E值以輔助結果解讀。
第二種思路是,在不做任何前提假設的情況下,利用可獲取的各種人群參數,直接計算關聯強度的下限值。具體計算過程可以登錄在線計算工具網址 :http://selection-bias.louisahsmith.com/。
臨床數據挖掘直面“如何選擇對照”,極大拓展了對照選擇策略,也引領相關方法學的革新和優化。認識對照選擇對研究結果的潛在影響,可以通過計算E值、真實關聯強度值下限來反映,更好促進研究結果的分享、解讀與利用。
本文選自作者主編出版的《大數據時代下的臨床科研數據挖掘》
作者簡介
郭有,男、醫學博士,雙聘碩導(贛南醫學院公共衛生、江西理工大學計算機科學與技術)、副教授,贛南醫學院第一附屬醫院醫藥大數據中心副主任(負責人)、贛南醫學院創新團隊負責人、贛州市醫藥大數據重點實驗室主任。
點擊此處可登錄在線計算工具網址
上一篇: 醫療收費電子票據應用與探討
下一篇: 魏素珍:基層醫院信息化建設實踐