臨床數據處理流程規范構建
1 引言
醫療衛生行業數據來源豐富且類型多樣。醫療信息平臺等數據端匯聚龐大數據資源,充分挖掘醫學數據價值有利于輔助臨床診斷、拓展科研思路、提高科研效率、強化醫院數據治理能力。醫學大數據挖掘利用以醫學問題為先導,醫療行業業務場景較多,所面臨問題不同,對醫學數據資源的加工處理需求也不同,導致臨床研究方案設計的個性化需求較強。醫學工程師應理解臨床研究需要解決的問題,具備定位問題、發現問題、拆解問題和解決問題的能力。具體來說需要長時間反復和臨床研究者溝通以便充分理解研究過程,在此基礎上分析和篩選,進行適當抽象和簡化,將臨床問題轉化為數學問題,進而定義規則處理臨床數據。
2 基本概念與數據處理流程
2.1 回顧性隊列研究
首先明確研究目的,確立結局指標和研究因素,提出PICO(P:研究對象,I:干預或暴露因素,C:對照組,O:結局指標)問題。臨床數據處理主要包括確定患者入選標準(如性別、年齡、診斷等)、剔除標準(如既往史不符、關鍵指標缺失等)、臨床研究因變量(如體征、檢驗、檢查、用藥等) 和結局變量(如生存狀態、預后評分等)。
2.2 臨床數據處理流程規范
臨床數據處理需要嚴格規范,才能保證完整性和準確性。第一,醫學大數據應用實踐需經臨床研究者、數據工程師、統計分析師協同合作完成,共同制定、逐步完善并嚴格貫徹臨床研究方案。數據工程師和統計分析師的介入使得方案更加明晰,臨床研究者更方便掌握研究進展和調整人力、財力和資源配置;第二,流程規范能及時發現錯誤,數據工程師可以及時解決疑問數據;第三,流程所涉及程序腳本可復用,大幅降低研究難度。總之規范流程可以顯著提高臨床研究執行效率,是獲得具有科學性和標準性研究結論的前提。
2.3 數據處理方案(圖1)
圖1 臨床數據處理流程
具體包括患者納入與排除標準、分組條件、就診次選擇以及對應具體診療數據篩選,包括非結構化數據(病歷文本)、半結構化數據(檢查報告、病理報告等)和結構化數據(病案首頁、檢驗結果等)。臨床數據一般由數據工程師利用結構化查詢語言(Structured Query Language,SQL) 腳本定義規則批量處理,其中非結構化和半結構數據需要自然語言處理技術配合人工整理提取具體數據項,整理后的數據由統計分析師合并、清洗、統計分析并校正混雜因素等,最終實現臨床數據價值轉化。大多數臨床研究方案制定是一個長期過程,經常會因后期數據分析結果不理想被重新修正。
3 臨床問題確定與處理
3.1 臨床問題的提出
臨床問題的提出是醫學大數據分析應用的核心,一個好的可回答的問題是保障臨床研究質量的關鍵,有助于制定證據收集策略,提高解決臨床問題的針對性。要找準臨床問題應具備對患者的責任心、豐富的基礎和臨床醫學知識、扎實的臨床基本技能、一定的人文科學及社會心理知識、綜合分析和判斷能力。統計分析師和數據工程師從方法學和工程學角度,基于大數據思想和統計方法,結合醫院數據實際情況審核臨床問題,為臨床研究者提出建議。
3.2 慢病及危急癥患者臨床數據特點
一般來說,慢病相關研究涉及患者數量多、治療周期長,一家醫院包含患者臨床數據的完整程度不高,許多重要指標需要隨訪跟蹤,完成困難。例如課題“惡性腫瘤患者服用化療藥導致高血壓預測分析”中,影響研究結果因素較多。首先,惡性腫瘤患者離院后,很難掌握其是否遵醫囑服藥、是否存在中間停服或者換藥等情況;其次,患者化療周期長、醫院人流量大,持續在本院復查患者占比較低,缺少疾病發展過程中的臨床數據;最后,部分患者高血壓患病時間點難以判斷,難以確定高血壓與服用化療藥之間的關系。危急癥患者治療周期短,見效快,患者臨床數據完整度高,完成相對容易。如課題“住院急性胰腺炎患者經口進食不耐受風險因素分析”中,住院急性胰腺炎患者相對較少、治療周期短、臨床數據完整度高,并且經治療后進食是否耐受在醫生醫囑或病程記錄中有所體現。
3.3 患者分組條件客觀化處理
臨床問題涉及指標應當盡量來源于客觀數據,避免人為主觀干預造成數據分析偏差。以不良結局為例討論如何客觀化處理患者分組條件。許多臨床研究方案中結局變量為死亡,但篩選結果往往不符合臨床實踐認識,而且本院數據無法滿足臨床研究對數據量的需求。原因在于一方面先進的醫療技術延長了危重癥患者生命;另一方面瀕死患者存在轉院或者自行出院返家的情況。建議采用臨床不良事件發生代替死亡事件,并將醫囑處置作為參考條件,即醫囑中包含死亡、尸體、電除顫、心外按壓或鹽酸腎上腺素注射液3次以上的患者為不良結局組。
4 臨床數據規范化校驗
4.1 概述
不同醫院業務系統和流程存在差別,導致診療信息數據結構和存儲內容不同。數據工程師需深入醫院業務流程充分了解數據源頭、臨床數據存儲結構,才能根據臨床科研需求有的放矢。
4.2 相似的臨床檢驗項目在不同醫院檢驗傾向不同
如肌鈣蛋白,有的醫院傾向查全血肌鈣蛋白,有的傾向查肌鈣蛋白T,有的傾向查肌鈣蛋白I。同一臨床檢驗項目可能對應不同名稱,包括簡稱、別名等。如谷草轉氨酶(英文縮寫為AST或GOT),又稱天門冬氨酸氨基轉氨酶、門冬氨酸氨基轉氨酶、天冬氨酸氨基轉移酶。同一臨床檢驗項目可能對應不同結果單位。如血氣肌酐結果值的單位可能為umol/L或mg/dl。
4.3 臨床研究方案涉及數據項可能有多個數據源
臨床研究方案涉及數據項可能有多個數據源,存儲在不同數據表中。以“惡性腫瘤患者服用化療藥導致高血壓預測分析” 為例,判斷高血壓可以通過體征中血壓記錄,至少不同日3次測量的血壓大于140/90mmHg,也可以通過醫囑中用藥記錄,至少包含一定劑量降壓藥,也可直接以醫生下達的診斷為依據。這需要根據實際數據情況選擇不同方案。
5 臨床數據規則化提取
5.1 確定研究人群具體診療信息
臨床研究方案首先要確定患者人群,然后確定其具體診療信息。診療信息可能需要入組患者歷次門診、住院次信息或者其滿足一定條件的門診、住院次信息,根據方案實際需求而定。確定患者就診次后,一次住院可能會有多次檢驗、檢查,具體選擇可能是在院期間第一次或最后一次,也有可能是服用某藥或接受某項手術前后最近的一次。
5.2 研究案例
以“惡性腫瘤患者服用化療藥導致高血壓預測分析” 研究為例,要求首先確定結局事件標準,然后提取患者結局事件前最近一次指標結果。惡性腫瘤患者通常一年有多次住院診療記錄,不同住院次檢驗項目不同。提取患者結局事件前最近一次指標,可能會導致同一患者結局事件前最近一次血常規檢驗與最近一次腫瘤標志物檢驗時間間隔過大,影響分析結果。為避免此類情況發生,采用時間間隔范圍限定。如預測180天內結局變量發生,檢驗指標90天內有效期。腳本提取結局變量發生前180天內患者所有在院相關檢驗指標,然后以90天作為窗口在180天范圍內滑動,選定囊括最多不同類別檢驗項的窗口作為目標值。服用化療藥導致高血壓,需要一定服藥期限和劑量,需同時統計惡性腫瘤患者住院醫囑用藥和門診取藥記錄。具體做法為:確定研究的化療藥在數據庫中具體藥品名;患者一年或兩年住院化療次數和門診化療取藥次數大于閾值;患者用藥劑量大于閾值。
6 討論
醫學大數據預測評估實踐研究需要多學科人員協同合作,在臨床數據處理過程中根據過程結果修正臨床研究方案,重新調整數據提取和分析策略。方案更迭容易導致多方參與人員協作失衡,因此臨床數據處理有效開展離不開過程文檔的支持。臨床科研工作者負責課題臨床背景、研究意義和數據內容詳情撰寫,詳情中包括具體數據項的重要程度、具體名稱、數據來源、取值范圍、臨床意義和提取備注(包括就診次和檢驗結果、檢查報告選擇標準)等。工程師應負責數據抽取腳本、數據分析過程和結果輸出等資料撰寫。文檔留痕使臨床數據處理流程有據可依,不僅方便后期審核查驗,而且有助于參與人員協同合作,及時發現漏洞并完善研究方案,提高工作效率。
7 結語
本文在醫學大數據研究中心日常臨床數據服務工作實踐基礎上提出臨床數據處理流程規范,緊扣醫院信息系統常見數據處理工作,對其他類型數據涉及較少,如基因、微生物等。另外限于實際工作內容范圍,流程規范未提及自然語言處理工程師和算法工程師,較少涉及病歷文本結構化操作流程和數據建模分析流程。總之臨床數據處理流程規范與臨床研究成果關系密切,值得高度重視,本研究提出的流程規范還有欠缺,仍需進一步完善。
來源:《醫學信息學雜志》 2022年第43卷第3期
作者:車賀賓 徐洪麗
單位:中國人民解放軍總醫院醫學大數據研究中心
(本文為CHIMA2021大會優秀論文)
上一篇: 吳坤:醫院信息系統建設的管理和技術驅動力
下一篇: 智慧孕產婦健康服務系統設計與實現