趙敏:淺談多模態醫學數據融合分析
隨著醫療信息化的快速發展以及醫療設備的更新迭代,海量且類型多樣的醫學數據應運而生。根據目前醫學數據所展示的具體信息和形式,我們可以將其大致分為三大類:
1.臨床文本數據。主要包括血紅蛋白、尿常規等結構化的檢驗數據,以及醫生記錄的患者主訴、病理文本等非結構化的文本數據;
2.影像、波形數據。包括超聲圖像、CT圖像、核磁共振圖像等影像數據和心電圖、腦電圖等信號數據;
3.生物組學數據。按照不同的分子層面又可以分為基因組、轉錄組、蛋白組等。獲取患者相關數據的每類方式均為一種數據模態,不同模態的醫學數據都從特定的角度提供了患者的診療信息,信息間既有重疊又有互補,結合多種類的醫學信息則進一步提高了診斷治療的準確性。
在大數據時代背景下,算法工具和數據分析技術的不斷創新也極大地促進了多模態數據融合分析的發展。近十年來國家自然基金項目醫學科學類中,關于多模態醫學研究項目數量逐年穩步增多,資助金額也呈增長趨勢(圖1)。盡管如此,基于多模態數據的智能診療大部分仍處于理論方法研究階段,距離實際臨床應用還有一段距離。
圖1 近十年多模態醫學研究國家自然基金項目統計
在多模態醫學數據研究方面,我們小組正在利用口腔癌多模態數據進行初步探索。口腔癌是發生于口腔黏膜的惡性腫瘤,是世界十大最常見癌癥之一,具有發病率高、病情發展快和易轉移等特點。目前臨床診斷僅基于醫生觸診和CT等影像檢查,并不能對頸部淋巴結轉移情況進行準確評估。針對上述問題,我們的研究目標是綜合利用影像組學、基因組學、臨床信息等不同維度的表征,實現術前預測口腔鱗狀細胞癌患者是否發生頸部淋巴結轉移,以指導治療方案的恰當選擇。
口腔癌淋巴結轉移研究技術路線如下(見圖2):首先將我院近十年行頸淋巴結清掃術的口腔鱗狀細胞癌患者分為發生和未發生頸部淋巴結轉移兩組,根據患者ID提取病理檢驗和CT、MRI影像等數據,然后通過自然語言處理技術對病理文本進行特征抽取,得到淋巴結大小、活動度等臨床特征集;將人工標注后的醫學影像通過深度學習技術提取圖像的紋理特征等量化后得到影像特征集,基于該部分患者的臨床和影像特征建立轉移預測模型。
圖2 口腔癌淋巴結轉移研究技術路線
由于缺少患者的組學信息,在基因組學數據方面,我們首先對公共數據庫中的數據進行重新分組和再分析,以挖掘出與淋巴結轉移相關的特征基因并建立預測模型。最后對兩個模型進行決策融合。目前該項目已有部分結果,但尚在進行中,因此暫不作展示。
最后結合我們實際工作經驗,發現目前在多模態醫學數據具體分析和應用中主要面臨著如下問題:
1.數據完整性差。同時具備患者的檢查檢驗信息以及生物組學信息等多模態數據的有效樣本少,對于醫院來說基因組學信息尚未整合到電子病歷系統中,而測序公司有大量的測序數據但沒有患者的相應的臨床資料,所以目前的大多數研究都是基于小樣本建立診斷預測模型;
2.數據內部存在異質性。在數據處理過程中我們發現檢驗數據因為檢驗儀器設備不同而引起標準不同,影像數據又存在著設備的品牌不同導致所采集的醫學影像間存在差異,生物組學數據不同的樣本處理方式及測序平臺也不能直接進行比較分析;
3.多模態、跨模態醫學數據的融合算法研究尚未成熟;
4.研究協作機制不完善。多模態醫學數據融合分析屬于多學科交叉領域,需要臨床醫生、統計分析工程師、算法工程師、生物信息工程師等各學科背景的人反復溝通交流確定研究方案。
上一篇: 計虹:充分利用云資源,支持醫院快速發展
下一篇: 柳明:聊聊專業技術以外的那些管理雜項