阮彤:大模型給電子病歷互聯互通帶來的變革 — 從結構互通到語義互通
“互聯互通”標準的目的是面向機器,而不是面向人的。人可以理解所有醫院的電子病歷,但是在大模型出現之前,機器不能夠理解自然語言,需要一個標準方法來描述電子病歷,方便電子病歷在不同醫院之間流轉。因此,電子病歷的互聯互通,本質指的是A醫院一臺機器,可以同時處理B醫院的電子病歷。
大模型的出現使機器在理解自然語言的基礎上,延伸到對醫學語言和電子病歷的理解。如果機器能夠理解電子病歷,電子病歷就可以直接在不同系統中進行自動化處理,理論上是不需要互聯互通標準的。例如,如果大模型可以將A醫院的電子病歷的形式,自動轉換成B醫院的格式,制定一個中間標準還有什么必要呢?
我們的假設和推理過程是這樣的:
1.一個足夠好的大模型是能夠理解自然語言的;
2.而電子病歷可以看作是一種帶有特殊格式的、具有特定詞匯的自然語言。因此,大模型未來能夠理解電子病歷是必然的;
3.理解電子病歷,意味著大模型可以自動在多家醫院的電子病歷格式之間做轉換;
4.互聯互通標準的意義在于可以機器處理多家醫院的病歷,所以既然可以自動轉換,就不用互聯互通標準了。
事實上是,上面的幾個假設在目前階段并不完全成立,主要在于:
1.大模型對電子病歷理解還不夠充分;
2.轉換過程不是無損的,可能會出問題;
3.互聯互通標準定義了一種事實上的電子病歷“書寫標準”,表達了電子病歷應該包含的字段,以及字段之間的關系,隱含了一定的質控要求。
因此,我們需要一個面向未來、更為智能化的互聯互通標準,這個標準主要有兩個特點:
1.一個面向大模型、更為靈活、可擴充的互聯互通規范。
所謂面向大模型,就是在撰寫標準的時候,提供大模型容易理解的各種自然語言增強的表達,目的是方便大模型理解這個標準,從而可以自動化處理和轉換,以方便醫院間數據的共享。
所謂靈活性,即借助于大模型對自然語言的理解,標準的定義方式可以更為靈活,比如說,可以有判斷和條件語句,可以根據不同疾病,選擇合適的條目等等。
所謂可擴充,即上層標準制定一個框架和基本條目,不同的區域與疾病可以方便的擴充這個標準,基于大模型的處理引擎,不需要額外的程序和訓練,即可處理這個擴充規范。
2.一個支持病情與決策邏輯的語義描述,進而隱含日常醫療質控要求的電子病歷互聯互通規范。
在電子病歷結構上的互聯互通,只是互通的初步。而基于電子病歷,促進不同專家對病情和治療方案形成探討和共識,才是互聯互通的最終目的。而傳統的規范文檔,只是從結構上進行了限制,并未進一步對內容和表達進行引導。
所謂隱含電子病歷語義,指的是互聯互通規范不僅是規范有哪些條目,而且是規范了條目應該包含哪些內容,這些內容之間的邏輯關系是怎樣的,比如說,主訴和家族史應該寫些什么,而不僅僅是必須要有“主訴”這個字段。再比如說,每日病程記錄,從原則上應該記錄哪些內容,而不僅僅是流水賬式的復制。
電子病歷記錄的內容,一方面記錄患者病情的變化,一方面可以更為清晰記錄醫生的診療思路和過程,輔助以語義內涵質控,可以提升病歷的書寫。
下文從兩個方面細化上述觀點。
一 傳統基于CDA標準的電子病歷互聯互通協議的要點
電子病歷標準化對于提高醫療數據利用率和服務質量至關重要。目前這一過程主要依據國際通用的CDA臨床數據架構規范。臨床數據結構(CDA)規范,以XML格式定義了電子病歷中的眾多文檔、章節以及條目內容,并通過術語代碼表達了結構化字段的語義含義。這種表達方式有下列缺點:
1.XML冗余度高,可讀性較差;
2.術語代碼表達了結構化字段的語義含義,但大多數人不能很好的了解術語編碼體系,因此,編碼成為一項令人厭煩的工作;
3.缺乏對條目中文本字段內涵和外延的定義與限制。這個在電子病歷數據元規范或者電子病歷書寫規范里面可能有。但是,這些規范的表達方式是比較隨意的,沒有統一的格式,不一定被大模型所理解;
4.CDA規范中文本條目的粒度仍較粗;
5.CDA沒有表達出文本間的語義關聯。
二 新一代電子病歷互聯互通規范的要點
值得慶幸的是,隨著大模型在自然語言理解方面能力的顯著提升,可以利用文本或示例來描述文本的內涵和外延,以方便機器理解,這也是人類理解語義的常用方法之一?;诩夹g的趨勢,本文認為新一代電子病歷規范應該具有下列特點:
1.基于JSON。JSON對比XML的方便之處不再詳述;
2.提供一種大模型使人機同時理解的提示語言,暫時稱為L4CS( Language for Clinical Standard),該語言有如下特征:基于自然語言;具有一定的結構特征和特殊表達,如數據元、數據元描述、判斷語句、關聯語句、正例、負例等等。
例如,如果患者是乳腺癌手術,則需要做病理檢查,病歷應該有專門的“病理檢查”條目,在“出院小結”條目中,如果病理報告未出,則需要告知患者。
基于上述表達,大模型可以對電子病歷的質量進行語義控制。
1.基于L4CS語言,定義電子病歷的所有條目,應根據情況增加子條目以及條目之間的關系;
2.保留術語編碼,但同時使用L4CS描述疾病、癥狀等術語,在標準統一的同時,可以更好的描述疾病。另外,區域層面提供編碼工具,使編碼方法統一;
3.允許專科基于l4CS語言定義??埔幏?。
總而言之,大模型給電子病歷的互聯互通帶來了便利,不僅是在數據元名稱層面,還在以自然語言描述的病情和治療方法層面,實現語義級別的互聯互通。
作者簡介
阮彤,CHIMA委員,華東理工大學信息科學與工程學院計算機系,博導,教授?,F任華東理工大學計算機技術研究所所長,自然語言處理與大數據挖掘實驗室主任。長期從事自然語言處理、知識圖譜、醫學人工智能等方面的研究。
CHIMA 2024大會邀請
中國醫院信息網絡大會(CHIMA 2024)將于5月16-19日在南京國際展覽中心召開,以新質生產力理論為指導,以深化應用,融合創新,用信息技術賦能醫院高質量發展為主題,邀請國家衛生健康委相關司局領導、兩院院士、國內外醫療衛生信息化領域知名專家學者、領軍人物做主旨報告。本次大會聚焦醫療信息化的技術及應用領域的核心問題,將設立信息標準與互聯互通、信息中心管理與實踐、醫院基礎設施建設等拓導課與分論壇。會議同期還將舉辦中外醫療信息網絡技術和產品展覽會,集中展示國內外知名IT廠商最新技術和最新產品。大會大咖云集,內容豐富多彩,歡迎各醫院和企業代表參與。
相關鏈接:
相關鏈接:
4.“CHIMA 2024中國健康醫療信息化圖書展”參展通知
點擊此處可了解大會更多信息