北京協(xié)和醫(yī)院:智能語音識別技術賦能超聲檢查模式創(chuàng)新
本案例獲得CHIMA 2020醫(yī)院新興技術創(chuàng)新應用典型案例“醫(yī)學人工智能創(chuàng)新應用”方向二等獎。
國務院于2017年正式印發(fā)《新一代人工智能發(fā)展規(guī)劃》,隨后多部委陸續(xù)頒發(fā)相關政策,包括:科技部于2019年8月正式印發(fā)《國家新一代人工智能開放創(chuàng)新平臺建設工作指引》等,進一步明確了我國新一代人工智能發(fā)展的戰(zhàn)略目標:預期到2030年,人工智能理論、技術與應用總體達到世界領先水平,我國成為世界主要人工智能創(chuàng)新中心。隨著醫(yī)療信息化技術的不斷完善,如何通過人工智能技術為醫(yī)務工作者提供幫助,成為醫(yī)療信息化領域的重要研究方向。
近五年,北京協(xié)和醫(yī)院(以下簡稱“我院”)陸續(xù)引人工智能技術,尤其是將語音識別技術應用到臨床,包括:病房、醫(yī)技科室、手術休息區(qū)等區(qū)域,在語音病例錄入等方面的研究已經取得了良好效果。2018年,我院患者APP中成功實現(xiàn)語音模塊嵌入,患者持手機即可進行語音查詢醫(yī)生介紹和出診信息等功能。
基于上述成功項目的經驗基礎,結合語音識別技術最新發(fā)展動態(tài),我院于2018年開始積極探討語音識別技術在醫(yī)技科室的應用。以超聲醫(yī)學科為例,一套完整的檢查報告流程包括:患者叫號、病情問詢、超聲檢查操作、檢查內容記錄、書寫檢查內容和報告,打印報告和簽字確認等。一方面,單個患者等檢查時間長、醫(yī)生操作內容繁多、候診患者等待時間長且體驗差;另一方面,醫(yī)生雙手同時操作超聲設備,造成檢查操作和書寫診斷過程分離,醫(yī)生在叫號、檢查、診斷、打印等流程切換,往返于叫號程序、超聲設備、電子病歷、打印機等場景,部分情況下還會采用人工助手協(xié)助,增加了工作中的人力成本。
為緩解超聲科醫(yī)生工作強度高、工作效率較低等問題,我院率先嘗試并探索了基于語音識別技術的超聲檢查模式創(chuàng)新,實現(xiàn)醫(yī)生通過語音操控超聲系統(tǒng)和填寫超聲報告,為醫(yī)生減負的同時提升超聲檢查效率。
(1)服務對象:醫(yī)院的檢查科室,如:超聲科、放射科等。
(2)覆蓋范圍:在超聲科部分診室開展使用。
(1)語音操作覆蓋檢查全流程:通過前期調研和問題梳理,我們制定出一套適應超聲檢查的超聲助手軟件產品,實現(xiàn)全流程語音操控,保證超聲檢查醫(yī)生在不需要鼠標、鍵盤的情況下,可以完成所有檢查報告書寫工作(包括:選擇圖像、查閱歷史檢查、復查患者、檢查數(shù)值錄入等)。
(2)硬件產品選型和定制開發(fā):考慮到超聲醫(yī)學科環(huán)境較為復雜,固定式麥克風、鵝頸麥克風都難以適用此場景,所以我們需要定制開發(fā)移動麥克風的硬件進行采音。硬件產品選型過程中經三次改版,從兩個維度考量:一方面是指向性麥克風,指向性是話筒對來自空間各個方向聲音靈感度的一個描述,以心形指向性麥克風為例,在指向性正向語音信號不衰減,在反向和側面語音信號急劇衰減;另一方面是麥克風近講特性,在指定距離(如一米外)的錄音時信號急劇衰減。
我院研發(fā)定制了頭戴式無線麥克風,結合指向性和近講性兩個維度,在聲源上實現(xiàn)對環(huán)境噪聲的有效抑制,如圖1所示。此外,在麥克風內部采用減震、加固等方法,降低了麥克風自身的震動和噪聲。
圖1 麥克風指向性效果圖
(3)無效語音過濾等關鍵技術:在實際采音過程中,語音內容不僅包括醫(yī)生檢查報告信息,而且包括醫(yī)生與患者口語交流的內容。考慮到超聲醫(yī)學科的場景—不同病房,在檢查過程中醫(yī)生與患者的交流頻繁,經常出現(xiàn)口語化內容。因此,需要對醫(yī)生口述的內容進行無效語音過濾,才能形成有效的錄入和檢查報告。此外,在語音識別技術與超聲系統(tǒng)融合的過程中,還涉及多項關鍵技術,如圖2所示,包括:超聲醫(yī)學科復雜醫(yī)學環(huán)境下的語音抗噪音處理的技術、不同角色語音識別結果的分類技術、日常口語內容書面化技術、語音識別文本的結構化技術、語音識別內容的完整性技術、在不連續(xù)識別文本下智能標點符號標記技術和語音識別系統(tǒng)與超聲醫(yī)學科業(yè)務系統(tǒng)結合下產品易用性和便捷性的實現(xiàn)方式等。
圖2 超聲語音應用關鍵技術分解圖
(4)語音應用集成方案設計:將語音識別應用到超聲系統(tǒng)中,實現(xiàn)語音命令控制、語音書寫等功能,系統(tǒng)集成方案如圖3所示。語音識別系統(tǒng)與原超聲系統(tǒng)是各自獨立的兩個應用程序,將語音識別系統(tǒng)的嵌入到原超聲系統(tǒng)中,形成新的智能語音超聲系統(tǒng)。語音識別系統(tǒng)提供語音指令、語音模板編輯、自由文本錄入等功能,智能語音超聲系統(tǒng)提供系統(tǒng)狀態(tài)以方便語音識別系統(tǒng)內部進行識別場景的轉換。
圖3 語音應用集成方案
在運行過程中,語音系統(tǒng)與超聲系統(tǒng)雙方不斷的進行狀態(tài)、指令、模板和自由文本的交互和通信。雙方系統(tǒng)的交互流程如圖4所示,當超聲系統(tǒng)調用語音系統(tǒng)接口時,語音系統(tǒng)接口會去偵測語音識別系統(tǒng)是否已啟動,如果未啟動則自動啟動語音識別系統(tǒng)。當超聲系統(tǒng)卸載語音系統(tǒng)接口時,且語音系統(tǒng)接口的引用計數(shù)為0時,由語音系統(tǒng)接口關閉語音識別系統(tǒng)。
圖4 超聲系統(tǒng)和語音應用之間的交互
通過不斷攻克技術難關,我院歷時13個月,完成基于智能語音識別技術的超聲助手應用軟件開發(fā)工作和硬件定制工作。目前,實現(xiàn)與超聲系統(tǒng)完美集成的超聲助手,已經在我院超聲醫(yī)學科的門診進行推廣,實際應用場景如圖5所示。經3個月的系統(tǒng)測試和試運行,超聲科用戶反饋良好。
圖5 超聲醫(yī)學科應用場景圖
為準確評估超聲助手的工作效果,我院組織了50人團隊,專門針對測試模板使用便捷性和使用效率問題進行分析。并在采用不同模板錄入的情況下,對比超聲助手和人工助手的工作時長,結果如表1所示。可見,醫(yī)生借助超聲助手可以實現(xiàn)到語音操控超聲系統(tǒng)、語音錄入超聲報告,平均時長為62.6秒;使用同類模板時,操作熟練的人工助手(超聲報告錄入員)的工作時長為62.5秒。兩者比值接近1:1,超聲助手的工作效率可以媲美人工。
表1 采用不同模板事超聲助手和人工助手的檢查時長對比表
在本案例中,重點攻克是語音信號處理難點,具體可以分為:“聽不清”、“誰在說”和“說什么”的問題。語音識別技術應用于超聲醫(yī)學科,首先要解決的是提高聲源質量,對噪聲進行處理,計劃從聲源采集、語音識別技術的聲學模型兩個方面入手進行技術研究。在實際的檢查診斷過程中,醫(yī)生和患者會進行交流。例如醫(yī)生在檢查過程中說到病理指標,患者會進行詢問,而醫(yī)生會進行解答或者安撫。在這個過程中,醫(yī)生在檢查過程中口述的檢查結果是有效內容;患者口述的內容是無效內容,需要分離醫(yī)生和患者口述的內容。除患者口述內容外,還有醫(yī)生回答患者的內容,醫(yī)生引導患者的內容,雖然這些內容由醫(yī)生口述,但仍屬于無效內容,需要使用語義分離技術去除無效內容。
(1)攻克語音信號處理難點,優(yōu)化聲學模型
通過定制麥克風,醫(yī)生口述方向上的語音能量和相反方向上的語音能量比達到了30db,開發(fā)人員設計開發(fā)基礎能量的語音信號處理方法,過濾掉低能量的語音信號,保留高能量的語音信號,即保留醫(yī)生口述方向上的語音信號。在醫(yī)生工作的位置放置錄音設備,錄制環(huán)境噪聲、設備噪聲,采集了長達300個小時的聲音數(shù)據(jù),覆蓋了遠、中、近三個距離范圍。通過對聲音數(shù)據(jù)進行清洗,與原有語音數(shù)據(jù)一同進行訓練,得到了優(yōu)化的聲學模型。
(2)挑戰(zhàn)說話人分離技術,優(yōu)化語言模型
通過對超聲數(shù)據(jù)進行統(tǒng)計,對已有語言模型的適用性進行評估,明確了模型調整方向,進行超聲專項數(shù)據(jù)收集、整理、標注和訓練,構建超聲醫(yī)學科的專科語言模型。在保證整體醫(yī)學領域識別率的前提下,提高在噪聲環(huán)境下識別結果對醫(yī)院個性化語音數(shù)據(jù)的傾向。
在確定錄音設備方案的基礎上,結合超聲科的實際場景,確定采用較為成熟的基于距離的說話人分離技術方案,該方案利用兩個相鄰窗之間聲學特征分布的距離大小來衡量它們之間的相似性,從而達到區(qū)分的目的。本案中使用貝葉斯信息準則(Bayesian Information Criterion,BIC)來進行說話人分離。
(3)挑戰(zhàn)無效內容分離技術,提升識別準確率
在前述技術實現(xiàn)的基礎上,可以規(guī)避大量的無效語音,少量被識別的無效語音,轉化為了無效的內容。通過自然語言理解和自然語言處理的引入,結合深度神經網絡(Deep Neural Networks,DNN)模型的構建,對有效和無效的內容進行區(qū)分,進一步達到分離的效果。通過梳理超聲科12大類檢查項目的200M正面語料數(shù)據(jù)、3G反面語料數(shù)據(jù),清洗、標注、訓練,形成了DNN分離模型。
結合聲源抗噪和聲學模型優(yōu)化,在超聲科實際工作環(huán)境中進行統(tǒng)計,語音識別準確率達到96%;在沒有使用無效語音過濾技術時的語音識別準確率為83%。如圖6所示,經過采用無效語音過濾技術,語音識別準確率提高了13%。使用分離模型對識別結果進行過濾,有效內容的正向測試集準確率達到98.9%,無效內容的反向測試集準確率達到96.0%。
圖6 針對是否采用無效語音過濾技術的語音識別準確率對比圖
(1)如何與現(xiàn)有超聲系統(tǒng)深度集成
目前語音識別技術應用到超聲醫(yī)學科室,主要技術架構是在超聲系統(tǒng)上進行的集成,醫(yī)生通過語音指令,跳轉到語音應用的模板編輯界面,進行檢查和診斷的相關語音操作,完成之后再跳轉回超聲系統(tǒng)。后期需要將業(yè)務邏輯從語音應用中提取出來,深度集成到超聲系統(tǒng)中,語音應用負責實現(xiàn)語音采集、處理,語音識別,書面化、結構化、指令化,將相應的結果提供給超聲系統(tǒng),由超聲系統(tǒng)完成模板編輯,語音指令等相關的操作。
(2)如何與醫(yī)生現(xiàn)有工作模式結合
目前語音錄入和鍵盤錄入的速度差不多,可以通過錄入元素后自動跳轉到下一個元素的方式增加錄入效率,提高使用流暢度。后期需要針對醫(yī)生和錄入員組合方式,深入走訪和溝通,找到在這種工作方式中的痛點,例如如何應用語音識別技術,來減少醫(yī)生和錄入員在溝通過程中的信息丟失和降低溝通頻度。盡可能低的影響醫(yī)生工作習慣的前提下,和現(xiàn)有工作模式流暢結合。
(3)錄音方案如何進一步改進
當前的錄音方案,使用的是頭戴式無線麥克風。其具有指向性穩(wěn)定、降噪性能突出、移動方便的特點。但是在實際使用過程中發(fā)現(xiàn),部分醫(yī)生會佩戴眼鏡,部分醫(yī)生由于工作需要會佩戴口罩和帽子,如果醫(yī)生佩戴了口罩、眼鏡、帽子,往往對佩戴頭戴式的麥克風有一定的排斥心理。因此,需要進一步思考如何對錄音方案做改進,提升舒適性、便捷性和穩(wěn)定性,在造型上更加多樣化,在保證抗噪性能的基礎上,讓醫(yī)生不排斥甚至樂于使用。
語音超聲助手的實踐案例驗證了語音在超聲醫(yī)學科輔助醫(yī)生開展檢查工作的可行性,讓語音識別技術在超聲醫(yī)學科成功落地,推動了智慧醫(yī)院建設在超聲醫(yī)學科的進程。在實際應用中,無論是全語音操控、識別率、麥克風抗噪能力、無效語音過濾能力、結構化語音錄入速度等均達到了預期,達到了實際上線的標準,并有進一步優(yōu)化改進的空間。語音超聲助手作為一個典型的人工智能應用案例,不僅有自身的實用價值,而且其研究方法和技術積累也具有可復制性,具有較高的臨床實踐推廣意義。