中山大學(xué)附屬第一醫(yī)院:智能語音技術(shù)賦能超聲科臨床科研智慧一體化建設(shè)
2021年醫(yī)院新興技術(shù)創(chuàng)新應(yīng)用典型案例征集活動(dòng)共選出21篇典型案例,將于CHIMA2021大會(huì)上進(jìn)行頒獎(jiǎng)。
長期以來,中山大學(xué)附屬第一醫(yī)院(以下簡稱“中山一院”)超聲科存在以下痛點(diǎn):
(1)超聲檢查與放射影像不同,技術(shù)與診斷是同步進(jìn)行,檢查時(shí)間相對(duì)長,例如常規(guī)檢查消化系統(tǒng)要求空腹,時(shí)間相對(duì)集中,病人都在等待區(qū)集中,時(shí)有患者等待的抱怨聲,既不利于檢查醫(yī)生思考,更不利于病人對(duì)醫(yī)院就診服務(wù)的印象,直接影響了患者滿意度。
(2)中山一院超聲科多采用一臺(tái)超聲診斷設(shè)備配一名錄入員人工鍵盤輸入超聲檢查報(bào)告的方法,手動(dòng)瀏覽采集的超聲圖像和調(diào)取歷史管理病人檢查結(jié)果,錄入員人力成本投入巨大。
(3)診間中超聲設(shè)備與工作電腦為分開放置,醫(yī)生需要頻繁切換工作位置,一方面工作不變,另一方面也會(huì)打斷診療活動(dòng)的持續(xù)性。
(4)超聲報(bào)告結(jié)構(gòu)化錄入過于復(fù)雜,耗時(shí)耗力,但對(duì)于科研非常重要,期待能夠通過新技術(shù)實(shí)現(xiàn)更為便捷、準(zhǔn)確的結(jié)構(gòu)化錄入。
中山一院超聲科一直在尋求一種利用語音代替打字員的系統(tǒng),采用虛擬助手輔助超聲檢查報(bào)告錄入,結(jié)合超聲診斷學(xué)知識(shí)、語音識(shí)別技術(shù)、自然語言理解知識(shí)庫等多學(xué)科跨領(lǐng)域?qū)崿F(xiàn)超聲檢查報(bào)告的語音錄入,可減少或無需配備錄入員。通過超聲檢查醫(yī)師口述超聲檢查的超聲描述及超聲結(jié)論等信息,自動(dòng)生成超聲報(bào)告,或者配合超聲報(bào)告模板,自動(dòng)填充相應(yīng)數(shù)值,提高了超聲檢查報(bào)告的錄入效率和質(zhì)量。
經(jīng)過近一年的技術(shù)攻關(guān),成功將智能語音技術(shù)應(yīng)用于中山一院超聲科超聲檢查場景中,實(shí)現(xiàn)單人全過程語音操控,完成超聲報(bào)告的智能化語音錄入,優(yōu)化患者的就醫(yī)流程,提高超聲科醫(yī)生的工作效率,獲得超聲科醫(yī)生的高度評(píng)價(jià),效果如圖1所示。
圖1 超聲檢查過程中語音錄入報(bào)告效果圖
結(jié)合國家制定的超聲檢查標(biāo)準(zhǔn)及中山一院特色的超聲檢查內(nèi)容,我們對(duì)超聲模板內(nèi)容進(jìn)行了詳細(xì)的收集。為了讓模板更貼合實(shí)際使用的場景,中山一院深度定制的超聲語音報(bào)告模板、交互邏輯以及相應(yīng)口述說法的確認(rèn)。
(1)全過程語音交互:按照超聲科檢查流程,讓醫(yī)生通過語音方式完成超聲報(bào)告的數(shù)值填槽,枚舉選擇、采集圖像、保存打印等全過程語音交互操作。
(2)數(shù)值自動(dòng)計(jì)算:在心臟超聲中,有許多數(shù)值需要公式計(jì)算,在口述計(jì)算因子數(shù)值后,其他結(jié)果可按公式自動(dòng)計(jì)算。如口述心臟超聲中的E值和A值,可自動(dòng)計(jì)算出E/A的比值。
(3)檢查結(jié)論自動(dòng)關(guān)聯(lián):將檢查所見內(nèi)容與檢查結(jié)論自動(dòng)關(guān)聯(lián),如檢查所見中描述:肝臟彈性>7,檢查結(jié)論中自動(dòng)顯示為:肝臟彈性測值增高。
(4)報(bào)告質(zhì)檢:如果報(bào)告中出現(xiàn)數(shù)值超出正常數(shù)值、部位上下描述矛盾、不同性別下產(chǎn)生不合理診斷的情況時(shí),自動(dòng)標(biāo)注出不合理的地方,并告知醫(yī)生標(biāo)準(zhǔn)設(shè)定值。
(1)聲學(xué)前端技術(shù)
1)端點(diǎn)檢測
端點(diǎn)檢測是對(duì)輸入的音頻流進(jìn)行分析,確定用戶說話的有效語音的過程。一旦檢測到語音流中的靜音段或非人聲等無效語音,即自動(dòng)刪除無效部分,保留有效語音。這種方式保障識(shí)別引擎處理是說話人的聲音,并為后面的特征提取部分提供準(zhǔn)確的有效語音,提高準(zhǔn)確度。
2)噪聲消除
在實(shí)際應(yīng)用中,背景噪聲對(duì)于聲紋識(shí)別應(yīng)用是一個(gè)現(xiàn)實(shí)的挑戰(zhàn),即便說話人處于安靜的辦公室環(huán)境,在電話語音通話過程中也難以避免會(huì)有一定的噪聲。InterVeri聲紋識(shí)別系統(tǒng)具備高效的噪音消除能力,以適應(yīng)用戶在千差萬別的環(huán)境中應(yīng)用的要求。
(2)語音識(shí)別技術(shù)
語音識(shí)別引擎提供關(guān)鍵字語音識(shí)別和連續(xù)語音識(shí)別,具備優(yōu)秀的識(shí)別率,提供全面的開發(fā)支持及豐富的工具,易于使用。
針對(duì)語音識(shí)別應(yīng)用中面臨的方言口音、背景噪聲等問題,基于實(shí)際業(yè)務(wù)系統(tǒng)中所收集的涵蓋不同方言和不同類型背景噪聲的海量語音數(shù)據(jù),通過先進(jìn)的區(qū)分性訓(xùn)練方法進(jìn)行語音建模,使語音識(shí)別在復(fù)雜應(yīng)用環(huán)境下均有良好的效果表現(xiàn)。
基于深度學(xué)習(xí)的語音識(shí)別技術(shù),因?yàn)椴捎煤A繑?shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練(一般需要數(shù)十萬小時(shí)的語音數(shù)據(jù)),不同的噪聲類型和口音都可以通過人工智能和機(jī)器學(xué)習(xí)的方法進(jìn)行學(xué)習(xí),從而對(duì)噪聲和用戶的不同口音都有比較好的覆蓋,這也是語音識(shí)別技術(shù)可以得到更廣泛應(yīng)用的最先決的條件。
(3)語音內(nèi)容提取與分析
語音的內(nèi)容提取與分析技術(shù)研究,針對(duì)語音內(nèi)容的自動(dòng)轉(zhuǎn)寫方面,擬采用的技術(shù)路線分為三個(gè)階段,分別是:
1)針對(duì)語音端點(diǎn)檢測與說話人分離
計(jì)劃收集各種應(yīng)用場景下的非語音數(shù)據(jù),使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行語音與非語音建模,實(shí)現(xiàn)高質(zhì)量的語音端點(diǎn)檢測;另外,計(jì)劃利用BIC(Bayesian Information Criterion)距離在短時(shí)上的優(yōu)勢,同時(shí)結(jié)合PLDA(Probabilistic Linear Discriminant Analysis)在長時(shí)聲紋相似性評(píng)估上的優(yōu)勢,采用兩階段的方法進(jìn)行分離,充分提高說話人分離的類純度。
2)面向口語化風(fēng)格的聲學(xué)模型
針對(duì)口語化發(fā)音更加多樣化的問題,一方面,計(jì)劃研究萬小時(shí)以上的海量語音數(shù)據(jù)條件下的聲學(xué)建模,通過收集各種發(fā)音風(fēng)格,提高聲學(xué)模型對(duì)發(fā)音變化的覆蓋性;另一方面,針對(duì)口語化導(dǎo)致的語速快、吞音、回讀等問題,計(jì)劃采用基于模型域、特征域以及特殊音素建模的方法,減少口語化問題的影響;第三方面,計(jì)劃采用具有時(shí)序建模能力的循環(huán)神經(jīng)網(wǎng)絡(luò),結(jié)合對(duì)音素、說話人、環(huán)境的預(yù)測,進(jìn)一步提高聲學(xué)建模能力。
3)面向口語化風(fēng)格的語言模型
針對(duì)口語對(duì)話產(chǎn)生的回讀、不通順、語氣詞等問題,計(jì)劃使用基于字與基于詞結(jié)合的循環(huán)神經(jīng)網(wǎng)絡(luò)建模技術(shù)、語義語言模型技術(shù)等逐步減少口語化問題的影響。針對(duì)語音轉(zhuǎn)寫可用充分利用長時(shí)信息的特點(diǎn),計(jì)劃采用基于N-Gram的篇章級(jí)語言模型技術(shù)、以及基于循環(huán)神經(jīng)網(wǎng)絡(luò)的篇章級(jí)自適應(yīng)技術(shù),進(jìn)一步提高語言模型建模能力。
(4)語音內(nèi)容理解與摘要
針對(duì)語音轉(zhuǎn)寫結(jié)果基礎(chǔ)上的內(nèi)容理解及摘要,采用的技術(shù)路線為:
1)語音轉(zhuǎn)寫結(jié)果的可讀性提升
計(jì)劃使用基于多信息融合及基于聲學(xué)屬性識(shí)別的聲學(xué)置信度技術(shù),并結(jié)合語義信息,進(jìn)一步提升異常語音的檢測能力;計(jì)劃研究基于CRF(Conditional Random Field)模型的標(biāo)點(diǎn)技術(shù)、基于CRF模型的句子順滑及基于最大熵模型的關(guān)鍵信息抽取等技術(shù),通過這些技術(shù)的組合,進(jìn)一步改善轉(zhuǎn)寫內(nèi)容的可閱讀性。
2)語義段落的自動(dòng)劃分
基于句子級(jí)別語義聚類和關(guān)聯(lián)邏輯關(guān)系的分析,以及一些特殊的提示型詞匯、停頓長度等額外信息,自動(dòng)將較長的內(nèi)容轉(zhuǎn)寫結(jié)果切分為語義相對(duì)獨(dú)立的若干個(gè)段落,為關(guān)鍵信息和摘要做準(zhǔn)備。
3)語義摘要
借鑒傳統(tǒng)的文本自動(dòng)摘要,并根據(jù)語音中說話人、語氣強(qiáng)調(diào)重復(fù)等信息,自動(dòng)對(duì)每一段語音進(jìn)行關(guān)鍵信息的抽取和自動(dòng)摘要。
(5)與超聲報(bào)告系統(tǒng)實(shí)現(xiàn)深度結(jié)合
為了讓系統(tǒng)有更好的體驗(yàn)效果,以及后續(xù)對(duì)數(shù)據(jù)的科研運(yùn)用,語音錄入系統(tǒng)跟超聲報(bào)告系統(tǒng)實(shí)現(xiàn)了相互融合:
1)報(bào)告界面調(diào)用語音錄入系統(tǒng)
檢查醫(yī)生在登錄超聲報(bào)告系統(tǒng)后,可以在報(bào)告書寫界面直接調(diào)用語音錄入系統(tǒng),兩個(gè)系統(tǒng)之間通過標(biāo)準(zhǔn)的HL7協(xié)議接口實(shí)現(xiàn)患者數(shù)據(jù)和檢查數(shù)據(jù)的同步。
2)結(jié)構(gòu)化報(bào)告通過二維表方式返寫回報(bào)告系統(tǒng)
在語音錄入系統(tǒng)生成的結(jié)構(gòu)化報(bào)告,可以通過二維表同步的方式回寫到超聲報(bào)告系統(tǒng)中,從而實(shí)現(xiàn)報(bào)告系統(tǒng)的結(jié)構(gòu)化存儲(chǔ),為后續(xù)科室的科研、統(tǒng)計(jì)等工作提供更多便利。
(6)結(jié)構(gòu)化數(shù)據(jù)全院共享,賦能科研
精細(xì)化的醫(yī)技檢查數(shù)據(jù)是臨床科研的重要支撐,結(jié)構(gòu)化的檢查報(bào)告數(shù)據(jù)通過嚴(yán)格的授權(quán)可以支撐醫(yī)院專病數(shù)據(jù)庫的建設(shè),加強(qiáng)超聲科與臨床科研的互動(dòng)合作。
超聲AI語音助手通過語音進(jìn)行模板內(nèi)容的錄入,實(shí)現(xiàn)全程語音交互與結(jié)構(gòu)化報(bào)告輸入功能,支持常用超聲模板,排除閑聊功能,直接將關(guān)鍵信息上到報(bào)告相應(yīng)位置,實(shí)現(xiàn)一人同步完成超聲檢查和報(bào)告錄入操作,最后只需做少許調(diào)整即可輸出打印超聲報(bào)告,極大提高醫(yī)生的工作效率。
自超聲AI語音助手在醫(yī)院超聲科室上線以來,累計(jì)完成報(bào)告數(shù)5723份,其中高頻使用前五的模板分別為“腎模板”1951份、“肝膽胰脾”1774份、“甲狀腺頸部”1723份、“乳腺腋窩”877份和“頸部血管”467份。
經(jīng)現(xiàn)場跟診評(píng)估,以標(biāo)準(zhǔn)腹部《肝膽胰脾彩超》檢查為例,原檢查+手工報(bào)告書寫流程平均7分鐘。在僅使用語音輸入法情形下,流程耗時(shí)6分鐘,效率提升16%。在使用超聲語音助理系統(tǒng)場景下,流程耗時(shí)4分40秒,效率提升31%,且病人檢查過程中即完成報(bào)告,無需單獨(dú)書寫。檢查過程中需要進(jìn)行超聲造影、病灶等大段額外描述時(shí),語音提升80%完成效率,僅需對(duì)格式進(jìn)行微調(diào)即可。檢查過程中無需助手輔助書寫,醫(yī)生獨(dú)立完成數(shù)值填值、超聲所見描述、超聲結(jié)論匯總,一定程度減少人力投入。
由語音錄入系統(tǒng)生成的結(jié)構(gòu)化報(bào)告,無需進(jìn)行繁瑣的后結(jié)構(gòu)化過程即可滿足科研數(shù)據(jù)檢索、統(tǒng)計(jì)分析的要求,并可針對(duì)科研需要進(jìn)行進(jìn)一步的內(nèi)容分類,便于研究者分析患者病情與影像學(xué)表現(xiàn),發(fā)現(xiàn)超聲表現(xiàn)、歷史就診記錄與疾病情況的關(guān)聯(lián),為研究提供數(shù)據(jù)支撐。
圖2 以肝膽胰脾彩超檢查為例
超聲AI語音助手在中山一院超聲科的成功應(yīng)用,標(biāo)志著醫(yī)院智能化水平邁上一個(gè)新的臺(tái)階。將超聲科檢查報(bào)告雙人協(xié)同的工作模式變革為單人全過程語音操控,實(shí)現(xiàn)醫(yī)生邊檢查邊進(jìn)行報(bào)告錄入,不僅提高了醫(yī)生報(bào)告錄入效率,而且能夠?qū)崿F(xiàn)所說即說得的報(bào)告書寫效果。在節(jié)省錄入員人力成本的同時(shí),通過超聲報(bào)告質(zhì)檢功能保障報(bào)告質(zhì)量,使醫(yī)生更專注于對(duì)患者的醫(yī)療服務(wù),醫(yī)患溝通更加融洽。下一步,中山一院將探索智能語音技術(shù)在其他醫(yī)技科室及臨床科室的場景應(yīng)用,將智能語音融入到臨床診療過程中,用人工智能賦能醫(yī)務(wù)人員,真正為醫(yī)務(wù)人員帶來便捷的工作幫手,打造符合醫(yī)院特色的智慧醫(yī)院建設(shè)模式。
申報(bào)單位:
中山大學(xué)附屬第一醫(yī)院
技術(shù)方向:
醫(yī)學(xué)人工智能
業(yè)務(wù)領(lǐng)域:
臨床應(yīng)用