搞醫學影像,為什么都青睞于CPU?
醫學影像,越來越需要AI的幫助了。
根據數據統計,目前我國醫學影像數據年增速在30%,但影像科醫生年增速卻只有4%,醫生面臨較大的工作壓力。
那么,AI醫學影像市場發展得如何呢?
AI影像行業,是人工智能在醫療領域里面探索最久的賽道之一,近年來人工智能輔助診斷三類證的獲批數量持續增長,整個人工智能醫學影像市場預計會在4年左右的時間突破百億,保持高增長。
參考億歐智庫發布的《2023年中國人工智能醫學影像產品生態路線研究報告》,2023年我國AI醫學影像市場規模為24億元,2030年將達到 137.4億元,年復合增長率為33.8%。
雖然有了AI幫忙,能提升診療效率、改善患者就醫體驗,但同時也帶來一個問題:
醫院對于醫學影像系統的花費越來越高了,患者看病的成本也大幅提高。
所以在這個技術飛速進步的時代,醫院不是簡單采用新技術就能造?;颊叩?,也要綜合考慮投入產出,才能關懷到每個病人。
在這樣的背景下,醫學影像系統如何在滿足功能、性能需求的同時降低總體擁有成本 (TCO),就成了關鍵問題。
以東軟智慧醫學影像信息系統PACS/RIS為例,該系統提供了覆蓋檢查預約、到診排隊、用藥管理、檢查管理、影像診斷等在內的一體融合全醫學影像管理能力,可輔助醫生更好地開展工作。東軟在新一代的PACS/RIS產品中,就采用了基于CPU的方案運行三維可視化、AI推理等工作負載。
在三維可視化加持下,融合影像分析等技術,讓醫務人員通過旋轉、縮放、分割、圖像增強等操作,從多角度清晰了解到醫學影像中各結構之間的空間位置關系,在疾病診斷的可視化、術前評估、手術規劃、手術實時指導等方面發揮重要價值。
要知道三維可視化、AI推理都是非常吃硬件性能的,好在經過指令集、軟件等方面做性能優化后,東軟將PACS/RIS系統的三維可視化效率提升達2.45倍,AI推理性能提升高達8.49倍,并有效地控制了成本。
到這里看似圓滿結局了,但其實過程中還有更多的細節更值得關注和借鑒,比如系統性能是如何優化提升上去的,CPU又為什么是破局的關鍵?
性能如何搞上去?
東軟集團相信大家并不陌生,作為中國第一家上市軟件公司,在醫療健康領域已深耕多年。
這次他們之所以選擇英特爾當合作伙伴,正是因為在三維可視化和AI推理這兩大性能殺手面前,第五代英特爾? 至強? 可擴展處理器擁有兩大法寶:
OpenMP與SSE4指令集(Streaming SIMD Extensions 4),和英特爾? AMX加速器。
首先來看三維可視化部分。
東軟主要采用了體渲染(Volume Rendering)技術,通過OpenMP與SSE4指令集支持光線合成的實現。
SSE4指令集不僅擴展了Intel? 64指令集架構,還加入了圖形、視頻編碼及處理、三維成像等方面的指令,使涉及音頻、圖像和數據壓縮算法的應用程序性能大幅提升。
為了找出執行三維可視化任務時,其產品在部分應用中性能不足的瓶頸所在,東軟使用了英特爾提供的VTune? Profiler工具,最終確定了瓶頸函數SafeGradz。該函數主要利用SSE4指令集進行三線性插值,從而實現光線上點的梯度計算。通過對該函數的代碼進行優化,東軟成功提升了三維可視化應用的性能。
在不同代英特爾? 至強? 可擴展處理器上進行測試,結果顯示,在處理器開通4并發8線程時,第五代英特爾? 至強? 鉑金8592+處理器的三維重建效率,相比第二代的英特爾? 至強? 銀牌4210R處理器提升達2.45倍,讓三維影像的交互更加流暢順滑。
△PACS/RIS 系統的三維重建應用運行效率比較
值得注意的是,第五代英特爾? 至強? 鉑金8592+的主頻為1.90 GHz,比第二代英特爾? 至強? 銀牌4210R的2.40 GHz主頻還要低。
更進一步說明了,性能提升靠的不是主頻提升,而是靠適合工作負載的指令集和各種優化工作。
接下來看AI推理部分,同樣用這兩款CPU做對比。
東軟借助處理器內置的英特爾? AMX(高級矩陣擴展)技術,讓CPU也能輕松駕馭深度學習任務。
英特爾? AMX針對廣泛的硬件和軟件進行了優化,在前代VNNI和BF16技術的基礎上,進一步增強了矩陣計算能力,最大限度地利用計算資源,改善高速緩存利用率,避免潛在的帶寬瓶頸。
東軟在第二代/第四代/第五代英特爾? 至強? 可擴展處理器上,測試了不同參數規模的AI模型在同步和異步模式下的推理表現。
測試數據顯示,對于參數量為31,185,568的較大模型,在BF16精度和異步模式下,第五代英特爾? 至強? 鉑金8592+處理器相比第二代英特爾? 至強? 銀牌4210R處理器,推理性能提升高達8.49倍。這意味著AI輔助診斷能以更快的速度為醫生提供洞見。
△BF16 精度下的異步推理性能比較
之所以選擇第五代英特爾? 至強? 可擴展處理器,除了其本身性能夠強之外,還有一些額外的好處。
比如輔以英特爾提供的OpenVINO? 工具套件優化和部署各類模型,還可跨英特爾? 硬件擴展計算機視覺和非視覺工作負載,從而大幅提高性能,達到軟硬協同的效果。
又比如第五代至強? 與上一代產品在軟件和平臺上兼容,因此在部署新系統時可以大大減少測試和驗證工作。
……
在減少測試和驗證這里,其實也起到一些節省成本的效果了。
不過在省錢這件事上,除了與具體技術優化相關,還有更多行業經驗可以分享。
成本怎么打下來
其實醫療行業在選擇硬件這件事上,CPU早已成為各大玩家們眼中的“香餑餑”。
原因也是很簡單,GPU固然在性能方面存在一定的優勢,但“硬傷”也是比較明顯,那便是成本過高。
并且從宏觀角度來看,大模型的火熱確實催動了GPU需求的激增,在訓練階段尤甚;但現如今到了以推理為主的階段,如何能讓AI“快好省”地用起來成為了關鍵點。在部署時盲目堆GPU不僅可能會造成算力過剩,出現“大炮打蚊子”的現象,更是會導致成本的“水漲船高”。
而諸如第五代英特爾? 至強? 這樣的高端CPU,不僅能夠很好地跟上性能的腳步,在成本的控制方面也是給出了滿足成本條件的更加可行、更符合實際的方案。
一言蔽之,高性價比才是關鍵中的關鍵。
其次,CPU也算找準了“賽道”——部分醫療場景的AI推理具備批處理特性,對AI推理時延性能不敏感,更適合采用CPU進行推理。
具體到性能方面,第五代英特爾? 至強? 的“打開方式”是這樣的:
■ 整體性能提升:21%
■ 推理性能提升:42%
■ 內存速度提升:16%
■ 三級緩存提升:2.7倍
■ 每瓦性能提升:10倍
也正因如此,第五代英特爾? 至強? 在處理多樣化的任務負載時,可以顯著提升每瓦特性能,尤其在人工智能、數據中心管理、網絡操作和科學計算領域,而且還能顯著降低總體擁有成本(TCO)。
而這也還僅是東軟等醫療行業選擇CPU的原因之一,廣泛的兼容性和成熟的技術也是不可忽視的。
眾所周知,CPU技術的發展相對來說較為成熟,幾乎所有軟件應用和操作系統都能在CPU上良好運行。
而在醫療行業中,存在大量基于傳統架構開發的軟件,這些軟件通常設計為在標準的CPU上運行。因此,使用CPU可以確保與現有系統和軟件的廣泛兼容性。
其次,CPU易于維護和升級也是重要的一點,而GPU在這方面會顯得更為復雜。醫療行業依賴于穩定運行的系統來保證服務的連續性,因此更傾向于選擇維護簡便、升級路徑明確的硬件解決方案。
加之CPU早已在醫療行業上崗,廣泛用于電子病歷系統、醫院資源規劃系統等,培養出成熟的技術團隊,也建立了完善的采購流程。
因此,為什么醫療行業青睞于CPU、為什么越來越多的人會選擇CPU做AI推理,也就不難理解了。
在這一點上,或許也正應了英特爾CEO帕特·基辛格曾經表達過的觀點:
從經濟學的角度看推理應用的話,很多客戶并不需要高端的GPU設備,因為它成本太高、耗電太多,并且需要構建新的技術架構,增加IT設施,一切都是全新的挑戰。
如果我能在標準版的英特爾芯片上運行AI應用且滿足需求,就不會出現這些問題。
能用起來才是硬道理
如果說東軟選擇第五代英特爾? 至強? 這件事是一個“點”,它其實能夠帶出來的是一個更大的“面”——
技術,需得廣泛用起來,這才是硬道理。
誠然現在是以大模型為主流的時代,但回看2023年至今的發展,其實也是在印證著這一點。
起初大模型的發展先是掀起了以訓練為主的百模大戰,而后又迅速轉向了推理階段,也就是技術要落地。
到了今年,這一趨勢也是越發明顯,不論是OpenAI、谷歌等巨頭,還是乘AIGC東風起家的初創,都在發力于如何讓AIGC更好地用起來。
一言蔽之,現在已然是應用為王的階段。
而要讓前沿技術做到真正落地,就必須要在性能和成本之間做好平衡;或許這也正是近期國內大廠們掀起瘋狂“價格戰”的原因之一。
但無論AI如何發展,算力,永遠是繞不開的一個話題。
因此,站在現在這個“AI一日,人間一年”的時代,縱使技術日新月異,要想讓它們廣泛被用起來,性能和成本之間的這桿秤,需是得從最底層的基礎設施抓起。
而東軟和英特爾的合作模式,是一個可以值得借鑒的“范本”了。
參考鏈接:
[1]https://www.intel.cn/content/www/cn/zh/artificial-intelligence/neusoft-pacs-ris-solution.html
[2]https://www.intel.cn/content/www/cn/zh/artificial-intelligence/ai-guidebook-healthcare.html
[3]億歐智庫《2023年中國人工智能醫學影像產品生態路線研究報告》https://www.iyiou.com/analysis/202401101048186
來源:量子位作者:夢晨、金磊
(本文由英特爾公司供稿)