AI助力生命科學創新范式變革 正突破新藥研發“雙十”困局
關注中國醫藥行業發展動態的人可能都還記得:2021年6月經國家食藥監管理局批準上市的某新型靶向療法,曾在社會上引起長時間的關注與熱議。大家的好奇心和討論焦點,不僅僅在于它在臨床實踐中體現出的療效是否符合預期,還有一個關鍵詞,也頻頻出現在各類相關新聞報道中,那就是“120萬一針”。
一款新藥的使用成本為何會如此昂貴?這就不得不提及醫藥研發領域的一個經典說法:“十年+十億美金”,它表明一款新藥的開發,不僅周期漫長、成本高昂,而且成功率低。但與此同時,世界上還有30000多種疾病,尚未找到對癥的藥物。因此讓更多患者有藥可醫,這是強勁的社會剛需,也是醫學界的目標所在。
所幸的是,大數據與人工智能(Artificial Intelligence,AI)的興起,正讓新藥的研發走出這個“雙十”困局,使藥物研發的進度得以加速,成功率得以提高,同時成本也得以大大降低。
01 新藥研發搭上AI快車
AI對比人腦有著“做得更快、更準確”的先天優勢,可以高效地完成各個領域中繁重復雜的工作,進而向著更加困難和更有意義的目標前進。AI領域的開創者之一尼爾斯·約翰·尼爾森教授曾經對AI下了這樣一個定義:“人工智能是關于知識的學科”,這意味著AI自誕生以來,便肩負著推動人類科學發展的重任。
因此這也不難解釋,為何當前在各個科學領域的前沿研究中,幾乎每一次重大突破的背后都有著AI的身影。比如今天要談的,在生命科學領域當中非常具有挑戰性,被人用“九死一生”來形容的新藥研發過程。
塔夫茨藥物開發研究中心提供的數據顯示,開發一個新藥的平均成本大約為26億美元。一般需要12-15年的時間才能將一個新藥從試驗室走入市場。不僅如此,5000個臨床前化合物大約只有5個化合物可以進入臨床試驗,最終只有一個才能被批準用于臨床治療,成為真正的藥物。
如今,隨著大數據、AI技術滲透到生產生活的各個領域,醫藥行業也開始借助包括AI在內的新技術,用更經濟、更有針對性的方法開發新藥。最近10年,隨著云計算等大規模算力的普及,以及以深度學習為代表的AI算法在多個領域的快速發展和應用,AI開始在藥物研發的各個關鍵環節發揮越來越重要的作用。
來自TechEmergence的報告顯示,AI可以將新藥研發的成功率提高16.7%,AI輔助藥物研發每年能夠為藥企節約540億美元的研發費用,并在研發主要環節節約40%至60%的時間成本。
另據2020年6月發表于Drug Discovery Today雜志的文章顯示,21家頭部跨國藥企在2014-2019年共發表398篇與“AI藥物研發”相關的論文,同時啟動了73項內部AI研發項目、61項與外部AI公司合作的項目、以及11項對初創AI企業的投資或收購。
從類似這樣的、越來越多的投入和案例中可以看到,AI已經成為助力藥物研發模式升級的一個關鍵因素。
02 從蛋白質結構打開攻克疾病的缺口
蛋白質是生物體內一切功能的執行者,人類身體內的任何功能,從催化化學反應到抵御外來侵略都是蛋白質作用的結果,在氨基酸根據基因表達的信息形成一條多肽鏈之后,必須折疊形成正確的三維空間結構才可能具有正常的生物學功能。如果在折疊過程中出現故障,形成錯誤的空間結構,不但將喪失其生物學功能,還會引起各種疾病。
對蛋白質三維結構開展有效解析與預測,就能對有機體的構成,以及運行和變化的規律實施更深層次的詮釋和探究,進而可為生物學、醫學、藥學乃至農業、畜牧業等行業和領域的未來研究與發展提供高質量的生物學假設。
為了解蛋白質的結構,傳統的實驗方法是使用X光、冷凍電鏡等方法對蛋白進行拍照,每一個樣品可能需要幾個月,甚至于幾年的時間,才能夠高精度地完成拍照。在國際深具影響力的SwissProt數據庫上,累計的蛋白序列的信息已經達到了56萬之多,傳統的實驗方法很難去滿足幾十萬量級甚至于未來幾百萬量級的蛋白序列結構解析的需求。
在這個時候,AI開始發揮神奇的作用。
2020年,在第14屆國際蛋白質結構預測競賽(CASP)上,DeepMind研發的AlphaFold2成功根據基因序列預測了生命基本分子——蛋白質的三維結構,取得了中位分數為92.4(滿分100分)的好成績,比第二名高25分,打敗了所有競爭對手。
一般來說,AI方法的預測精度超過90分,可認為預測結果與實驗方法得到的蛋白質結構基本一致。這一突破,標志著AI輔助藥物開發的基礎理論研究和實踐進入新的階段。
AlphaFold2,憑借自身在蛋白質結構預測上的高可信度,以及遠優于傳統實驗方法的效率和成本表現,樹起了一座“AI for Science”的全新里程碑。它不僅在生命科學領域掀起了顛覆式的革新,也成為了AI在生物學、醫學和藥學等領域落地的核心發力點。
這從中國科學院院士施一公評價AlphaFold2“這是人工智能對科學領域最大的一次貢獻,也是人類在21世紀取得的最重要的科學突破之一”中可見一斑。
在英特爾和國際學術期刊《Science》聯合推出的《架構師成長計劃》課程中,來自中國智能化、自動化藥物研發科技領域明星企業晶泰科技的首席研發科學家楊明俊博士這樣談到:“以AlphaFold2為代表的研究成果,被認為是開拓了科學研究的第四范式,就是基于大量的數據,然后采用以深度神經網絡為代表的模型,給出對問題的一個解答。”他說,“蛋白質結構預測曾經被認為是不可能完成的一件事情,如今被AI算法實現,這標志著AI在生物醫藥領域的融合邁入了一個全新的階段,成為大勢所趨。”
03 AI找藥,需要什么樣的“加速器”
隨著越來越多的科研機構、實驗室和企業開始借助AlphaFold2進行蛋白質結構預測,各行業和領域內的使用者也開始遇到越來越多、也漸趨嚴峻的挑戰。例如結構預測各環節面臨著龐大的計算量,使用者需要更加充分地挖掘硬件的計算潛力來提升執行效率;為縮短結構預測時間,他們還需要利用更多計算節點來構建效率更高的并行計算方案等。
英特爾人工智能架構師楊威博士說,AlphaFold2可以高效率地去進行一個蛋白結構的解析,但是其原始實現其實存在兩方面的優化空間。
一方面由于算法和硬件架構本身的特點,它強依賴于一些AI專用加速芯片的支持,但是這類硬件存在嚴重的內存或顯存限制,使得它在單芯片或單卡情況下能夠預測的蛋白質序列長度較短(比如2000氨基酸長度的蛋白,其內存峰值將超過200GB)。另一方面,使用原始實現在CPU上進行推理速度較慢,很難在可以接受的時間范圍內完成高通量和長序列的預測需求。
正因為有這些限制,英特爾正在與眾多產、學、研領域的合作伙伴及客戶一起研究用內存容量優勢更為明顯的CPU平臺來加速AlphaFold2,但即便如此,在AlphaFold2的嵌入層中也容易遇到兩個問題:一方面是巨大的內存峰值壓力,其需求量會使內存資源在短時間耗盡,尤其是內存峰值在相互疊加之后,進而可能造成推理任務的失敗;另一方面,大張量運算所需的海量內存也會帶來不可忽略的內存分配過程,從而增加執行耗時。
通過對算法架構的解析可知,AlphaFold2中大量的矩陣運算過程都需要大容量內存予以支撐。其最大輸入序列長度越長,計算中所需的內存也就越大。而在并行計算能力得到有效優化后,更多計算實例的加入也會進一步突顯內存瓶頸問題。
如果用“星際探索”來比喻的話,對3GEH蛋白的結構預測就相當于探索地球;對某新型傳染病相關的刺突蛋白進行結構預測就相當于將探索擴大到了整個太陽系,對諾貝爾生理學或醫學獎發現的PIEZO1/2蛋白的結構預測則是進一步將探索擴展到了銀河系,對低密度脂蛋白受體相關蛋白2(LRP2)的結構預測,就相當于探索宇宙了。
在實踐中,進行3GEH蛋白(長度為765aa)的結構預測,內存大小滿足96GB就足以。而對Spike蛋白和PIEZO2蛋白進行預測時,由于序列長度分別達到了1200aa和2700aa,就需要部署大于512GB的內存。而當人們對LRP2蛋白進行預測時,其4700aa的序列長度要求的內存就遠大于1.3TB。如果64個實例并行執行,內存容量的需求更是會沖到一個令人驚嘆的量級,如果內存系統無法滿足這個需求,就會形成阻礙應用效能發揮的“內存墻”。
一直活躍在“AI for Science”創新前沿的英特爾結合自身優勢,以內置AI加速能力的產品技術,特別是至強? 可擴展平臺和傲騰? 持久內存的組合,在CPU平臺上更便捷地提供了TB級的內存支持,打破了“內存墻“,對AlphaFold2實施了端到端的高通量優化,在實踐中實現了比專用AI加速芯片更為出色的表現,累計通量提升可達優化前的23.11倍。
在這個全新的加速方案中,第三代英特爾? 至強? 可擴展處理器也憑借出色的微架構設計,尤其是多核心、多線程和大容量高速緩存,為AlphaFold2提供了充足的總體算力,以滿足整個結構預測過程所需;另一方面,這款處理器內置的英特爾? AVX-512技術,也能在英特爾? oneAPI 相關軟件優化工具的激活下,輸出額外的并行計算加速支持,為方案提供更進一步的性能調優空間。
這個加速方案的實驗結果顯示,對于一個含有765氨基酸的蛋白質測試樣例,在64個物理核同時并發的情況下,最高的內存消耗達到3.2TB,其測試通量可從未經任何優化的4.56序列/天,達到優化后的105.35序列/天。而且如果在單節點上配備最高8TB內存的話,就可以支持完成高于1萬氨基酸序列長度下蛋白結構的預測。
從這個結果展開思考,就會發現:通常情況下,雖然在需要圍繞大規模的訓練以及算法的迭代更新時,各類專用AI加速芯片會作為固定演員扮演既有角色,但是這也意味著,所有入場者都需要為這種異構平臺的建設和充分利用投入更多的財力并加強相關人才儲備。
但如果是僅僅利用成熟的算法模型來做推理,用以支持科研項目的開展而非算法本身的演進呢?或者是已經擁有了異構平臺,但一直難以突破蛋白質預測長序的限制呢?CPU+大內存的方案在這些場景下就有更為明顯、甚至是獨特的優勢了。
換言之,這就相當于所有相關行業和領域的從業者們自此有了更多也更為靈活的選擇,他們既可以選擇較為復雜的異構平臺來探究AI算法的巔峰或極限,也可以借助更為普及、也更易于獲取和使用的通用平臺作為科研實踐的加速器。當然,后者這些天然優勢,也會降低AI在醫藥和生命科學領域落地的門檻,讓更多從業者能夠搭上AI for Science或AI找藥的“快車”。
04 給科研送上“神助攻” 不止是AI
為推動生命科學這一前沿科研領域中的相關應用落地,《“十四五”生物經濟發展規劃》提出要開展前沿生物技術創新,突破高通量篩選、高效表達、精準調控等關鍵技術,推動在新藥開發、疾病治療等領域的應用。
得益于AI技術的高速發展和演進,它與科學前沿研究的結合正在快速地改變世界并造福人們的生活。楊明俊博士說,AI藥物研發是一個新興的交叉學科,它不僅對生命醫藥行業產生深遠的影響,也對提高人類壽命的長度和質量有重要意義,“讓AI流淌進每一款新藥,讓患者更快地獲得有效治療。”
如今,中國生物醫藥行業經歷了跟蹤仿制和模仿創新階段,正處在向源頭創新的更高階段邁進。同時中國新藥創制核心競爭力也在不斷得到提升,未來將會在全球研發中發揮更大的作用。
窺一斑而知全豹,盡管藥物研發只是生命科學領域中的一環,但是這并不妨礙從中能夠看到AI和傳統科研結合帶來的巨大潛能,從而深刻地理解“AI for Science”為何能成為當前的重要趨勢。而更加重要,也更需要重視的是,除AI之外,大數據和HPC也曾經和正在推進著類似的范式革命,驅動著重大的科學探索及發現。而位處算力創新源頭,產品涵蓋計算、存儲和通信等多個維度的英特爾,也正通過構建全面且均衡的計算平臺,基于軟硬件之間的無縫組合與高效協作,以及多樣化的優化方法,在滿足各方面需求的同時,通過聯合產業鏈各個環節的合作伙伴,致力于給科學研究送上更多神助攻,促發更多前沿領域的科研新發現。
圖文來源:財新網
更多案例信息,請點擊“此處”
上一篇: 內蒙古:構建優質高效公立醫院體系
下一篇: 浙江全面深化中醫藥數字化改革