今天是春節,首先祝大家春節快樂(lè )。這幾天國產(chǎn)大模型DeepSeek刷屏,除了讓英偉達股價(jià)暴跌,也開(kāi)始撼動(dòng)美國大模型的壟斷地位,當然了這也再次引爆了AI。今天就來(lái)跟大家介紹下AI在醫學(xué)科研中的應用。
一、引言
2024年諾貝爾化學(xué)獎頒發(fā)給了在計算蛋白質(zhì)設計和蛋白質(zhì)結構預測領(lǐng)域做出突出貢獻的三位科學(xué)家,凸顯了人工智能和計算方法在解析生物語(yǔ)言中的關(guān)鍵作用,也預示著(zhù) AI 技術(shù)在生物醫藥領(lǐng)域更為廣闊的應用前景。
圖1 近五年LLM及其變體在生物醫學(xué)應用中的發(fā)展歷程(來(lái)源:arXiv:2409.00133)
LLM通過(guò)大量自然語(yǔ)言數據的訓練,理解語(yǔ)言的微妙之處,生成新的內容,并與數據進(jìn)行互動(dòng)。如果你曾與ChatGPT這樣的聊天機器人互動(dòng)過(guò),你就已經(jīng)體驗到了其魅力所在。這些模型不僅能以聊天機器人的形式出現,還能深入挖掘復雜生物數據集的內在含義。今天小編就借此機會(huì )來(lái)系統盤(pán)點(diǎn)一下截至目前大語(yǔ)言模型在生物醫藥領(lǐng)域的應用。掃碼添加 ? 交流Ai制藥
二、背景知識
1、適用數據
語(yǔ)言模型可以應用于任何序列數據,無(wú)論序列的基本單位(即Token)是句子中的單詞還是蛋白質(zhì)中的氨基酸。盡管句子和蛋白質(zhì)是自然序列的,但其他類(lèi)型的生物數據也可以表示為序列。
2、如何進(jìn)行預訓練
LLM通過(guò)解決填空題(如“中國的___是北京”)進(jìn)行預訓練,從而學(xué)習語(yǔ)言和單詞之間的關(guān)聯(lián)。盡管最初是為填空任務(wù)訓練的,但它們可以通過(guò)微調用于其他任務(wù)。生物序列LLM通過(guò)將DNA或氨基酸序列視為文本,來(lái)分析生物數據,任務(wù)是預測掩蔽的氨基酸或核苷酸,從而理解“蛋白質(zhì)/DNA語(yǔ)言”,并發(fā)現新的依賴(lài)模式。這些模型在蛋白質(zhì)結構預測、基因功能、調控元件識別等任務(wù)中顯示出強大的能力,甚至超越傳統方法。
圖2 預訓練語(yǔ)言模型的三種方法(來(lái)源:https://doi.org/10.1038/s41592-024-02354-y)
3、Transformer的三種架構類(lèi)型
LLMs的設計通?;赥ransformer架構,可分為三種主要類(lèi)型:編碼器模型(Encoder-only)、解碼器模型(Decoder-only)和編碼器-解碼器模型(Encoder-Decoder)。編碼器模型專(zhuān)注于輸入數據的表示,解碼器模型專(zhuān)注于生成輸出數據,而編碼器-解碼器模型則結合了編碼和解碼的功能。
圖3 Sci-LLM常見(jiàn)架構(來(lái)源:arXiv:2401.14656)
三、研究型成果
近年來(lái),隨著(zhù)大規模語(yǔ)言模型(如ChatGPT、Claude)的興起,這些模型在處理大規模文本數據方面表現出色,并被越來(lái)越多地應用于生物研究。一批使用大數據、強算力訓練的基礎模型相繼涌現,它們在評測中表現優(yōu)異,并能泛化到各種下游任務(wù),例如單細胞基礎模型 scGPT、scFoundation,蛋白大模型Alphafold3、ROSTTAFold 等。
1、AI + 基因組:EVO
2024年11月15日,斯坦福大學(xué)Brian L. Hie團隊以封面文章的形式在Science上發(fā)表了一項開(kāi)創(chuàng )性研究成果,題為“Sequence modeling and design from molecular to genome scale with Evo”。研究團隊介紹了多模態(tài)基因組基礎模型Evo,可大規模注釋和生成基因組序列。
圖4 Evo是一個(gè)涵蓋70億參數的基因組基礎模型
團隊提出了一種針對原核生物基因組的通用大語(yǔ)言模型Evo,編制了大型基因組數據集OpenGenome,其中包含8萬(wàn)多個(gè)細菌和古細菌基因組等數百萬(wàn)個(gè)預測的原核生物和噬菌體序列,涵蓋3000億個(gè)核苷酸Token。預訓練包括兩個(gè)階段:第一階段使用8千Token的上下文長(cháng)度,第二階段的上下文擴展階段則使用13.1萬(wàn)Token。EVO采用Hyena結構而非Transformer建模,因此適合長(cháng)序列建模。
圖5 在原核生物中預訓練模型
除了判別式任務(wù)之外,模型也應有生成能力,例如ChatGPT 能夠生成文章,Evo 模型也能夠生成基因序列。團隊展示了開(kāi)展兩類(lèi)下游任務(wù)的能力,分別是①分類(lèi)任務(wù):蛋白功能預測、非編碼RNA功能預測。②生成任務(wù):CRISPR系統生成、轉座子生成、基因組生成。Evo模型展示了跨 DNA、RNA 和蛋白質(zhì)模態(tài)的零樣本函數預測,其性能可與特定領(lǐng)域的語(yǔ)言模型相媲美,甚至優(yōu)于特定領(lǐng)域的語(yǔ)言模型。
總體而言,Evo首次實(shí)現了單核苷酸分辨率下的長(cháng)序列 DNA 建模,實(shí)現了從分子到基因組尺度的序列設計能力,為解碼復雜生命系統提供了利器。
2、AI + 病毒學(xué):LucaProt
2024年10月8日諾貝爾物理、化學(xué)獎陸續青睞AI,人工智能橫掃諾獎,一時(shí)間AI for Science研究范式風(fēng)頭無(wú)兩。10月9日,國際權威期刊Cell發(fā)表了中山大學(xué)與阿里云合作的重大科研成果,恰逢浪潮興起之際,該文章引發(fā)了廣泛關(guān)注,不僅激起學(xué)界熱烈討論,更被多家國內權威雜志競相報道,可謂時(shí)勢造英雄。
圖6 使用AI對全球病毒圈的深度挖掘
研究團隊開(kāi)發(fā)的LucaProt深度學(xué)習模型,不僅整合了序列和結構信息,更以前所未有的精度和效率,從全球10,487個(gè)宏轉錄組樣本中,發(fā)現了180個(gè)病毒超群和16萬(wàn)余種全新RNA病毒,將已知病毒種類(lèi)擴充了近30倍。其中包括傳統研究方法未能發(fā)現的病毒“暗物質(zhì)”,極大擴展了全球RNA病毒的多樣性。
圖7 RNA病毒超群的真實(shí)性評價(jià)
LucaProt模型整合了序列和結構信息,準確高效地識別了高度分化的RNA病毒,包括許多之前研究不足的群體。研究結果揭示了RNA病毒在不同生態(tài)系統中的廣泛分布和豐度,以及它們在極端環(huán)境中的存在。此外,通過(guò)結構預測和比較分析,研究者們證實(shí)了新發(fā)現的RNA病毒超群的RNA病毒屬性。這一突破標志著(zhù)深度學(xué)習算法在病毒發(fā)現領(lǐng)域取得了里程碑式的進(jìn)展,為病毒學(xué)研究開(kāi)創(chuàng )了一種全新的范式。
3、AI + 分子生物學(xué):AlphaFold3
2024 年 5 月 8 日,谷歌DeepMind 與 Isomorphic Labs 聯(lián)合在Nature期刊上發(fā)布蛋白質(zhì)領(lǐng)域最新人工智能模型AlphaFold 3,這一模型能夠準確預測蛋白質(zhì)、DNA、RNA 以及配體等生命分子的結構及其相互作用方式。這是繼AlphaFold 2 之后的又一重大突破,號稱(chēng)“所有生命分子皆可預測”,將解決百年歷史性難題,打破傳統!
圖8 Aphlafold3論文標題
當提供一系列分子數據時(shí),AlphaFold 3 能生成它們的三維結合結構,展現這些分子如何相互組合,它能模擬蛋白質(zhì)、DNA、RNA 在內的大型生物分子,以及小分子如配體。此外,AlphaFold 3 還能模擬這些分子的化學(xué)修飾,這些修飾控制著(zhù)細胞的正常功能,一旦出現問(wèn)題便可能引發(fā)疾病。
圖9 AF3準確預測生物分子復合物的結構
在預測類(lèi)藥物相互作用方面,AlphaFold 3 實(shí)現了前所未有的準確度,包括蛋白質(zhì)與配體的結合以及抗體與其靶蛋白的結合。在 PoseBusters 的基準測試中,AlphaFold 3 的準確率比現有最佳傳統方法高出 50%,而且無(wú)需任何結構信息輸入,成為首個(gè)超越傳統物理預測工具的人工智能系統。這種預測抗體與蛋白質(zhì)結合的能力,對于理解人類(lèi)免疫反應的各個(gè)方面以及新抗體的設計至關(guān)重要,新藥物研發(fā)再次加速。
4、AI + 蛋白質(zhì)語(yǔ)言:ESM系列
2023年3月16日,臉書(shū)人工智能研究所團隊在Science上發(fā)表了題為“Evolutionary-scale prediction of atomic-level protein structure with a language model”的論文。
圖10 ESM2論文標題
團隊使用大型語(yǔ)言模型演示了如何從一級序列直接推斷全原子水平的蛋白質(zhì)結構。隨著(zhù)蛋白質(zhì)序列的語(yǔ)言模型被放大到150億個(gè)參數,蛋白質(zhì)結構的原子分辨率信息出現在學(xué)習的表征中。這推動(dòng)了高分辨率結構預測的數量級加速,從而實(shí)現宏基因組蛋白質(zhì)的大規模結構表征成為可能。
圖11 語(yǔ)言模型擴展到150億個(gè)參數時(shí)出現結構
團隊通過(guò)訓練ESM-2折疊頭開(kāi)發(fā)了端到端的單序列結構預測器ESMFold,可直接以一級序列(原子級水平)蛋白質(zhì)結構。它在CAMEO測試集上表現出高預測精度,并能夠準確預測蛋白質(zhì)復合體的組成,比AlphaFold2在單GPU情況下6倍。ESMFold內在化了與結構相關(guān)的進(jìn)化模式,無(wú)需外部數據庫、MSA或模板,且其預測置信度與準確性高度相關(guān)。
圖12 ESMFold預測單序列蛋白性能
團隊利用這一能力構建了ESM宏基因組圖譜,通過(guò)預測超過(guò) 6.17億個(gè)宏基因組蛋白質(zhì)序列的結構,其中2.25億個(gè)序列的預測具有很高的置信度,這使我們能夠了解天然蛋白質(zhì)的廣泛性和多樣性。
圖13 映射宏基因組結構空間
相比于其他模型,由于沒(méi)有使用MSA,該模型可以擴展到宏基因組數據集,揭示并描述遠離現有知識的宏基因組空間區域,發(fā)現新的蛋白質(zhì)結構。ESM系列蛋白語(yǔ)言模型(PLM)對蛋白設計起到了極大的推動(dòng)作用, 開(kāi)辟了PLM這個(gè)方向,并開(kāi)枝散葉,催生了一大波下游應用,例如用于預測蛋白蛋白PPI的ESMppi模型、在計算上快速實(shí)現DMS的ESMscan模型等。
Meta AI解散了這個(gè)團隊后,ESM原團隊成立了Evolutionary Scale AI公司,并獲得多家企業(yè)的融資。2024年6月25日,繼AlphaFold 3更新后,EvolutionaryScale團隊發(fā)布了他們最新的98B參數蛋白質(zhì)語(yǔ)言模型ESM3。
圖14 ESM3模型論文標題
該模型不僅支持序列、結構、功能的all-to-all推理,團隊還在實(shí)驗中發(fā)現,它設計的新蛋白質(zhì)相當于模擬自然界5億年的進(jìn)化,這是一個(gè)能夠生成新型蛋白質(zhì)的里程碑式人工智能模型。
圖15 ESM3設計的一種新的綠色熒光蛋白
這是一個(gè)多模態(tài)的生成型語(yǔ)言模型(即除了語(yǔ)言模型外,還包括蛋白質(zhì)的序列結構和功能信息),該模型采用了類(lèi)似BERT的encoder-only架構,并加入了geometric attention等技術(shù)。該模型的輸入包括序列、結構和功能等七種不同的部分,使用了大約10^24的計算資源進(jìn)行訓練,總共包含了98億個(gè)參數。
5、AI + 單細胞組學(xué):scGPT
生成式預訓練模型在語(yǔ)言和計算機視覺(jué)等各個(gè)領(lǐng)域取得了顯著(zhù)的成功,多倫多大學(xué)和微軟研究院學(xué)者通過(guò)類(lèi)比語(yǔ)言與細胞生物學(xué)(句子—細胞,單詞—基因),構建了一個(gè)基于生成式預訓練Transformer、涵蓋超過(guò)3300萬(wàn)個(gè)細胞的單細胞RNA-seq基礎大模型——scGPT。
圖16 scGPT模型論文標題
2024年2月26日,多倫多大學(xué)和微軟研究院聯(lián)合在Nature methods 上發(fā)表一篇題為“scGPT: toward building a foundation model for single-cell multi-omics using generative AI”論文,作者開(kāi)發(fā)了一個(gè)單細胞生物學(xué)基礎模型scGPT,該模型是在基于超過(guò)3300萬(wàn)個(gè)細胞存儲庫的生成式預訓練transformer的基礎上構建的。
圖17 scGPT模型預訓練模型架構
scGPT模型的預訓練使用了CELLxGENE數據庫中的3300萬(wàn)個(gè)單細胞RNA數據,涵蓋不同器官和組織。微調階段,模型使用了人類(lèi)胰腺和多發(fā)性硬化癥等疾病數據集,并結合CITE-Seq和scATAC-seq等組學(xué)數據。CITE-Seq同時(shí)分析基因表達和細胞表面蛋白質(zhì),scATAC-seq則通過(guò)檢測染色質(zhì)可及性提供基因調控信息。通過(guò)這些步驟,scGPT能夠有效處理單細胞多組學(xué)數據,提升細胞類(lèi)型識別和疾病預測的能力。
圖18 使用scGPT進(jìn)行細胞類(lèi)型注釋
該模型能夠有效地提取有關(guān)基因和細胞的關(guān)鍵生物學(xué)見(jiàn)解,并且在細胞類(lèi)型注釋、多批次整合、多組學(xué)整合、擾動(dòng)響應預測和基因網(wǎng)絡(luò )推斷等下游應用中取得了更好的性能。作者通過(guò)在零樣本和微調設置下的綜合實(shí)驗證明了預訓練的好處,微調后的scGPT模型始終優(yōu)于從頭開(kāi)始訓練的模型。這證明了預訓練模型對下游任務(wù)的價(jià)值,能夠實(shí)現更準確和更有生物學(xué)意義的分析。
6、AI + 醫學(xué)
相比其他學(xué)科,醫學(xué)+AI,是人們最關(guān)注的、發(fā)表學(xué)術(shù)成果也是最多的領(lǐng)域。多模態(tài)大語(yǔ)言模型可以綜合分析不同類(lèi)型的數據,建立跨模態(tài)關(guān)聯(lián),提供從文本到影像的深度理解。
藥物開(kāi)發(fā):
浙江大學(xué)人工智能醫學(xué)創(chuàng )新研究院開(kāi)發(fā)的LEDAP模型,可以利用基于LLM的生物文本特征編碼來(lái)預測藥物-疾病關(guān)聯(lián)、藥物-藥物相互作用和藥物-副作用關(guān)聯(lián)。哈佛醫學(xué)院開(kāi)發(fā)的一種名為T(mén)xGNN的圖神經(jīng)網(wǎng)絡(luò )模型,專(zhuān)門(mén)用于零樣本藥物再利用的預測,尤其針對沒(méi)有現有治療方案或治療選項有限的疾病。該幾何深度學(xué)習模型結合了一個(gè)龐大而全面的生物知識圖譜,以準確預測任何給定疾病-藥物對的適應癥或禁忌癥的可能性,適用于老藥新用途的開(kāi)發(fā)。佛羅里達大學(xué)和德克薩斯大學(xué)團隊提出的DrugFormer 模型,整合了序列化基因標記和基于基因的知識圖譜,以高精度預測單細胞水平的藥物耐藥性。模型基于圖增強大型語(yǔ)言模型的方法,專(zhuān)門(mén)用于預測單細胞水平的藥物敏感性。
醫學(xué)輔助診斷:
哈佛醫學(xué)院Kun-Hsing Yu團隊開(kāi)發(fā)了一款臨床組織病理學(xué)成像評估基礎模型CHIEF。CHIEF能在19種癌癥類(lèi)型中執行多種任務(wù),檢測準確率接近94%,就像 ChatGPT 一樣“聚合”、“靈活”。能夠精準診斷、預測癌癥結果,甚至推薦治療方案,為醫生提供全面的支持。哈佛醫學(xué)院、麻省理工學(xué)院、俄亥俄州立大學(xué)等聯(lián)合推出了面向醫學(xué)領(lǐng)域的多模態(tài)AI助手PathChat,模型不僅能理解、分析復雜的醫學(xué)圖像,還能基于多輪文本對話(huà),為臨床醫生、醫護人員提供精準和個(gè)性化的病理學(xué)指導。
四、寫(xiě)在最后
本文綜述了當前大語(yǔ)言模型在生物醫學(xué)領(lǐng)域的潛力與應用,大語(yǔ)言模型因其展現出類(lèi)人般的推理、工具使用和問(wèn)題解決能力而備受矚目。同時(shí),它們在化學(xué)、生物學(xué)和醫藥等專(zhuān)業(yè)領(lǐng)域展現出的深度理解能力,進(jìn)一步凸顯了其廣泛的應用價(jià)值。
近年來(lái),各類(lèi)大語(yǔ)言模型層出不窮,各方AI新勢力頻頻涌現,推動(dòng)技術(shù)持續迭代與突破。目前還有很多高質(zhì)量的文章與權威綜述發(fā)表,預印本平臺也有大量相關(guān)成果正在上新,此處小編不再贅述,感興趣的朋友可以自行前往查看。如果覺(jué)得有用,歡迎在看、轉發(fā)和點(diǎn)贊!
參考文獻:
[1] arXiv:2409.00133.[2] Simon, E., Swanson, K. & Zou, J. Language models for biological research: a primer. Nat Methods 21, 1422–1429 (2024). https://doi.org/10.1038/s41592-024-02354-y.[3] arXiv:2401.14656.[4] Nguyen E, Poli M, Durrant MG, et al. Sequence modeling and design from molecular to genome scale with Evo. Science. 2024;386(6723):eado9336. doi:10.1126/science.ado9336[5] Hou X, He Y, Fang P, et al. Using artificial intelligence to document the hidden RNA virosphere. Cell. 2024;187(24):6929-6942.e16. doi:10.1016/j.cell.2024.09.027[6] Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature. 2024;630(8016):493-500. doi:10.1038/s41586-024-07487-w[7] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 2023;379(6637):1123-1130. doi:10.1126/science.ade2574[8] https://doi.org/10.1101/2024.07.01.600583[9] Cui H, Wang C, Maan H, et al. scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nat Methods. 2024;21(8):1470-1480. doi:10.1038/s41592-024-02201-0[10] Zhang, H., Zhou, Y., Zhang, Z., Sun, H., Pan, Z., Mou, M., Zhang, W., Ye, Q., Hou, T., Li, H., Hsieh, C. Y., & Zhu, F. (2024). Large Language Model-Based Natural Language Encoding Could Be All You Need for Drug Biomedical Association Prediction. Analytical chemistry, 10.1021/acs.analchem.4c01793. Advance online publication. https://doi.org/10.1021/acs.analchem.4c01793 [11] Huang, K., Chandak, P., Wang, Q. et al. A foundation model for clinician-centered drug repurposing. Nat Med (2024). https://doi.org/10.1038/s41591-024-03233-x[12] Liu, X., Wang, Q., Zhou, M., Wang, Y., Wang, X., Zhou, X., & Song, Q. (2024). DrugFormer: Graph-Enhanced Language Model to Predict Drug Sensitivity. Advanced science (Weinheim, Baden-Wurttemberg, Germany), 11(40), e2405861. https://doi.org/10.1002/advs.202405861[13] Wang, X., Zhao, J., Marostica, E. et al. A pathology foundation model for cancer diagnosis and prognosis prediction. Nature (2024). https://doi.org/10.1038/s41586-024-07894-z[14] Lu, M. Y., Chen, B., Williamson, D. F. K., Chen, R. J., Zhao, M., Chow, A. K., Ikemura, K., Kim, A., Pouli, D., Patel, A., Soliman, A., Chen, C., Ding, T., Wang, J. J., Gerber, G., Liang, I., Le, L. P., Parwani, A. V., Weishaupt, L. L., & Mahmood, F. (2024). A multimodal generative AI copilot for human pathology. Nature, 634(8033), 466–473. https://doi.org/10.1038/s41586-024-07618-3
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com