細胞(Cell)作為生命的基本單位,是一個(gè)極其復雜精妙的實(shí)體,其特性和行為對物理和計算模型的極限構成了挑戰。每個(gè)細胞都是一個(gè)動(dòng)態(tài)且具有適應性的系統,在其中,復雜的活動(dòng)源自無(wú)數的分子間相互作用。為了理解細胞的功能,科學(xué)家們試圖構建虛擬細胞(Virtual Cell)模型來(lái)模擬、預測和引導細胞的行為。
如今,在人工智能和組學(xué)領(lǐng)域發(fā)生的令人振奮的科技革命,使得直接從數據中學(xué)習構建細胞模型成為可能。這些科技革命為一個(gè)雄心勃勃的人工智能虛擬細胞(AIVC)愿景提供了前所未有的機遇,AIVC 是一種基于大規模神經(jīng)網(wǎng)絡(luò )的多尺度、多模態(tài)模型,能夠表征和模擬分子、細胞和組織在各種狀態(tài)下的行為。
目前,已有多個(gè)研究團隊正在競相開(kāi)發(fā)人工智能(AI)模型,以建模生命的基本單位--細胞,并預測細胞的行為。
2024 年 12 月 12 日,"陳-扎克伯格倡議"(CZI)的科學(xué)負責人 Stephen Quake 聯(lián)合 40 多位學(xué)者,在 Cell 期刊發(fā)表了題為:How to build the virtual cell with artificial intelligence: Priorities and opportunities 的展望文章,介紹了利用人工智能(AI)創(chuàng )建虛擬細胞(Virtual Cell)的重點(diǎn)和機遇【1】。
如果 Stephen Quake 如愿以?xún)?,未?lái)生物學(xué)家將大大減少在做實(shí)驗上花費的時(shí)間。他表示,我們的目標是開(kāi)發(fā) AI 虛擬細胞模型,這將成為理解疾病發(fā)病機制的一個(gè)非常強大的計算工具,在他的設想中,虛擬細胞負責預測,人類(lèi)科學(xué)家負責實(shí)驗驗證,從而讓細胞生物學(xué)從"90% 實(shí)驗 + 10% 計算"轉變?yōu)?90% 計算+10% 實(shí)驗"。
創(chuàng )建虛擬細胞的努力,目前尚處于起步階段,但這一愿景已在全球學(xué)術(shù)和工業(yè)實(shí)驗室中引起了極大興趣。
AI 虛擬細胞概述
致力于開(kāi)發(fā)開(kāi)放數據集和工具的非營(yíng)利組織"陳-扎克伯格倡議"(CZI)計劃在未來(lái)十年投入數億美元用于創(chuàng )建虛擬細胞。開(kāi)發(fā)出了 AI 蛋白質(zhì)結構預測工具 AlphaFold 的 DeepMind 公司也在推進(jìn)一個(gè)虛擬細胞項目。瑞典國家生命科學(xué)實(shí)驗室計劃在 2026 年啟動(dòng)名為"Alpha Cell"的虛擬細胞模型項目。此外,諾獎得主 David Baker 創(chuàng )立的 Xaira Therapeutics 則在本月發(fā)布了一個(gè)涵蓋 8000000 個(gè)細胞的迄今最大規模單細胞擾動(dòng)測序數據集 X-Atlas/Orion,以支持虛擬細胞研究【2】。Arc 研究所則在上周推出了一個(gè)虛擬細胞模型--STATE,旨在預測各種干細胞、癌細胞和免疫細胞對藥物、細胞因子或基因干擾的反應【3】。
但也有一些科學(xué)家表示,盡管開(kāi)發(fā)虛擬細胞是生物學(xué)的一個(gè)重要長(cháng)期目標,但目前這一熱潮存在很多炒作成分,卻鮮有具體成果,也缺乏明確的成功路徑。有科學(xué)家直言不諱:虛擬細胞主要被用作口號和融資,而且效果不錯,投資機構正在向這一領(lǐng)域投入大量資金。
幾十年來(lái),生物學(xué)家一直致力于利用計算機來(lái)模擬細胞行為。2012 年,J. Craig Venter 研究所的科學(xué)家們創(chuàng )建了首個(gè)完整細胞的計算模型,模擬了一個(gè)僅含 525 個(gè)基因的人類(lèi)病原體--生殖支原體的細胞內運作機制【4】。
但這項研究以及其他早期的努力往往試圖真正構建一個(gè)細胞的完整機械模型。相比之下,當前開(kāi)發(fā)虛擬細胞的努力得益于人工智能(AI)的進(jìn)步,當輸入大量數據時(shí),AI 能夠生成復雜的數據表示,例如從大量文本中訓練的大型語(yǔ)言模型。建立能從數據中學(xué)習的模型具有革命性意義。
早期的虛擬細胞主要關(guān)注一種類(lèi)型的數據:來(lái)自對單個(gè)細胞中所有 mRNA 分子進(jìn)行測序的實(shí)驗數據(單細胞轉錄組測序數據),這相當于一份基因活動(dòng)目錄以及細胞當前狀態(tài)的快照。這些數據構成了"圖譜"的基礎,這些圖譜描繪了人類(lèi)和其他生物體內不同細胞類(lèi)型的情況,揭示了此前未被充分認識的多樣性。
如今,研究人員如今正在大量生成"單細胞測序"數據集,以助力其虛擬細胞的研究。例如,"陳-扎克伯格倡議"(CZI)計劃發(fā)布來(lái)自 10 億個(gè)細胞的測序數據,而在 2 月,Arc 研究所發(fā)布了來(lái)自 1 億個(gè)經(jīng)數百種藥物處理的癌細胞的測序數據。這些單細胞測序數據很有吸引力,因為它能夠以與大語(yǔ)言模型開(kāi)始獲得復雜能力時(shí)相似的規模經(jīng)濟實(shí)惠地生成--達到數百億的數據點(diǎn)。
目前,研究人員已經(jīng)開(kāi)始利用這些數據開(kāi)發(fā)單細胞人工智能模型。就在上周,Arc 研究所公布了其首個(gè)虛擬細胞模型--"State"。此外,Arc 該研究所還發(fā)起了一個(gè)虛擬細胞挑戰賽,挑戰研究人員利用虛擬細胞模型預測人類(lèi)干細胞對基因干擾的反應【5】。
不過(guò),其他研究人員表示,這些虛擬細胞模型目前還不夠強大,預測能力也不足,無(wú)法得出適用于其訓練數據之外的結論,用新數據集對一些虛擬模型進(jìn)行基準測試時(shí),它們的表現很糟糕。
此外,還有許多研究人員表示,虛擬細胞需要整合其他形式的數據,比如光學(xué)顯微鏡和電子顯微鏡圖像,這些圖像能夠展示細胞的不同組成部分如何相互作用,以及細胞如何隨時(shí)間變化。也就是說(shuō),我們還需要單細胞測序之外的數據。
開(kāi)發(fā)虛擬細胞所面臨的挑戰還在于,虛擬細胞還沒(méi)有被明確定義,究竟是什么是虛擬細胞,當前的研究人員一件尚未達成共識。
Stephen Quake 表示,自己設想的讓細胞生物學(xué)家擺脫實(shí)驗室工作臺的愿景還需要一段時(shí)間來(lái)適應,但幸運的是,適應的時(shí)間還很充裕,生物學(xué)家們還沒(méi)準備好迎接虛擬細胞模型,而模型也還沒(méi)有足夠成熟。
論文鏈接:
1. https://www.cell.com/cell/fulltext/S0092-8674(24)01332-1
2. https://www.biorxiv.org/content/10.1101/2025.06.11.659105v1
3. https://arcinstitute.org/manuscripts/State
4. https://www.cell.com/cell/fulltext/S0092-8674(12)00776-3
5. https://www.cell.com/cell/fulltext/S0092-8674(25)00675-0
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com