細胞是生命的基本單位,對于理解健康、衰老和疾病至關(guān)重要,也是藥物開(kāi)發(fā)和合成生物學(xué)的重要工具。然而,基于細胞的實(shí)驗資源消耗大且易變,這導致了生物醫學(xué)研究中的可重復性問(wèn)題。
雖然首個(gè)碳基細胞是經(jīng)過(guò)數十億年的進(jìn)化才出現的,但首個(gè)硅基細胞的開(kāi)發(fā)如今為科學(xué)界帶來(lái)了變革性的機遇。大約在 2000 年提出了虛擬細胞(virtual cell)或數字細胞(digital cell)的概念,最初依賴(lài)傳統的低通量生化實(shí)驗來(lái)量化特定生物過(guò)程中所涉及物質(zhì)的時(shí)空變化。這些早期模型采用微分方程和隨機模擬來(lái)模擬特定的細胞過(guò)程。開(kāi)創(chuàng )性的全細胞虛擬模型,例如針對支原體、大腸桿菌和釀酒酵母的模型,主要基于先驗知識。然而,它們缺乏精心設計的匹配擾動(dòng)組學(xué)數據和時(shí)空成像數據。盡管這些早期模型具有開(kāi)創(chuàng )性意義,但它們在全面捕捉活細胞的動(dòng)態(tài)特性和復雜性方面存在局限性,這凸顯了對更全面的數據整合和先進(jìn)建模方法的需求。
高通量技術(shù)和人工智能(AI)的最新進(jìn)展為更復雜的虛擬細胞模擬鋪平了道路。
2024 年 12 月,斯坦福大學(xué) Stephen Quake 教授等人在 Cell 期刊發(fā)文,提出了人工智能虛擬細胞(AIVC)的概念【1】,該概念將人工智能與多模態(tài)數據相結合,以創(chuàng )建細胞功能的綜合計算模型。這些人工智能虛擬細胞有望實(shí)現精確且可擴展的計算機模擬實(shí)驗,有可能通過(guò)高通量模擬在某些情況下補充甚至取代傳統實(shí)驗,從而徹底改變生物醫學(xué)研究。
盡管人工智能虛擬細胞(AIVC)前景廣闊,但仍有一些關(guān)鍵問(wèn)題懸而未決。正如細胞培養基滋養生物細胞一樣,什么樣的“培養基”才是培育這些數字實(shí)體的理想之選?我們應當優(yōu)先對哪些細胞類(lèi)型進(jìn)行虛擬培養?
解決這些問(wèn)題對于充分發(fā)揮人工智能虛擬細胞(AIVC)在藥物開(kāi)發(fā)、疾病建模和基礎生物學(xué)研究中的潛力至關(guān)重要。在我們即將邁入細胞建模這一新時(shí)代之際,科學(xué)界應當攜手合作,為人工智能虛擬細胞(AIVC)的開(kāi)發(fā)和驗證制定標準及最佳實(shí)踐。
2025 年 3 月 25 日,西湖大學(xué)郭天南研究員在 Cell Research 期刊發(fā)表了題為:Grow AI virtual cells: three data pillars and closed-loop learning 的社論。
該文章提出,人工智能虛擬細胞(AIVC)的演進(jìn)和發(fā)展依賴(lài)于三個(gè)關(guān)鍵的數據支柱——先驗知識(priori knowledge)、靜態(tài)架構(static architecture)和動(dòng)態(tài)狀態(tài)(dynamic states),這些數據支柱與深度學(xué)習算法(deep learning algorithms)相結合,構成了 AIVC 發(fā)展的基礎。
此示意圖展示了發(fā)展 AIVC 的三大關(guān)鍵支柱:先驗知識、靜態(tài)架構和動(dòng)態(tài)狀態(tài)。這些數據通過(guò)人工智能算法進(jìn)行整合,以模擬細胞行為(例如大腸桿菌、酵母和各種細胞系等模式生物的模型),還展示了使用閉環(huán)主動(dòng)學(xué)習系統的 AIVC 的發(fā)展演變。在這個(gè)先進(jìn)的框架中,計算預測引導自動(dòng)化實(shí)驗,尤其側重于擾動(dòng)組學(xué)。
想象一下,在計算機中培育一個(gè)“虛擬細胞”,它能模擬真實(shí)細胞的生長(cháng)、代謝甚至癌變過(guò)程,幫助科學(xué)家預測藥物效果、解析疾病機制。這個(gè)看似科幻的場(chǎng)景隨著(zhù)人工智能(AI)的發(fā)展,正在變?yōu)楝F實(shí)。
傳統細胞實(shí)驗的困境:成本與不確定性的雙重挑戰
細胞是生命的基本單位,但傳統實(shí)驗面臨兩大難題:
資源消耗大:?jiǎn)未螌?shí)驗需數周時(shí)間,且需要昂貴的試劑和精密儀器;
可重復性低:實(shí)驗受環(huán)境波動(dòng)、操作差異影響,全球科研界正面臨“可重復性危機”。
AI虛擬細胞:邁向硅基生命之路
從 2000 年首個(gè)“虛擬細胞/數字細胞”概念到如今的人工智能虛擬細胞(AIVC),郭天南團隊提出了構建細胞“數字孿生”的三大核心支柱:
1、先驗知識:海量文獻的“智能熔爐”
整合百年生物醫學(xué)研究成果,包括 2.4 億篇論文,以及 3D 分子結構數據庫,這些人類(lèi)已有的知識如同“細胞百科全書(shū)”,為 AI 提供基礎細胞生物學(xué)規律,就像 ChatGPT 學(xué)習了人類(lèi)的所有文本,讓 AIVC 吸收所有細胞知識。
2、靜態(tài)架構:納米級細胞“全景地圖”
融合冷凍電鏡、超分辨顯微鏡、空間組學(xué)技術(shù),繪制細胞器、蛋白網(wǎng)絡(luò )的精確三維結構,分辨率達 5-10 納米。
3、動(dòng)態(tài)狀態(tài):捕捉生命的每一幀變化
追蹤細胞發(fā)育、癌變等過(guò)程的分子動(dòng)態(tài);利用擾動(dòng)技術(shù)(例如基因編輯、藥物刺激)生成大量數據,訓練 AI 預測細胞行為。
技術(shù)突破:當多組學(xué)遇上深度學(xué)習
郭天南團隊進(jìn)一步提出了“閉環(huán)學(xué)習”框架:
1、數據融合:Transformer 模型整合文本、影像、蛋白質(zhì)組數據;
2、動(dòng)態(tài)推演:Diffusion 模型模擬細胞狀態(tài)變遷,預測藥物干預效果;
3、自我進(jìn)化:每次虛擬實(shí)驗結果反哺模型優(yōu)化,形成迭代升級。
未來(lái)應用:從精準醫療到合成生物學(xué)
1、藥物開(kāi)發(fā):虛擬篩選抗癌藥組合,縮短研發(fā)周期;
2、疾病解密:模擬阿爾茨海默病蛋白異常聚集過(guò)程;
3、細胞工廠(chǎng):設計高效生產(chǎn)胰島素的人工細胞。
結論與展望
在現代生物醫學(xué)研究的數字培養皿中創(chuàng )建和培育人工智能虛擬細胞(AIVC)時(shí),我們必須仔細考慮滋養其生長(cháng)的“養分”。文章中提出的先驗知識、靜態(tài)架構和動(dòng)態(tài)狀態(tài)這三大數據支柱構成了這些計算機模擬實(shí)體的必要“培養基”。其中,基于擾動(dòng)的組學(xué)數據——轉錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)——成為關(guān)鍵的“生長(cháng)因子”。
為了高效生成如此豐富的擾動(dòng)數據,作者設想了閉環(huán)主動(dòng)學(xué)習系統將成為下一個(gè)進(jìn)化步驟。這些系統受自主化學(xué)實(shí)驗室的啟發(fā),將無(wú)縫整合人工智能驅動(dòng)的預測與機器人實(shí)驗。就像一位技藝嫻熟的園丁,它們將識別知識空白,設計有針對性的實(shí)驗,并不斷深化我們對細胞復雜性的理解。從靜態(tài)模型到適應性、自我優(yōu)化的人工智能虛擬細胞的旅程,有望徹底改變藥物發(fā)現、疾病建模和基礎生物學(xué)研究。作者還提出了這一旅程中的低垂果實(shí)——創(chuàng )建并培育一個(gè)虛擬酵母細胞或許是一個(gè)可行的選擇。
當我們站在這一令人興奮的前沿之際,科學(xué)界的協(xié)同努力對于充分發(fā)揮人工智能虛擬細胞的潛力以及推動(dòng)計算機模擬生命科學(xué)的未來(lái)至關(guān)重要。
參考鏈接:
https://www.cell.com/cell/fulltext/S0092-8674(24)01332-1
https://www.nature.com/articles/s41422-025-01101-y
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com