近年來(lái),單細胞組學(xué)技術(shù)的快速發(fā)展為描繪細胞的復雜狀態(tài)提供了前所未有的海量數據,深刻推動(dòng)生命科學(xué)研究進(jìn)入精細解析基因調控機制的新階段。與此同時(shí),深度學(xué)習和大規模預訓練基礎模型(Foundation Models)在自然語(yǔ)言處理和計算機視覺(jué)領(lǐng)域的成功,為生命科學(xué)提供了強有力的技術(shù)支持。
近期,中國科學(xué)院多學(xué)科交叉研究團隊"指南針聯(lián)盟"(Xcompass Consortium)開(kāi)發(fā)了Cell-GraphCompass(CGCompass)。該模型創(chuàng )新性地采用了圖神經(jīng)網(wǎng)絡(luò )融入豐富生物學(xué)知識并基于5000萬(wàn)人類(lèi)單細胞數據集訓練從而構建了新型人類(lèi)單細胞基礎模型。CGCompass采用圖結構算法建模單個(gè)細胞,將基因視為圖中的節點(diǎn),基因之間的相互關(guān)系作為圖的邊,通過(guò)圖神經(jīng)網(wǎng)絡(luò )深入挖掘基因間的復雜聯(lián)系及其在細胞中的動(dòng)態(tài)表達特征。該模型利用數千萬(wàn)高質(zhì)量單細胞轉錄組數據進(jìn)行大規模預訓練,不僅提升了對基因調控機制的理解能力,還為細胞類(lèi)型鑒定、基因擾動(dòng)預測等多種生命科學(xué)任務(wù)提供了強大技術(shù)支持,為構建更加全面仿真的人類(lèi)AI虛擬細胞邁出了重要一步。
CGCompass模型架構:圖神經(jīng)網(wǎng)絡(luò )驅動(dòng)的知識融合
CGCompass基于單細胞RNA測序數據構建細胞的圖結構,將細胞和基因分別視作圖中的節點(diǎn),利用圖神經(jīng)網(wǎng)絡(luò )(GNN)結合基因表達信息、調控網(wǎng)絡(luò )、基因共表達關(guān)系、基因位置關(guān)系以及文獻挖掘的生物先驗知識,形成多層嵌入表達。預訓練采用自監督學(xué)習策略,隨機遮蔽基因表達信息,促使模型在豐富細胞背景下準確恢復掩碼表達值,捕獲復雜的基因間長(cháng)程動(dòng)態(tài)關(guān)系。該模型能夠生成高維且生物學(xué)意義深厚的基因和細胞表征,為下游多樣化任務(wù)提供堅實(shí)基礎。
CGCompass模型架構
優(yōu)異的聚類(lèi)和細胞類(lèi)型注釋表現
依托細胞圖結構,CGCompass在多批次、多平臺的單細胞數據上實(shí)現了出色的批次效應消除。通過(guò)無(wú)監督聚類(lèi),模型成功區分出多種細胞類(lèi)型,充分展現了其對生物信號的深刻感知能力。在細胞類(lèi)型注釋任務(wù)中,CGCompass基于reference集對query集進(jìn)行了高精度預測。盡管兩者存在顯著(zhù)的數據分布差異,CGCompass憑借大規模預訓練與深度融合的生物學(xué)先驗,有效規避了對reference集的過(guò)擬合,展現出強大的泛化與遷移能力,注釋準確率持續領(lǐng)先。
CGCompass的聚類(lèi)(左)和注釋?zhuān)ㄓ遥┙Y果
強大的Zero-shot能力,支持多樣化應用場(chǎng)景
預訓練基礎模型具備直接遷移到新任務(wù)的能力,CGCompass的zero-shot推理表現尤為突出。在不同實(shí)驗室、物種、疾病狀態(tài)下,模型均能生成高質(zhì)量細胞和基因嵌入,顯著(zhù)提升多種生物學(xué)任務(wù)的執行效率。無(wú)須額外標注數據,即可為新數據提供細胞類(lèi)型注釋、基因功能識別等支持,極大降低了生命科學(xué)研究中數據標注的門(mén)檻。
CGCompass的zero-shot測試結果
細胞基因擾動(dòng)模擬,推動(dòng)基因調控機制解析
CGCompass在基因擾動(dòng)響應預測中表現優(yōu)異。通過(guò)在單細胞基因擾動(dòng)(Perturb-seq)數據上微調預訓練模型,CGCompass能準確新的擾動(dòng)條件下基因表達的變化。與現有先進(jìn)模型相比,CGCompass在單基因及雙基因擾動(dòng)的表達預測均有明顯提升,且能區分基因表達的上調、下調及不變狀態(tài)。此能力不僅助力基因調控網(wǎng)絡(luò )的推斷,還可用于藥物作用機制分析和精準治療靶點(diǎn)篩選。
CGCompass模擬單細胞基因擾動(dòng)響應
拓展至體細胞基因敲除預測,實(shí)現多尺度生物學(xué)建模
在單細胞擾動(dòng)實(shí)驗的基礎上,CGCompass進(jìn)一步拓展至體(bulk)細胞的基因敲除預測任務(wù)。體細胞測序數據反映的是細胞的局部群體行為,具有顯著(zhù)的數據分布不平衡特征:多數基因在敲除前后表達量變化不大,容易導致深度學(xué)習模型"偷懶"--將所有基因預測為不變,從而獲得看似較高的準確率。為解決這一挑戰,CGCompass引入兩階段遷移學(xué)習策略:模型首先在大規模單細胞數據上完成預訓練,再在體細胞數據上進(jìn)行二次預訓練,最后在基因敲除數據上進(jìn)行精調。該策略有效增強了模型對表達變化的敏感性,實(shí)現了對基因上調、下調及不變狀態(tài)的精準分類(lèi)。相較傳統方法,CGCompass不僅保持整體預測準確率,更顯著(zhù)提升了對差異表達基因的識別能力,展現出強大的泛化性能和在真實(shí)應用中的巨大潛力。
CGCompass預測bulk層面的基因敲除結果
展望未來(lái):多組學(xué)融合與精準生命科學(xué)新時(shí)代
CGCompass標志著(zhù)圖神經(jīng)網(wǎng)絡(luò )與生命科學(xué)大數據融合的新突破,未來(lái)團隊計劃進(jìn)一步整合ATAC-seq、蛋白質(zhì)組學(xué)及表觀(guān)遺傳數據,打造更全面的多組學(xué)基礎模型。同時(shí),將探索先進(jìn)生命科學(xué)文本大模型及半監督、長(cháng)尾學(xué)習方法,進(jìn)一步提升模型對稀缺數據和復雜生物現象的適應力。CGCompass有望助力細胞命運重編程、腫瘤精準治療、類(lèi)器官培養等前沿領(lǐng)域,開(kāi)啟智能生命科學(xué)研究新時(shí)代。
關(guān)于團隊
CGCompass模型由中國科學(xué)院大學(xué)前沿交叉科學(xué)學(xué)院、中國科學(xué)院動(dòng)物研究所李鑫團隊聯(lián)合中國科學(xué)院計算機網(wǎng)絡(luò )信息中心、科大訊飛等多學(xué)科團隊共同研發(fā),該團隊致力于構建數智驅動(dòng)的生命科學(xué)研究新范式,深度解析生命本質(zhì)規律。中國科學(xué)院動(dòng)物所李鑫研究員、馮桂海研究員,計算機網(wǎng)絡(luò )信息中心周園春研究員、孟珍研究員、科大訊飛陳凌輝為論文共同通訊作者,房晨、崔文韜、胡智龍為共同第一作者。
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com