在多组学时代,揭示组织内部的细胞组成成为理解疾病微环境的关键。批量测序技术(如 bulk RNA-seq 、空间转录组、蛋白质组学)由于其本质上的“平均化”特性,掩盖了细胞异质性。尽管单细胞技术能够提供高分辨率视角,但其高昂成本、批次效应、技术噪声等限制了其在大队列中的广泛应用。
现代生物医学研究高度关注组织的细胞异质性,即不同细胞类型在空间分布和功能表达上的差异。尽管单细胞测序( scRNA -seq )具备高分辨率优势,但其高成本、显著的批次效应以及样本通量受限,使其在大规模队列研究和临床场景中的应用面临挑战。相比之下, bulk 类型数据 —— 包括传统的 bulk RNA-seq 、空间转录组的 spot-level 表达数据,以及基于质谱的组织蛋白质组数据 —— 因技术成熟、 成本 相对可控 、样本获取便利,已成为细胞组成推断和组织异质性分析的重要信息来源 。
以往主流的去卷积( deconvolution )方法 (如 CIBERSORTx【2】、 MuSiC【3】等) 通常将 bulk 基因表达建模为不同细胞类型特异性基因表达特征的线性组合,但这类方法往往难以准确反映组织内部的非线互作用及基因表达的变异性。相比之下,基于深度学习的去卷积方法能够捕捉基因表达组成与细胞类型比例之间复杂的非线性关系,因此正逐渐成为一种强有力的工具 。 尽管这方面取得了一定进展,但一个长期被忽视的挑战依然存在:目标 bulk 数据与参考单细胞数据之间的批次效应( batch effect ),这常常影响现有去卷积框架的 泛化 性能 。雷火竞技 目前的 基于深度学习的方法 (如 Scaden【4】等)多依赖从单细胞数据构建的模拟 bulk 样本进行训练,面临模拟数据与真实 bulk 数据分布差异显著的问题。同时,这些方法普遍基于强分布假设(如 Dirichlet 分布),泛化能力有限,且应用范围主要局限于 bulk RNA-seq ,难以扩展至空间转录组和蛋白质组等其他组学数据类型,限制了其在多组学分析中的适用性。
OmicsTweezer 的核心创新在于摆脱了传统方法对特定分布假设的依赖,基于深度学习与最优传输( Optimal Transport )理论,构建了一个分布无关、统一适配多组学数据的细胞 反 卷积模型。其关键机制是:将模拟 bulk 数据( pseudo-bulk )与真实 bulk 数据共同投射到一个共享的潜在表示空间( latent space ),通过联合最小化 L1 损失与 Wasserstein 距离,使两者在特征分布上对齐。该设计可有效缓解不同平台和数据来源之间的分布偏移( distribution shift ),提升在真实多组学数据上的泛化能力与预测精度。
OmicsTweezer 应用于 TCGA 前列腺癌( PRAD ) bulk RNA-seq 数据时, 结果表明 肿瘤样本 中基底细胞显著减少、 管腔样细胞增多 , 谱系可塑性 相关 肿瘤细胞 ( LPCs ) 异常 富集且与不良预后密切相关,同时高比例的 B 细胞也提示更差的生存结局,结果不仅与临床观察高度一致,也体现了该模型在真实数据中的生物学解释力与临床相关性。
在公开的结直肠癌( CRC )空间转录组数据中, OmicsTweezer 揭示肿瘤区域内皮细胞与成纤维细胞 之间 显著 的空间 共定位 现象 ,且两者比例升高与患者预后不良密切相关,提示这类 “ 基质细胞联动 ” 可能在肿瘤进展中发挥关键作用, 进一步 强调 了该模型对临床真实样本的强大适应性与生物学洞察能力 。
总的来说, OmicsTweezer 不仅提供了一种强大、统一且可扩展的细胞反卷积工具,还为跨平台组学整合研究提供了新范式。凭借其出色的泛化能力和生物学解释力,这一工具有望成为未来临床转化与基础研究中的有效手段。
俄勒冈健康与科学大学 (OHSU) 的 杨 新星 博士和 赵 法明 博士为论文的共同第一作者 。
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
王俊杰谈郭士强:网上的传言都不是真的,骂我更能证明对我们年轻队员有要求
OPPO Find X8 Ultra 推送 610 版本更新,优化小布建议等
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律
iQOO Z10 Turbo+发布:8000mAh电池配天玑9400+ 售价2199元起