ProteinTalks:蛋白组学上的扰动基础模型

构建虚拟细胞需要全面了解细胞的蛋白质网络动态,这就需要大规模的扰动蛋白质组数据,以及从蛋白质组数据集中学习得到的智能计算模型。在此,西湖大学的科学家生成了一个包含超过3800万条乳腺癌细胞系中受扰动蛋白质测量值的大规模数据集,并开发了一种基于神经常微分方程的基础模型,即ProteinTalks。在预训练过程中,ProteinTalks对细胞蛋白质网络动态有了基本的理解。模型在各种下游任务中预测准确性可以不断提高。在癌细胞研究中,ProteinTalks能够可靠地预测药物疗效和协同作用,识别新的药物组合,并通过其可解释性揭示与耐药相关的蛋白质。总的来说,这里提出了一个基于蛋白质组的基础模型,为包括药物发现在内的各种下游应用提供了潜力,并为开发虚拟细胞奠定了基础。

来自:A perturbation proteomics-based foundation model for virtual cell construction

背景概述

蛋白质网络对于理解细胞生物学和疾病机制至关重要,它能为疾病进展提供见解,并为治疗策略提供依据。然而,与转录组数据相比,大规模的蛋白质组数据,尤其是包含动态信息的数据,仍然极其匮乏。其次,在药物研发中,不考虑蛋白质的网络背景而仅针对特定蛋白质进行研究,可能会导致疗效有限或产生意外的副作用。因此,对蛋白质组动力学进行系统的分析和建模,对于识别新的药物靶点、设计更有效和精准的治疗方法,以及最终开发出全面的虚拟细胞模型至关重要。

扰动蛋白质组学为解析复杂的蛋白质网络动态提供了强有力的方法,通过揭示药物作用机制(MOAs,Mechanisms of action)助力药物研发。随着质谱技术(DIA-MS)推动高通量蛋白质组学的发展,如今生成大规模扰动蛋白质组学数据集已成为可能,这为利用大规模预训练技术描述蛋白质动态空间奠定了基础。

科学家们利用基于96孔板的高通量平台,用临床相关药物及其组合对乳腺癌细胞系进行扰动,随后获得了超过3800万条受扰动的蛋白质测量数据,以及细胞形态数据。基于这个大规模的蛋白质组数据集,进一步开发了一个名为ProteinTalks的基础模型,该模型基于常微分方程(ODE)网络,用于预测受扰动的蛋白质组,进而扩展到识别与药物疗效相关的关键蛋白质,并描述药物处理后的细胞反应。由于动态信息被明确整合到模型架构中,模型在细胞系、小鼠模型和患者的多个下游应用中展现出了出色的泛化性和适应性。其次,模型纳入了时间维度,这将启发构建跨时空的虚拟细胞模型。

生成扰动蛋白组数据

作为概念验证,并为了与药物开发直接相关,该研究聚焦于癌细胞系,尤其是乳腺癌细胞。选择了16种常用的三阴性乳腺癌(TNBC)细胞系和2种非三阴性乳腺癌细胞系。还收集了63种经美国食品药品监督管理局(FDA)批准、常用于乳腺癌临床治疗的小分子药物,这些药物被分为3个主要类别和20个子类别,它们涉及多种信号通路。基于先前的药物组合筛选研究,该研究从18种常见的乳腺癌细胞系中选取了914个药物组合-细胞系 tuples。每对药物组合中,一种药物设置两种不同浓度,以使每种细胞系的细胞存活率达到50-90%,另一种药物则采用单一浓度。此外,纳入了98种抗癌化合物,这些化合物有的已获得FDA批准,有的正在进行临床试验,还有的正在针对乳腺癌、胰腺癌、结肠癌和肺癌进行研究。

用63种经美国食品药品监督管理局(FDA)批准的药物,分别对18种细胞系处理6小时、24小时和48小时,每种处理设置3个重复样本。为了进行质量控制,随机选取约10%的样本进行重复检测。通过分析多个对照样本,评估并校正样本制备和质谱(DIA-MS)分析过程中产生的批次效应。最后总共获得了16311个扰动蛋白质组DIA-MS数据文件,得到了超过3800万个高质量的受扰动蛋白质测量数据。通过DIA-NN分析,这些数据实现了5530个蛋白质组的相对定量,对应5143种独特的蛋白质。所得的蛋白质组数据集被称为ProteinTalks数据集(PTDS),可在db.prottalks.com上获取。

开发动态的基础模型

科学家们建立了一个动态基础模型即ProteinTalks,通过将常微分方程(ODE)与感知扰动的神经网络相结合,实现对蛋白质网络动态的系统理解。该模型包含两个模块(图3A)。
fig3a

  • 图3A:ProteinTalks的架构。将未经处理的细胞系的基线蛋白质组和药物靶点列表编码到ProteinTalks(一种线性网络)中,以预测受扰动的蛋白质组,然后对其进行解码。接着,将第一个模块预测的蛋白质组输出,与初始时间点的蛋白质组数据以及从SMILES描述符获得的药物特征一起,通过一个线性层进行处理,以预测与药物反应相关的关键蛋白质,以及单一药物或药物组合的有效性。

第一个模块整合了未经处理的细胞系的基线蛋白质组数据和药物靶点。通过编码器,训练模型预测多个时间点的扰动蛋白质组。然后将这些预测结果与实际的蛋白质组数据进行比较,计算均方误差(MSE)损失,称为Loss1,该模块存储蛋白质网络动态信息。在第二个模块中,预测的扰动蛋白质组与这些药物的结构相结合,包括881维药物分子指纹(DMF)、55维药物物理化学性质(DDP)以及63种药物的61个靶点,通过MLP学习细胞对各种扰动因素的反应以及与药物反应相关的核心蛋白质。

在图3A中,ProteinTalks模型有3种输出,分别用于预测扰动蛋白质组、确定关键蛋白质以及评估药物效果,为药物研发和理解细胞对药物反应提供了多方面的信息。

  1. 预测扰动蛋白质组:将未经处理的细胞系的基线蛋白质组和药物靶点列表编码到ProteinTalks模型中,经过一系列计算,预测出受扰动的蛋白质组。这一输出通过模型架构中的线性网络和相关计算步骤实现,其意义在于模拟药物等扰动因素作用下细胞内蛋白质组的变化情况,帮助研究人员了解蛋白质网络在外界干预下的动态响应,为后续分析药物对蛋白质的影响奠定基础。
  2. 预测与药物反应相关的关键蛋白质:把第一个模块预测的蛋白质组输出,与初始时间点的蛋白质组数据以及从简化分子线性输入规范(SMILES)描述符获得的药物特征一起,通过线性层处理,预测与药物反应相关的关键蛋白质。这些关键蛋白质在药物发挥作用的过程中起着重要作用,它们的确定有助于揭示药物的作用机制,为精准药物研发提供潜在的靶点,提高药物研发的针对性和有效性。
  3. 预测单一药物或药物组合的有效性:同样基于上述输入数据和处理过程,模型还能预测单一药物或药物组合的有效性。这一输出对于评估药物疗效、筛选有效的药物组合具有重要意义,能够在药物研发过程中减少不必要的实验和资源浪费,加速新型药物和药物组合的开发进程,为临床治疗提供更有效的用药方案。

为什么使用NeuralODE

Neural ODE(Neural Ordinary Differential Equations,神经常微分方程) 是一种将神经网络与常微分方程(ODEs)结合的方法,用于建模连续动态系统。它的核心思想是用 ODE 来描述神经网络的变换过程,而不是传统的离散层。以下是 Neural ODE 的建模步骤和实现细节。

在传统神经网络中,数据通过一系列离散的层进行变换:

h t + 1 = h t + f ( h t , θ t ) \mathbf{h}_{t+1} = \mathbf{h}_t + f(\mathbf{h}_t, \theta_t) ht+1=ht+f(ht,θt)

而在 Neural ODE 中,这种变换被建模为连续动态:

d h ( t ) d t = f ( h ( t ) , t , θ ) \frac{d\mathbf{h}(t)}{dt} = f(\mathbf{h}(t), t, \theta) dtdh(t)=f(h(t),t,θ)

其中:

  • h ( t ) \mathbf{h}(t) h(t) 是隐藏状态。
  • f f f 是一个神经网络,定义了状态的变化率。
  • θ \theta θ 是神经网络的参数。

通过求解这个 ODE,可以得到从初始状态 h ( 0 ) \mathbf{h}(0) h(0) 到最终状态 h ( T ) \mathbf{h}(T) h(T) 的连续变换。可以想象,如果用常见的网络模拟时许, t t t可能是离散的(比如LLMs自回归),或者添加输入连续时间信号的编码器,把 t t t编码为embedding,但可能不是最优雅的方式。不如像ODE一样直接在模型设计上就是连续的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值