MOLI multi-omics late integration with deep neural networks for drug response prediction

本篇推文引自:MOLI: multi-omics late integration with deep neural networks for drug response prediction

摘要

动机:从历史上看,基因表达被证明是预测药物反应的最有价值的数据。最近的证据表明,整合额外的组学可以提高预测的准确性,这就提出了如何整合额外的组学的问题。无论采用何种整合策略,临床效用和可转化性都是至关重要的。因此,我们推断多组学方法结合临床数据集将提高药物反应预测和临床相关性。

结果:提出了一种基于深度神经网络的多组学后期集成方法MOLI。MOLI以体细胞突变、拷贝数畸变和基因表达数据为输入,将其整合用于药物反应预测。MOLI使用特定类型的编码子网络来学习每种组学类型的特征,将它们连接成一个表示,并通过由三重损失(triplet loss)和二进制交叉熵损失组成的组合损失函数来优化这种表示。前者使药物应答者样本的表示更加相似,与药物无应答者样本的表示更加不同,后者使应答值的表示具有预测性。我们在5种化疗药物和2种靶向治疗药物的体内外数据集上验证了MOLI。与最先进的单组学和早期整合多组学方法相比,MOLI在外部验证中获得了更高的预测精度。此外,当针对泛药物输入进行训练时,即使用具有相同靶标的所有药物,而不是仅针对特定药物输入进行训练,可以观察到针对性药物的MOLI性能有显著提高。MOLI的高预测能力表明它可能在精准肿瘤学上有应用价值。

可用性和实现: https://github.com/hosseinshn/MOLI。

1. 介绍

精准肿瘤学是利用基因组数据为单个癌症患者量身定制治疗方案。

药物反应研究的一个关键挑战是临床效用,即研究结果是否可转化为实际患者。理想的实现可转化性,计算方法应该被训练在体内数据,然而,体内数据如癌症基因组图谱(TCGA)数据集没有足够的病人记录与药物反应信息,特别是与细胞系GDSC等数据集,他们不报告对多种药物的反应。在硅酮药物反应预测中,在最简单的情况下,可转化性意味着一个对体外数据有良好性能(如预测精度高)的模型应该对体内数据也有良好的性能。

大多数研究表明,基因表达数据是预测药物反应最有效的数据类型,尽管基因表达具有预测能力,但添加其他组学数据类型可以提高预测能力,特别是在泛癌模型中。

多组学数据提供了具有相同样本不同类型数据的机器学习模型,有望更好地表征生物过程。对于药物反应预测,Ding等人提出了一种将突变、CNA和基因表达数据连接起来的方法,并应用自编码器来学习连接多组细胞系数据的特征。学习到的特征作为弹性网络分类器的输入,预测二值化的IC50值。我们注意到,该分类器仅在CCLE细胞系上进行了验证,而没有研究其对患者或PDX模型的可转化性。

多组学数据分析的一个关键挑战是如何整合不同类型的数据。多组学整合主要有两种方法:早期整合和晚期整合。在早期集成中,首先将样本可用的所有组学数据类型连接起来,然后通过对该表示应用一些特征学习方法(如自动编码器创建样本的集成表示。早期整合有三个缺点:第一,它忽视了每种组学数据类型的独特分布。其次,它需要适当的规范化,以避免给予具有更多维度的组学数据类型更多的权重。第三,它进一步增加了输入数据的维度,这通常已经是单组学输入数据的一个挑战。在后期集成中,对每种组学数据类型分别学习特征,然后将这些特征集成到一个统一的表示中,作为分类器或回归器的输入。该方法的优点是它适用于每种组学数据类型的唯一分布,可以对每种数据类型采用单组学规范化,并且不增加输入空间的维数。

本文探讨了药物反应预测问题,提出了一种基于深度神经网络的多组学后期集成方法MOLI。MOLI以体细胞突变、CNA和基因表达数据为输入,预测对特定药物的反应为输出。MOLI通过特定类型编码子网络学习每种组学数据类型的特征,并将学习到的特征有效地连接起来。据我们所知,MOLI是第一种带有深度神经网络的端到端后期集成方法,通过由三重损失函数(triplet loss)和二元交叉熵损失函数组成的组合成本函数来优化这种表示。MOLI的另一个贡献是使用迁移学习来增加训练数据集的大小。它针对泛药物输入(使用具有相同靶标的所有药物),而不是针对特定药物输入,训练药物反应模型。图1说明了MOLI的工作流程。

2. 材料和方法

2.1 MOLI

MOLI是一种深度神经网络,它预测药物对给定样本的反应。MOLI假设每种组学数据类型都提供了相同基因的值。MOLI网络由以下子网组成。它有多个前馈编码子网络,每个输入组学数据类型对应一个。每个编码子网络接收相应的组学数据,并将其编码到一个学习到的特征空间中。从编码子网络中学习到的特征通过连接集成到一个表示中。串联的表示法作为分类子网络的输入,预测药物的反应。整个网络以端到端的方式训练,使用结合分类损失和三组损失(triplet loss)的代价函数。图1显示了在训练和模型开发期间MOLI的组件,而图2A显示了MOLI用于外部验证的应用。 在这里插入图片描述 在这里插入图片描述 ### 2.1.1 通过编码子网络学习特征

为了学习输入中每种组学数据类型的特征,我们设计了单独的编码前馈子网络,将输入空间映射到特征空间。在这篇论文中,我们主要关注体细胞突变、拷贝数变异(CNA)和基因表达数据。XM, XE和XC分别表示突变,CNA和基因表达数据,他们每个的维度都为N×D,其中N是样本的数量和D是基因的数量。每个编码子网络都有一个具有整流线性单元(ReLU)激活功能的全连接层。此外,每个子网络使用dropout对模型进行正则化,使用batch归一化对训练过程进行增强。每个编码子网络的输入是一种组学数据类型,输出是该组学的特征(图1B)。

2.1.2 通过后期整合来整合学习到的特征

在集成步骤中,我们采用了一种后期集成方法,将不同单组学数据类型的学习特征连接起来,得到一个多组学表示。例如,如果三个编码的输出子网是3 个M ×N特性矩阵,连接后,输出将1 个M×3 N 特征矩阵。集成的表示通过l2归一化层进一步平滑。我们表示MOLI集成接收多组学数据作为输入,并返回综合特征表示,如下:: 在这里插入图片描述

2.1.3 结合成本函数优化学习到的特征

学习到的特征将被预测药物反应的分类器使用。因此,MOLI的最后一个子网络是一个具有Sigmoid激活函数的分类层,使用dropout和weight衰减进行正则化(图1C)。我们表示这个分类器为g(.)。由于将使用MOLI网络进行分类,即药物反应预测,因此用于训练的成本函数必须包含一个术语来衡量预测的药物反应与真实药物反应之间的差异。我们选择二值交叉熵分类损失,这是最常见的分类损失之一,定义如下: 在这里插入图片描述 Y(N×1维的0,1向量)表示关键IC50(一种药物反应度量)。我们增加了一个三重损失(triplet loss)的代价函数,以强加一个进一步的约束。这种约束迫使药物响应者之间比不响应者更相似。使用的三重损失函数如下。给定T个三元组形式的描述(Anchor,Positive,Negative),前两个是对某一种抗癌药物有反应的细胞系(多组学数据),最后一个是对该药物无反应(多组学数据),我们需要以下条件:d(F(Anchor),F(Positive))≤d(F(Anchor),F(Negative)),d()是一个任意的距离函数,本文使用欧氏距离。移项得到: 在这里插入图片描述 对于triplet loss,一般有两种选择方法:离线选择和在线选择。离线选择在训练模型之前根据标签的值(在本例中是药物反应)构建三元组。在线选择在训练过程中从每个小批量样本中选取三元组。我们采用了在线方式。可以基于所有可能的输入样本/小批量组合(软选择),也可以仅基于三组损失值高的三元组(硬选择)。软选择为模型提供了更多的训练三元组,但网络可能过于依赖简单的样本,从而可能无法很好地处理困难样本。硬选择方法解决了这一问题,它只依赖于训练数据中的困难案例来构建三元组,但这种方法可能会有训练三元组较少的问题,特别是在小的不平衡数据集的情况下。我们采用了软选择方法。

在这里插入图片描述 ## 2.2 靶向药物的迁移学习 对于靶向药物,我们使用迁移学习,用新的泛药物输入训练MOLI。这种泛药物输入包括针对同一途径或分子的一系列靶向药物的多组学和药物反应。这些药物有望在细胞系中产生高度相关的反应。一个MOLI模型是针对一组药物训练的,而不是针对每一种药物的单独模型。这种方法增加了训练数据集的大小,因为筛选的细胞系的集合和获得的反应是相似的,但不完全相同的药物的一个家族。在我们的实验中,由于外部验证数据的可用性,我们对EGFR通路抑制剂的迁移学习进行了评估,但该方法适用于任何靶向药物家族。图2B说明了靶向药物迁移学习的概念。

2.3 预测TCGA患者的药物反应

为了研究MOLI的表现,与Geeleher等人(2017)类似,我们使用针对EGFR抑制剂的泛药物输入训练的模型,在几个没有记录药物反应的TCGA数据集中预测患者的药物反应。由于这些药物靶向EGFR通路,我们预计该通路基因的表达状态与预测的药物反应密切相关。我们从反应组中获得了EGFR通路的基因列表。为了研究相关关系,我们采用多元线性回归的预测反应和表达水平。我们获得每个基因的p值,并使用Bonferroni校正(1 / 4 0:05)对其进行校正以进行多次比较。

2.4 数据集

我们在本文中使用了四个数据源: GDSC细胞系数据集(Iorio等人,2016)。 PDX百科全书数据集(Gao et al., 2015)。 TCGA患者的记录中有药物反应(Ding et al., 2016)。 TCGA患者的记录中无药物反应(Weinstein et al.,2013)。 # 3. 结果 MOLI的多组学整合提高了药物反应性能

靶向药物迁移学习能显著提高学习效果

MOLI对TCGA患者的预测与EGFR基因相关 # 4. 结论

本文提出了一种基于深度神经网络和MOLI的药物反应预测方法MOLI。我们在泛癌细胞系数据集上训练MOLI,并在PDX和5种化疗药物和2种靶向治疗的患者数据上成功地验证了MOLI。

我们的研究结果显示了四个主要发现:

MOLI在AUC和精确召回曲线下面积方面优于单组学(基因表达)预测性能。

MOLI在AUC和精确召回曲线下面积方面优于使用早期积分的深度神经网络。

MOLI的综合成本函数优于单组学和多组学基线,只有分类损失。

MOLI训练的泛药物输入,采用迁移学习,优于MOLI训练的针对EGFR的靶向治疗药物特异性输入。

最后,我们分析了MOLI的生物学意义,发现MOLI预测的反应与乳腺癌、肾癌、肺癌和前列腺癌TCGA患者EGFR通路中许多基因的表达水平具有统计学意义的相关性。