基于多尺度特征融合的药物-药物相互作用预测

0. 摘要

动机:不良药物-药物相互作用(DDIs)是药物研究的重要内容,是药物发病和死亡的主要原因。因此,识别潜在的DDIs对于医生、患者和社会都是至关重要的。现有的传统机器学习模型严重依赖手工特征,缺乏泛化。近年来,深度学习方法能够自动从分子图或药物相关网络中学习药物特征,提高了计算模型预测未知ddi的能力。然而,以往的研究都是利用大量的标记数据,只考虑药物的结构或序列信息,而没有考虑药物与其他生物医学对象(如基因、疾病、通路等)之间的关系或拓扑信息,或者只考虑知识图谱(KG),而没有考虑药物分子结构的信息。

结果:为此,为了有效探索药物分子结构和药物语义信息在知识图中的联合作用,提出了一种多尺度特征融合深度学习模型MUFFIN。MUFFIN可以根据药物自身结构信息和具有丰富生物医学信息的KG共同学习药物表示。在MUFFIN中,我们设计了一个包括跨级和标量级组件的双级交叉策略来很好地融合多模态特征。MUFFIN通过将大尺度KG和药物分子图的特征交叉学习,可以缓解深度学习模型受到的有限标记数据的限制。我们在三个数据集和三个不同的任务评估了我们的方法,包括二分类,多分类,和多标签分类的DDI预测任务。结果表明,MUFFIN的表现优于其他最先进的基线模型。

可用性:源代码和数据可在https://github.com/xzenglab/MUFFIN获得。 # 1. 介绍

药物-药物相互作用(DDI)引起的药物不良反应(ADR)可能会增加发病率和死亡率。因此,识别潜在的DDIs是至关重要的。近年来,有几种方法被用于DDI预测。预测DDI的基本方法是传统的基于实验室的方法。考虑到这些方法是劳动密集型,耗时和昂贵的,发现潜在的DDIs的能力是非常有限的。因此,必须找到准确可靠的计算方法。

机器学习是近年来新兴的计算方法,已被广泛用于预测ddi。现有的基于机器学习的方法通过利用不同的药物相关相似特征,如分子结构,副作用、表型相似性和基因组相似性来预测潜在的DDIs。然而,这些作品在很大程度上依赖于手工特征和领域知识。目前基于深度学习的方法可以在大量数据中自动学习具有高鲁棒性和泛化能力的抽象特征,缓解了传统机器学习的局限性。但是,以往的工作需要大量的标记数据,可能存在假阳性样本。他们通常要么关注药物的结构信息,要么关注SMILES序列,而不考虑与药物相关的丰富语义信息,或利用具有丰富生物医学信息的知识图谱(KG),不考虑药物分子结构信息。

这些方法虽然取得了较强的性能,但没有考虑药物化学结构与KG之间的协同作用,限制了其预测能力。而且,目前的研究大多将DDI预测视为一种二元分类任务,忽略了药物间具体不良反应类型的重要研究,只考虑了药物之间存在相互作用。例如,KGNN确定了药物之间存在相互作用,而在我们的模型中,我们预测了相互作用的具体类型。例如,我们确定阿司匹林是否可能降低戈丝瑞林的排泄率,并可能提高血清水平。

针对上述局限性,我们提出了一种新的多尺度特征融合(multi-scale feature fusion, MUFFIN)模型,一种基于药物化学结构和生物医学KG的DDI预测深度学习框架。我们设计了一个双层交叉策略,可以从基于卷积神经网络(CNN)的交叉和标量层次的视角,共同学习药物内部(化学结构)和外部(KG)特征的融合表示。该双层体系结构通过多粒度特征融合过程,有效结合了多模态特征,提高了DDI预测能力。此外,我们在三种不同的DDI预测任务,即二分类、多分类和多标签任务上评估了MUFFIN模型。实验结果表明,MUFFIN在三个任务中表现最佳,支持了KG的化学结构和知识特征相结合的意义。本文的主要贡献可以总结如下:

我们提出了一种新的基于深度学习的特征融合框架MUFFIN模型,用于二分类、多分类和多标签的DDI预测。它能有效地将从药物分子结构和知识图谱中提取的特征进行整合。

我们引入了一个双层体系结构,包括跨级和标量级模块,它可以融合来自不同粒度的内部和外部特性。(i) Cross-level是对不同特征进行操作,对局部特征(基于CNN)和全局特征进行提取和聚合;(ii)标量级通过元素级特征提取许多细粒度的融合特征。

我们比较了MUFFIN与几种最先进的工作。实验结果表明,我们的工作优于基线在三种不同的DDI预测任务。 # 2. 方法

我们的问题公式总结在2.1节。第2.2节介绍了我们提出的MUFFIN的框架。然后,第3.3节描述了药物表征的生成。3.4节开发了一种双向融合策略,利用结构和药物相关知识信息来进一步学习药物表示。然后,第3.5节说明了如何利用这种表示来准确预测DDI类型。

2.1 Problem formulation

在我们的研究中,我们给出药物集合为D={d1,d2,...,dNd},相应的分子结构图集合为Gdrug={g1,g2,...,gNd},其中Nd为药物的总数。对于二元类预测任务,定义一个DDI矩阵Y,Y中的每个元素表示yij∈{0,1},表示di和dj是否存在相互作用。对于多分类的预测任务,我们考虑所有类型的DDI对(在我们的工作中定义了81种DDI关系)。对于多标签任务,考虑200种不同的DDI类型。 在这里插入图片描述 在这里插入图片描述 ## 2.2 模型概述 MUFFIN的框架如图1所示。我们的框架由三个模块组成。在表示学习模块中,我们采用消息传递神经网络(MPNN)和知识图表示方法(如TransE)分别从分子图和知识图中提取分子结构特征和语义特征。在特征融合模块中,我们设计了一种双层融合策略,包括跨级单元和标量级单元。在跨层单元中,我们将两个特征交叉,然后分别使用CNN和flatten操作学习局部特征和全局特征。在标量级单元中,我们利用元素级产品来获得两个不同特征之间的细粒度交互特征。在分类器模块中,我们将从上述模块中学习到的特征进行连接,然后根据不同的分类任务使用不同的分类器来预测DDIs。接下来,我们介绍我们的框架的细节。

2.3 表示学习模块

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 ## 2.4 特征融合模块 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 ## 2.5 分类模型 在这里插入图片描述 2.6 训练 在这里插入图片描述 在这里插入图片描述 # 3. 结果 实验结果证明模型好。

4. 讨论

在本文中,我们提出了一种新的计算框架MUFFIN,该框架具有一种新颖的多尺度融合策略,用于二分类、多分类和多标签DDI预测任务。它充分利用了从药物分子结构图和生物医学知识图DRKG中提取的特征。所提出的双层策略能有效地结合多模态特征。在三个真实数据集上的实验结果显示了我们模型的有效性。

原论文名称:MUFFIN: Multi-Scale Feature Fusion for Drug–Drug Interaction Prediction