带有社区检测算法的多标签学习方法预测药物靶点相互作用(DTI-MLCD)

1. 摘要

确定药物-靶标相互作用(DTIs)是药物发现和药物重新定位的重要步骤。为了大大降低实验成本,蓬勃发展的机器学习被应用到这个领域,并发展了许多计算方法,特别是二分类方法。然而,目前的方法在性能上还有很大的改进空间。多标签学习可以减少二分类学习所面临的困难,并且具有很高的预测性能,目前还没有得到广泛的探索。它面临的关键挑战是指数大小的输出空间。本篇文章引入DTIs预测的社区检测方法DTI-MLCD来促进多标签分类。此外本文更新了2008年提出并至今仍在使用的黄金标准数据集。本文提出的DTI-MLCD方法在更新前后对黄金标准数据集进行了测试,结果表明该方法优于其他经典机器学习方法和其他基准测试方法,验证了该方法的有效性。本研究的数据和代码可以在https://github.com/a96123155/DTI-MLCD找到。 # 2. 介绍 对于药物开发而言,药物发现(即发现潜在新药)和药物重新定位(即获得具有新疗效的老药)是两项成本高昂的重要策略,而预测DTIs是实现这两项策略的重要一步。近年来,许多研究应用流行的机器学习技术来实现智能医疗,在一定程度上加快了药物开发的进程。对于DTIs预测,使用机器学习技术不仅可以缩小实验研究的实验范围,而且可以对实验研究起到指导作用。

本文提出了DTIs预测的多标签学习与社区检测方法(DTI-MLCD),并在4个原始和更新的黄金标准数据集上进行了测试。提出的DTI-MLCD算法首先使用社区检测算法将目标空间划分为多个子空间,然后在每个子空间上应用多标签学习,最后进行DTIs预测。

3. 材料和方法

3.1 问题描述

本研究将DTIs预测问题分为两个子任务:(a)药物发现,预测新药,命名为TD;(b)药物重新定位,预测新的靶点,命名为TT。这两个任务被认为是多标签分类问题,如下所述。

对于任务TD,假设X D=Rd和 YT = {y1,y2,..., yp}分别表示d维药物实例空间和具有p个可能靶标的标签空间。这个任务是从多标签训练集D = {(x~D, i,yT, i~) |1≤i≤m}中学习一个函数f: X D→2YT,其中m为样本数。对于每个样本(xD,i,yT,i), xD,i∈XD,它是d维特征向量,yT,i∈YT是与xD,i相关的标签集。药物测试集的实例,多标签分类器f()⋅预测正确的标签。任务TT可以通过类比来定义。

3.2 数据集

Yamnishi_08源自KEGG BRITE、BRENDA、SuperTarget和DrugBank数据库。它由四个DTI数据集组成。这些数据集根据蛋白靶点的不同而不同,分别是核受体(NR)、g蛋白偶联受体(GPCR)、离子通道(IC)和酶(E)。为了更新这些数据集,使用KEGG BRITE、UniProt和DrugBank数据库收集新药物、新靶点和新DTIs。该步骤分为两个部分:数据集成和数据清理。通过网络爬虫技术实现数据集成。首先从KEGG BRITE数据库中获取4类靶点对应的DTI数据,并与Yamanishi_08合并。然后,使用UniProt数据库作为KEGG BRITE和DrugBank的连接数据库,对上一步得到的每个靶点搜索DrugBank数据库,添加KEGG BRITE和Yamanishi_08中没有的药物和相应的DTIs。其次,逐一搜索所有已知药物,最大化现有药物和靶点的DTI完整性。在得到整合后的数据后,删除了无用的、无效的、多余的数据,包括非小分子药物、混合药物、相同或未知结构的药物,以及结构端基未知的药物。更新数据集中的所有药物均为已批准的药物。表1显示了原始黄金标准数据集和新更新的四个数据集的一些统计信息。

在这里插入图片描述

使用Yamanishi et al.编译的四组数据集作为基准来评价所提出的DTI- CDF方法在DTI预测中的性能。这四个数据集根据药物的靶蛋白类型进行分离和命名:酶(E)、离子通道(IC)、g蛋白偶联受体(GPCR)和核受体(NR)。为了更实际地模拟,考虑这四个数据集中DTIs的整个空间。已知的DTIs被认为是阳性样本,阴性数据包含所有未知的或不存在的DTIs。值得注意的是,正样本的数量远远小于负样本的数量。因此,这四个数据集严重不平衡,如表1所示。

在这里插入图片描述 ## 3.3 特征构造 ### 3.3.1 药物表示 许多特征可以用于描述药物,一般可分为两类:分子描述符(MDs)和分子指纹(MFs)。为了探索最适合本研究的药物表示,本文使用DTI预测中常用的一些开源工具来生成MDs和MFs。对于不同软件生成的MDs或MFs,本研究将其视为不同的药物表征。本研究使用的工具有CDK、Pybel、RDKit和PaDEL。由上述工具生成的MDs称为MD_CDK、MD_PYB、MD_RDK和MD_PAD。它们的大小分别为275、24、196和1875。此外,将这四种类型的MDs组合为一种新的MDs,称为MD_MER。目前,MFs通常分为三类:(a)基于拓扑路径的指纹。(b)拓扑圆形指纹;(c)基于子结构密钥的指纹。除了MDs和MF之外,还使用了受word2vecm启发的特性(W2V),它从drug SMILES中提取单词信息。

进一步,将上述三种特征进行特征组合,因为这三种特征之间的互补性可能有助于提高性能。在这个过程中,融合特征选择,得到干净、互补性强、冗余少的组合特征。

3.3.2 靶点表示

本研究使用了DTIs预测研究中常用的三种目标序列衍生表示法。第一个是Composition, Transition, and Distribution (CTD),用PROFEAT web server获得的504维特征向量表示。第二种是PROFEAT生成的1437个默认蛋白质描述符,名为PRO。除CTD外,还包括氨基酸组成、二肽组成、自相关、准序列、两亲性伪氨基酸组成和氨基酸总性质。第三种是蛋白质结构域指纹(PDF),它是从PFAM v31.0数据库中提取的。对于不同的数据集,提取了不同数量的域。NR、GPCR、IC和E中目标的特征向量维数分别为30、61、1404和2182。

3.4 方法

传统的有监督学习可以看作是多标签学习的退化版本,因为每个样本都被限制为只有一个单一的标签。然而,多标签学习的普遍性使得算法的设计更加困难。指数大小的输出空间是学习的核心问题,即m个标签有2m个可能的标签集。利用标签相关性或执行标签空间划分可以帮助解决这个问题。为此,本研究运用社交网络中的社区检测方法对标签空间进行划分。然后,每个划分的标签子空间对应一个多标签学习子问题,并将多个多标签分类器连接起来覆盖整个标签空间。基于随机森林的简单性、并行性和优越的性能等特点,应用的基本学习器是随机森林。在本节中,将介绍多标签学习和社区检测的典型算法。所提出的DTI-MLCD方法的执行步骤如图1所示。

在这里插入图片描述

3.4.1 多标签学习算法

多标签分类学习算法在过去10年经历了一次大爆炸。下面是一个简单的分类。

第一类是自适应方法,通过对已有算法进行数据拟合,直接对多标签数据进行处理。代表性算法是多标签k-最近邻(Multi-Label k-Nearest Neighbor, MLkNN)[93]。MLkNN是一种基于传统k近邻的惰性学习方法。目前广泛应用于多标签分类预测任务中,并取得了令人满意的结果。第二类是问题转换方法,它通过将数据拟合到已有的算法中,将多标签学习问题转化为另一种学习技术。二值相关性(Binary Relevance, BR)、分类器链(Classifier Chains, CC)和标签Powerset (Label Powerset, LP)是这类算法的代表。BR将多标签学习问题转化为多个独立的二值分类问题,其中一个二值分类器对应一个标签。该方法假设标签是相互独立的,每个分类器只能识别与一个标签相关的特征,不能识别与所有标签相关的特征。因此,在现实中,它在许多领域都是无效的,这也是BR的局限性。基于BR提出了CC,并考虑了标签相关性。它将多标签学习问题转化为一系列二值分类问题。其主要思想是将之前所有分类器的标签添加到下一个训练集的特征向量中,并传递给下一个分类器。显然,标签的顺序对预测结果有很大的影响。然而,分类器在分类器链中的顺序总是随机的。与BR和CC不同,LP将多标签学习任务转换为多类或单标签分类任务。换句话说,LP对标签的联合分布进行了建模。它将多标签训练集中的每个标签子集作为一个多类别任务的一个类别,预测将是这些子集之一。LP虽然简单,但存在两个不切实际的问题,容易导致过拟合。一个是不完备。它只能预测训练集中出现的标签集,而不能预测其他的标签集。另一个是低效率。随着标签数量的增加,由于标签子集数量的增加,以及每个类或子集的样本高度不平衡,可能会面临较高的复杂性。

为了克服LP算法的缺点,同时保持其简单性,提出了将标签空间划分为多个子空间,并将LP算法应用于这些子空间的思想,可视为集成学习与LP的结合。这就是随机k-标签集(RAkEL)的设计原则。RAkEL将整个标签集随机划分为多个size-k标签子集,并在每个标签子空间上实现LP,以保证计算效率。然后对多个LP分类器进行集成,以保证预测的完整性。但是RAkEL的一个明显的缺点是采用了随机划分策略,使得标签相关性仅由k来控制,没有考虑训练数据。

为了从信息的角度考虑标签之间的相关性,本文采用了数据驱动的聚类算法来代替随机划分策略。此外,在多标签分类问题中,数据驱动方法优于随机选择方法。特别是社区检测方法已经很好地应用于多个基准数据集进行多标签学习,它以数据驱动的方式划分标签空间。因此,本研究探讨五种经典的社区检测算法在DTIs预测中的应用。

3.4.2 执行社区检测

社区检测是在复杂网络结构中发现紧密连接的社区结构,即发现网络中节点的簇。在本研究中,使用社区检测方法的目的是用数据驱动的方法来划分标签空间。为此,采用基于训练数据构造加权共现图的社区检测方法。

3.4.2.1 构造加权标签共现图

定义加权无向共现图,顶点表示标签集,边表示在训练标签集中至少一起出现一次的标签对,分配给每条边的权值定义为同时拥有两个标签的样本的数量。加权标签共现图可视化见图1 (a)、(b)。

3.4.2.2 社区检测算法

infomap算法(IMA)认为,良好的社区划分应该使流的平均描述长度最短。通过计算映射方程的最小值对图进行划分,其中映射方程对应于划分所对应的信息描述的长度。

基于模块的方法是社区检测算法的一个重要分支。它通过最大化模块化来实现标签空间划分。模块化是描述社区划分质量的一种方法。一个较好的分区在社区中具有较高的相似性。然而,找到模块化的最大值是np困难的,所以我们使用三种基于近似的技术来代替。

快速贪婪算法(FGA)是基于模块化最大化搜索的贪婪算法,从单个实例迭代合并社区。在每次迭代中,该方法合并两个社区,以实现对模块化的最大贡献。当当前社区的模块化值不再随着社区的合并而增加时,将其定义为聚合。

多级算法(multi-level algorithm, MLA)是一种自下而上的算法。在开始时,每个顶点都是一个独立的社区,顶点通过最大化顶点对整体模块化的局部贡献,在社区之间迭代移动。当模块化程度不增加时,原始图中的每个社区会收缩到一个顶点,同时保持相邻边的总权值,然后进入下一层。当社区缩小到顶点并且模块性不再增加时,算法将停止。

除了基于模块的算法外,还使用了另外三种关于流的算法。

标签传播算法(LPA)基于图半监督学习算法,通过标签的扩散来模拟流量在网络上的扩散。在图中,每个顶点被分配一个唯一的标签。接下来,每个顶点的标签被迭代更新,大多数标签被分配给元素的邻居。每个迭代的更新顺序是随机的。该算法的收敛准则是所有顶点标记与其邻域内最频繁标记一致。

walk trap算法(WTA)是一种基于随机游动的自底向上方法。一种直观的感觉是,在图上进行随机漫步时,很容易陷入图的密集连接,可以看作是一个共同体。将每个节点视为一个社区,计算所有边缘相连的社区之间的随机行走距离或流动距离。然后,取两个连通且随机行走距离最短的社区合并,重新计算社区之间的距离,然后迭代,直到所有节点都被放入同一个社区。

infomap算法(IMA)认为,良好的社区划分应该使流的平均描述长度最短。通过计算映射方程的最小值对图进行划分,其中映射方程对应于划分所对应的信息描述的长度。

3.5 性能评估

多标签学习的性能评价指标比二值分类复杂得多。在前人研究的基础上,本研究采用AUC和AUPR作为绩效评价指标。便于与其他方法进行比较。值得注意的是AUPR作为对高不平衡数据的假阳性实例的严厉惩罚是更可靠的度量。因此,本文的讨论集中在AUPR上。

3.6 分层交叉验证

交叉验证是模型选择的一种典型方法。对于多标记数据,许多标签类不平衡特征,每个数据集都有大量的标签集,和大多数标签集只包含少量的样品(表2)。在这种情况下,标准的交叉验证中使用的随机划分策略可能会导致一些标签没有阳性的样本子集的划分。这样的子集不仅会影响模型的精度,还会造成计算误差。

为了克服上述困境,交叉验证中的分层抽样策略被证明是一种解决方案,称为分层交叉验证(stratified cross-validation, SCV)。此外,从统计推断的角度来看,10倍SCV被证明是模型选择的最佳方法。为了保证结果的可信度,使用不同的随机种子在10倍SCV上进行了5次模拟。

4. 结果和讨论

4.1 选择药物表示

对于不同的数据集,最合适的药物表示方法是不同的。

对于不同的数据集,本研究选择AUPR最好的药物表示作为特征向量。NR和GPCR使用MF_EC4, IC和E使用MF_EC4和MD_MER的组合。

4.2 选择靶标表示

采用和药物一样的策略,即没有最好的目标表示方法,只有在特定情况下最合适的特征表示。因此,我们也比较了4个更新数据集下的靶标表示方法,并根据AUPR为每个数据集选择最合适的特征。

在数据集上的测试结果表明,文章提出的方法与现有的多标签分类算法的效果相当或更好。

5. 结论

本研究更新了金标准数据集Yamanishi_08,提出了用于DTIs预测的DTI-MLCD,这是一种新的基于社区检测的多标签学习框架。该框架具有5个有效模型,对应5种社区检测算法进行标签划分。本研究对金标准数据集进行了更新前后的实验。在原始数据集上,将DTI-MLCD与其他基准测试方法进行了比较,验证了该方法的优越性。在更新后的数据集中,DTI-MLCD优于其他经典机器学习算法。此外,本研究还构建了新的和旧的数据集的独立测试。另一方面,本框架中使用的五种社区检测算法的结果没有显著差异。此外,它们在性能和可解释性方面优于基准的k-means算法。

原论文名称:Predicting drug-target interactions using multi-label learning with community detection method (DTI-MLCD)