DTI-CDF一种基于混合特征预测药物靶点相互作用的级联深层森林模型
1. 摘要
药物靶标相互作用(DTIs)在靶向药物的发现和开发中起着至关重要的作用。DTIs的计算预测可以有效地补充湿实验室技术对DTIs的识别。然而,现有的DTI预测方法存在精度低、假阳性率高的问题。本文提出了一种基于级联深度森林模型的预测方法,命名为DTI-CDF。在实验中,本文在三种不同的数据集实验设置下构建了5个重复的10倍交叉验证。实验结果表明,本文提出的DTI-CDF方法比传统的基于集成学习的方法如随机森林和XGBoost、深度神经网络以及最新的DDR方法取得了显著的性能提升。此外,有1352个新预测的DTIs被KEGG和DrugBank数据库证明是正确的。数据集和源代码可以在https://github.com//a96123155/DTI-CDF免费获得。 # 2. 介绍 药物发现是确定具有潜在治疗作用的新候选化合物的过程,而药物靶标相互作用的预测是药物发现过程中必不可少的一步。由于DTIs的实验测定既费时又耗费资源,因此开发高效的计算方法是很有必要的,可以充分利用已知DTIs的异质性生物学数据来了解药物在人体内的作用机制。
化学基因组方法是一种用于预测DTIs的有效方法,该方法可分为两大类求解策略:基于网络的方法和基于机器学习的方法。在基于机器学习的方法中,DTI预测问题被表述为预测一个药物靶点对是否为DTI的二分类任务。一方面,药物和靶标的信息被表示为特征,药物和靶标之间的相互作用被表示为类标签。另一方面,利用双核函数将相互作用网络推理问题转化为药物-目标对之间的二分类任务。
受前人研究的启发,本文开发了基于级联深层森林(CDF)的模型,以进一步提高DTIs的预测性能。在该方法中,首先利用基于DTIs异构图的基于路径分类的多相似度特征(PathCS)。然后,将CDF模型应用于三种实验设置下,在四个具有代表性的数据集中通过5次重复的10折交叉验证,使用AUPR、AUC和F2-score指标及其平均值进行性能评价。此外,使用统计假设检验来评估结果的统计显著性。最后,验证所提出的DTI-CDF方法明显优于传统的基于集成学习的方法,如随机森林(random forest, RF)和XGBoost (XGB),基于深度学习的方法如深度神经网络(deep neural network, DNN),以及现有的先进方法(如DDR[79])。此外,该方法预测了1352个新的DTIs,这些DTIs都得到了KEGG和DrugBank数据库的支持。
3. 材料和方法
3.1 数据集
使用Yamanishi et al.编译的四组数据集作为基准来评价所提出的DTI- CDF方法在DTI预测中的性能。这四个数据集根据药物的靶蛋白类型进行分离和命名:酶(E)、离子通道(IC)、g蛋白偶联受体(GPCR)和核受体(NR)。为了更实际地模拟,考虑这四个数据集中DTIs的整个空间。已知的DTIs被认为是阳性样本,阴性数据包含所有未知的或不存在的DTIs。值得注意的是,正样本的数量远远小于负样本的数量。因此,这四个数据集严重不平衡,如表1所示。
## 3.2 特征构造 PathCS是一种基于DTIs的异构加权图的混合特征,包含药物、靶点及其相似性或相互作用。在此图中,两个靶点节点或两个药物节点之间的边表示它们的相似性,边的权值为两个链接节点之间的相似性值。目标与药物之间的边为已知DTI,权值为1。
本研究中用于生成药物和靶点相似性图谱的内核有六种,定义如下:
1.蛋白质内核。 2.药物内核(3种)。 3.高斯相互作用剖面(GIP)内核。 4.基于邻域交互-profile推断。

得到上述相似性测度后,第一步是将药物(或靶标)的多个相似性测度合并为一个融合矩阵,构建异构DTIs图,然后提取每个药物靶标对的PathCS。路径类别由路径结构定义,该路径结构从药物节点开始,到靶点节点结束,例如将路径长度设置为2或3。路径分类如下: 药物-药物-靶标 药物-靶标-靶标 药物-药物-药物-靶标 药物-药物-靶标-靶标 药物-靶标-药物-靶标 药物-靶标-靶标-靶标
根据上述六类路径Ch, h = 1,2,···,6,定义了两个归一化矩阵Nh1和Nh2。对于特定药物di和特定靶标tj,将di到tj的一条路径表示为pq,路径集合为Rijh。此外,di和tj之间的路径由中间节点构建,中间节点被限制为di和tj的五个最近邻。Nh1和Nh2分别具有元素nh1(i,j),元素nh2(i,j),他们的计算方式如下: ## 3.3 分类算法
首先,生成PathCS作为每个DTI的输入特征向量。其次,使用CDF分类器来预测DTIs。在这个过程中,使用前一层新的类别概率向量和原始的输入特征向量作为下一层输入,最终的类别概率向量是通过多个学习者的输出。在构建CDF模型时(图2),确定每一层使用的机器学习器是很重要的。在模型中,每一层的学习器数量在2到6之间,学习器的类型为RF和XGB。
## 3.4 实验设定 在本研究中,我们评估了三种实验设置,如表2所示,其中包括DTI预测的大部分情况。对于这些实验设置,SP、SD、ST代表了某些药物-靶标对对应的DTI值。在表2中,new代表在测试集中存在,在训练集中不存在。
3.5 性能评估
为了便于与其他方法进行比较,以前人研究为基准,对每个数据集的每个实验设置进行10折交叉验证(CV),以上过程使用不同的随机种子重复5次。值得注意的是,本研究使用的CV不同于传统的CV,即测试集的性能只是用来评价模型性能而不是用来进行模型选择。
对于每个预测模型的每一次折叠,计算如下指标:
其中TP为真阳性,FP为假阳性,FN为假阴性,TN为真阴性。在不同的分类截止值条件下,分别绘制了基于不同精度和召回率的precision-recall曲线(PR曲线)和基于不同召回率和假阳性率的receiver operating characteristic曲线(ROC曲线)。将AUPR和AUC分别定义为PR曲线和ROC曲线下的面积。由于每个数据集中的正样本和负样本高度不平衡,AUPR相对于AUC提供了更好的性能估计,因为它更严厉地惩罚假阳性。另一方面,AUC避免了阈值选择的主观性,AUPR也是如此。因此F2-score,以增加召回对该指标的影响,因为小的FN可以减少无法识别新DTIs的可能性。对于每个数据集的每个实验设置,计算AUPR、AUC和F2-score作为模型性能的衡量指标如下: 其中i表示第i次重复试验,j表示CV的第j折。此外,以上三个指标的平均值可以作为一个加权性能指标计算。
4. 结果和讨论
4.1 CDF模型与深度学习模型的比较
本研究开发的一种CDF模型,是一个深度集成框架,对传统的机器学习模型(如RF和XGB)进行了级联。与DNN相比,CDF模型的超参数较少,易于训练。
为了明确CDF模型与DNN模型相比的优势,在本研究中对它们进行了比较,结果如图4所示。实验表明,CDF在不同实验条件下的结果都优于DNN,因此与DNN相比,CDF的性能具有很强的竞争力。
4.2 CDF模型与传统集成学习模型的比较
在本研究中,以RF,XGB这两个基本学习者为基准模型,以比较CDF模型与传统的综合学习模型。结果(图4)表明CDF模型在所有实验条件下都优于RF和XGB模型。这是因为CDF模型中基础学习者的多样性和互补性提高了分类性能。此外,在功能上更充分地利用了CDF的多层特性。
4.3 与最新算法的比较(DTI-CDF与DDR)
对于本工作中的四个数据集,DDR方法被证明是在相同的实验条件下预测DTIs(即每个数据集在三种实验设置下重复5次10倍CV试验)最有效的方法。因此,在本研究中,比较DTI-CDF和DDR。实验结果表明,在相同条件下,DTI-CDF的性能优于DDR(图6)。

文章关键点:
•提出的DTI- CDF方法从异构DTI加权图中提取特征,作为基于CDF的模型的输入特征向量。
•CDF是DTIs预测领域的一次大胆尝试,它使传统机器学习模型更加深入,性能优于传统的集成学习和深度学习方法。
•有1352个预测的新DTIs已经被KEGG和DrugBank数据库支持,这表明了提出的DTI-CDF方法的有效性。
原论文名称:DTI-CDF: a cascade deep forest model towards the prediction of drug-target interactions based on hybrid features