结合高速ELM学习和深度卷积神经网络特征编码来预测蛋白质-RNA相互作用
结合高速ELM学习和深度卷积神经网络特征编码来预测蛋白质-RNA相互作用
1. 介绍
蛋白质和RNA相互作用的识别是一个重要的生物信息学问题。目前,RNA与蛋白质相互作用的鉴定方法大致可分为两类:基于实验的鉴定方法和基于计算的鉴定方法。基于实验的方法往往受到自身局限性的制约,不仅耗时费力,而且增加了实验结果的不稳定性。因此,基于计算的RNA与蛋白质相互作用预测方法越来越受到研究者的关注。 本研究提出了一种基于序列的方法,利用卷积神经网络(CNN)结合极端学习机器(ELM)分类器来预测RNA -蛋白质的相互作用。首先,将RNA和蛋白质序列转换成易于计算机处理的数字描述符。在这里,为了携带更多的生物信息,考虑使用包含生物进化信息的特定位置得分矩阵(PSSM)来转换序列数据。然后,使用CNN从这些数值描述符中提取隐藏的高级抽象特征。最后将这些特征输入ELM分类器进行准确分类。该方法的流程图如下图所示。 # 2. 材料和方法 ## A. 基准数据集 为了评估该方法的性能,利用四个基准数据集中验证了该方法,包括RPI1807、RPI2241、RPI369和NPInter v2.0数据集。 表1显示了上述数据集的详细信息。
B. 序列的数字表示
为了便于计算机处理,需要将RNA和蛋白质的字母序列转换成数字矩阵。由于RNA和蛋白序列的构造不同,使用保留序列转换(OPT)和位置特异性评分矩阵(PSSM)方法对它们进行数值转换。 OPT算法可以充分利用相邻核苷酸位置的信息,将每个RNA序列转换成稀疏矩阵。考虑一个RNA序列,p=’P1P2...PN其中Pi是A,C,U,G中的一个,i=1,2,...,N,N表示RNA序列的长度。在这里,考虑到三个字母组成一个三元组,并使用它来扫描RNA序列,以建立稀疏矩阵。具体来说,依次扫描三个相邻的字母,形成RNA序列如下:(1,2,3)(2,3,4),...,(N-2,N-1,N)。这样我们就得到了从RNA序列转换而来的64×(N-2)邻接矩阵R。 这里,T(i)=[AAA,AAC,...,UUU]。因此,利用最优算法将RNA序列转化为数值稀疏矩阵。 对于蛋白序列,使用包含生物进化信息的PSSM算法进行数值变换。PSSM算法在远缘蛋白的检测,蛋白二级结构预测、蛋白结合位点预测和无序区预测方面取得了很大的成功。PSSM的结构是一个N×20的矩阵,其中N表示蛋白质序列的长度,20表示天然氨基酸的数量。假设Mat={τi,j,i=1...N, j=1...20},PSSM矩阵能够被如下表示: 式中,在PSSM的i行中,τi,j表示该残基在蛋白质进化过程中突变为20个天然氨基酸的j型的概率。在实验中,利用特定位置的迭代BLAST (PSI-BLAST)工具将蛋白质序列转换为数值矩阵。为了得到最好的结果,将PSI-BLAST工具设置为针对SwissProt的数据库,迭代次数为3次,e值为0.001。
C. 卷积神经网络
深度学习作为一种有效的解决方案,在预测RNA -蛋白相互作用领域得到了广泛的关注。在几种深度学习结构中,卷积神经网络(CNN)在特征提取方面的表现优于其他机器学习方法。因此,在实验中引入CNN作为RNA和蛋白序列数值描述符的特征提取算法。 在实验中,为了提高模型的性能,对CNN的参数进行了优化。最后,使用了两个卷积和子采样层,卷积层的核大小为3,子采样层的尺度为2。CNN的学习率为0.1,激活函数使用sigmoid函数,损失函数使用均方误差。 ## D. 极限学习机(Extreme Learning Machine, ELM) 极限学习机(Extreme Learning Machine, ELM)是一种求解单隐层神经网络的分类算法,ELM在保证学习精度的前提下具有运算速度快的优点。因此在实验中选择ELM作为分类器来预测蛋白质相互作用。
3. 结果和讨论
A. 评估标准
在本研究中,训练机器学习模型来分类蛋白质和RNA对是否相互作用。采用5折交叉验证法对模型进行了性能评价。该方法将所有数据集随机分成5个相等的部分,并实现5组验证。验证时,取其中一组作为测试集,其余四组作为训练集。每组验证使用不同的部分作为测试集,产生五组验证结果。将这些结果的平均值和标准差作为最终的验证结果。遵循广泛使用的评估标准来评估模型,包括准确性(Accu.)、敏感性(Sen.)、特异性(Spec.)、精确性(Prec.)和Matthews相关系数(MCC )。它们的定义是: 同时,利用ROC曲线和ROC曲线下的面积AUC来评价分类器的性能。AUC值越接近1,表示的分类器性能越好。
B. 预测能力评估
良好的实验结果表明,该方法可以作为预测RNA与蛋白质之间潜在相互作用的可靠应用。
4. 结论
本研究提出了一种基于深度学习和ELM分类器的计算方法来预测特定RNA-蛋白对是否相互作用。为了挖掘RNA与蛋白质对之间隐藏的关系,利用卷积神经网络算法从序列信息中提取具有较强表示RNA-蛋白质对能力的高级抽象特征,并将其输入到ELM中预测它们之间是否存在这种关系。该方法在包括RPI1807、RPI2241和RPI369在内的基准RNA蛋白质数据集上获得了较高的性能。为了验证该方法的可靠性和鲁棒性,将其与目前最先进的SVM分类器等优秀方法进行了比较。在这些比较中,本文提出的方法取得了较好的效果。此外,使用RPI369数据集作为训练集,在一个独立的NPInter v2.0数据集上测试了该方法的预测能力,并在此结果的基础上绘制了RPI网络。这些良好的实验结果表明,该方法可以作为预测RNA与蛋白质之间潜在相互作用的可靠应用。