深度学习法识别人类昼夜节律基因

1. 摘要

本文使用深度神经网络(DNN)为昼夜节律基因识别构建了一个新的计算框架。首先,将时间过程的基因表达数据转化为分类状态数据来表示基因表达的变化趋势。从学习数据集中对昼夜节律基因的状态数据进行聚类后,出现了两种不同的表达模式。然后利用DNN对非周期基因和周期基因的两种亚型进行区分。为了评估DNN的性能,本文使用了四种常用的机器学习方法进行比较,包括k近邻、逻辑回归、朴素贝叶斯和支持向量机。结果表明,DNN模型的percision和recall达到了最佳平衡。

2. 介绍

昼夜节律以24小时周期的方式控制着一系列重要的生物行为,在包括人类、动物、植物和原核生物在内的许多生物体内都观察到了昼夜节律。

目前用于检测昼夜节律基因的算法大致可分为两类:谱分析和正弦拟合。光谱分析方法更适合于采样频率较高的数据集,并且只能用于均匀间隔的数据。正弦波拟合方法通过线性回归,比较每个文本与用户预先定义的正弦波曲线之间的相关性。

本文使用深度神经网络(DNN)为昼夜节律基因识别构建了一个新的计算框架。首先,将时间过程的基因表达数据转化为分类状态数据来表示基因表达的变化趋势。从学习数据集中对昼夜节律基因的状态数据进行聚类后,出现了两种不同的表达模式。然后利用DNN对非周期基因和周期基因的两种亚型进行区分。

3.方法

3.1 方法介绍

得益于深度学习算法,DNN模型可以捕捉到原始的表达模式,而不需要考虑不均匀的采样问题和正弦表达分布的关键假设。一般来说,深度学习方法需要学习数据来生成数据表示。然而,由于ground truth标签的缺失,作者手工确认了2000个基因的表达模式,并创建了一个高质量的周期性/非周期性标签子集,包括270个周期基因和1730个非周期基因。接下来,为了发现生成的昼夜节律基因的不同表达模式,首先将原始表达数据转换为(−1,0,1)来表示基因表达变化的:减少、稳定和增加的状态,然后使用转换后的数据进行heatmap聚类。得到了两个不同的簇。完成基准过程后,基于时间-过程表达数据构建DNN模型,将具有两种不同亚型的周期性表达基因与非周期性基因区分开来。

3.2 网路结构

具有三层以上(包括输入和输出)的神经网络可视为“深度”神经网络。在DNN中,每一层节点根据前一层的输出训练一组不同的特征,后一层可以识别更复杂的特征,因为前一层节点具有聚集和重组的能力。为了将信号分为周期性(包括第1类和第2类)或非周期性,本文训练了一个多类DNN,它可以使用Tensorflow自动执行特征工程。对于每个基因,DNN的输入是所有24个受试者的时间序列表达谱,输出是该基因的特定类别(0、1或2)。本文尝试了许多超参数,特别是隐藏层的数量,直到没有显著的改进。发现具有10个大小为100个节点的隐藏层的DNN结构具有更好的性能。采用整流线性单元(ReLU)作为激活函数。使用基于Adam gradient的优化器将学习率设置为0.0001。为了避免过拟合问题,本文还采用了dropout策略。具体来说,在训练过程中,DNN随机减少了5%的单元及其连接。该策略减少了过度拟合,并在其他正则化方法的基础上进行了改进。1

图1。基于转化状态数据的270个昼夜节律基因的双侧聚类heat map。红色和青色分别表示与前一个时间点相比,增加或减少的趋势。

2

图2:三种不同的周期性/非周期性基因在人类血液中的表达模式。点和条表示每个类在各个时间点的状态数据累积和的平均值。昼夜节律基因标记为第1类和第2类,非昼夜节律基因为第0类

3.3 结果比较

为了评估DNN检测周期性表达基因的能力,本文还训练了四种常用的机器学习模型,即k近邻(k- nn,k = 3)、逻辑回归、朴素贝叶斯和支持向量机(SVM)。进行了十折交叉验证,并计算了ROC曲线。

3

图3:DNN昼夜节律基因分类的ROC曲线及其他四种机器学习方法。x轴和y轴分别表示假阳性率和真阳性率。每个方法的AUC(曲线下的面积)分数标示在右下角。

3.4使用习得的DNN模型进行大规模的昼夜节律基因检测

基于训练好的DNN模型,直接预测了剩下的16541个基因的昼夜节律基因。为了比较,使用JTK_CYCLE推导出昼夜节律基因,并采用Moller-Levet等人的研究方法。三种方法鉴定出的周期性表达基因的数量和重叠情况如图5所示。DNN模型识别出2007个昼夜节律基因,包括873个1类基因和1134个2类基因。相比之下,JTK_CYCLE和Moller-Levet等研究分别鉴定出921和1167个基因为昼夜节律。对于重叠部分,三种方法鉴定出394个基因为周期性表达基因,至少两种方法鉴定出1007个基因。对于已鉴定的孤儿基因,仅用DNN模型鉴定出1132个基因为昼夜节律基因。

4.实验结果

本文的分析发现,有两类昼夜节律基因具有不同的表达模式。第一类基因在褪黑素分泌后表达水平持续升高,直至次日中午(图2),说明这些基因可能在夜间起着重要的调控作用。另一方面,第2类基因以相反的方式表达,表明这些基因有一天的调节作用。为了发现这两类基因潜在的不同生物学功能,对仅用DNN模型检测到的新型昼夜节律基因进行了基因本体论和通路富集分析。4

从图7可以看出,第一类基因与激酶活性、磷酸化调控和液泡转运有关。所有这些活动都与免疫系统的功能有关,这已被证实为在静息期循环中重要的昼夜节律功能。这些活动往往发生在膜区,因为许多免疫功能需要在膜中发生的液泡运输,如一些免疫复合物的内吞作用。第2类的基因具有完全不同的功能——主要包括核糖体生物发生、rRNA、ncRNA、蛋白质定位和氧化还原反应。这些基因的作用所产生的细胞成分主要发生在胞浆和核糖体中。这些功能与先前的研究一致,即在白天活动的昼夜节律基因与营养和能量代谢有关。基因本体论分析还表明,发现的新的昼夜节律基因是真阳性。

除了已知的昼夜节律功能,还发现鸟苷三磷酸酶(GTPase)超家族表现出明显的昼夜节律表达分布。如图7所示,第一类昼夜节律基因的分子功能与GTPase结合、小GTPase结合、GTPase调节活性、Ras GTPase结合等相关。虽然一些研究认为GTPases对生物钟有重要的调节作用,但很少有研究报道它们与人类血液中的昼夜节律有关。我们知道第一类基因与免疫系统的功能密切相关,所以有一个有趣的问题,即GTPases是否具有与免疫系统活动相关的重要昼夜调节作用。Johnson等人的研究认为,小的GTPases尤其是Ras超家族对免疫和炎症有显著影响。Bokoch已经报道RhoGTPases在调节免疫细胞分化的特定方面具有重要作用,和Saoudi等人证明RhoGTPases是T淋巴细胞发育的关键调控因子。此外,GTPases在细胞分裂、细胞凋亡和细胞活力等许多途径中往往起着分子开关的作用。综上所述,作者推测GTPase超家族可能为人类血液中免疫系统的生物钟提供分子开关。

在本研究中,发现GTPase超家族经常作为许多重要生物学功能的分子开关,表现出明显的昼夜节律分布。此外,许多先前的研究认为GTPase超家族对免疫系统具有重要的调节作用,包括免疫细胞分化、T淋巴细胞发育和细胞迁移。综合这些信息,本文假设GTPase超家族可能控制人体血液中免疫系统的昼夜节律调节。未来的工作可能会深入探索昼夜节律、GTPase超家族和免疫系统的功能和调节之间的关系。

5.结论

综上所述,深度学习方法在昼夜节律基因识别问题上取得了很好的结果,本文的研究结果和功能分析为人类血液转录组复杂的昼夜节律调控提供了新的见解。