Hub gene在生物学研究中是一个高频词汇,它不仅在Frontier这类优秀期刊中被用来疯狂的灌水,更会在Nature,Cell这种顶级期刊中出现。

1. 什么是Hub gene
Hub gene 是对某一生物学过程起到重要调控作用的基因。而在具体的科研工作中,hub gene 则常常被定义为对差异表达基因集合(DEGs)具有最强调控作用的基因。

2. 为何要寻找Hub gene
hub gene往往与疾病有着密切的联系,一个基因越是 ”hub“,围绕着hub gene所作的实验验证就越是容易出阳性结果。对于湿实验的同学来说,hub gene可以帮助你找到后续研究所围绕的关键基因 (筛选基因),大大的缩短筛选 “interesting genes“ 的时间。对于干实验的同学,hub gene 能够找到分析主体,丰富分析的内容。

3. 如何寻找Hub gene

Hub gene 的定义方法主要分为两步——构建网络、计算中心度

构建网络常用的方法是WGCNA,一个被引用几千次的算法。WGCNA需要样本数多于15个,而湿实验中往往达不到这样的数量。所以多数情况,构建网络的方法是从已有的PPI网络中,根据DEGs提取子网络。如下图

RF机器学习算法筛选特征基因代码 筛选目标基因_数据可视化


常用的已知网络包括STRING,HumanNet,Reactome等等。但是组织类型特异的调控网络数据库已经发表(Tissue Nexus),而利用组织特异性网络所筛选的基因与疾病的相关性更高,所以如果条件允许,最好使用组织特异性基因调控网络。以下是Tissue Nexus与全局网络性能的对比图

RF机器学习算法筛选特征基因代码 筛选目标基因_数据可视化_02


计算中心度的方法包括衡量度的数量、衡量与全局节点的最短距离、衡量连通度等等……这里不再赘述。

举例:
我利用GSE132903的芯片数据,该数据包含阿尔兹海默症与正常对照,详见GEO Accession viewer (nih.gov)。利用Limma,以adjusted P-value<0.05 & Foldchange > 2定义DEGs。多数差异基因为下调基因,但仍有一些基因在AD患者中上调,例如VWEC, CPNE8和C17orf51。

RF机器学习算法筛选特征基因代码 筛选目标基因_Access_03

之后我从Tissue Nexus上下载brain network,并利用DEGs提取子网络。同时点的大小与颜色代表点的中心度。

RF机器学习算法筛选特征基因代码 筛选目标基因_RF机器学习算法筛选特征基因代码_04

结合DisGeNET, 我们能够发现,中心度越高的基因,往往更有可能与疾病相关联。也更因该被当作下游分析所围绕的基因。

RF机器学习算法筛选特征基因代码 筛选目标基因_RF机器学习算法筛选特征基因代码_05