摘要
在人和小鼠基因组的很多位点存在环状rna的转录,许多的这些位点,主要的RNA亚型是一个环状。使用环状RNA识别的改进的计算方法,在果蝇和人基因组中发现广泛环状RNA表达,环状RNA大概占poly(A)RNA数量的1%。从ENCODE数据的分析显示,环状RNA的表达,单个基因中环状rna与线性rna转录本的比率,以及circular rna亚型的剪接模型都是细胞类型特异性的,这些结果表明环状rna是基因表达的组成性的,保守的,并且是调节的功能。
在人类和小鼠细胞中环状RNA的普遍表达已经被一系列高通量测序技术确认,Rnase R 处理,并去除核糖体RNA,结合先前发布的信息学算法识别环状rna。以前的报告中绝大多数描述的圆形亚型(1025/1319)也是通过Rnase R 处理的rna深度测序鉴定。文章描述了一个较为系统的生物信息学和统计学的全基因组研究,显著扩大了人类细胞中识别的环状RNA,并揭示环状RNA的表达被显著调控。
数据:
从ENCODE数据库下载原始 fastq文件,获得15种细胞类型中的每一种的2个重复, 文章获得了所有长poly(A)-reads。
环状RNA的识别:
文章创建了所有UCSC已知基因注释错排外显子 -外显子junction的自定义数据库。通过映射来自无poly(A)的RNA的配对末端测序read,检测到数千种不同的环状RNA同种型,包括许多其中多个环状同种型从相同基因座转录的情况。分析要求一个read(read1)映射到诊断外显子x - 外显子y结点处(y <= x),另一个read映射在推断的环状同种型内。
结果:
1、不同细胞类型中环状rna的改进检测
相比以前的方法该方法改进的灵敏度能够确定数千个先前未报告的环状亚型和一些非常小的环状RNA,在15个细胞类型中,在FDR值为0.025条件下, 8466个基因的注释外显子边界发现了46866个不同的基因内剪接junctions,检测到白血病细胞系K562中有最多的环状RNA表达相关的基因(16559个不同的环状特异性剪接junctions)。在胎儿肺成纤维细胞系AG04450中发现了11590个不同的环状特异性剪接junctions,在人成纤维细胞系BJ中识别了7771个junctions.
2 、验证
文章用了Rnase R核糖核酸外切酶,来测试预测出的环状rna。所有的预测环状rna耐受消化而预测的线性rna是对Rnase R 高度敏感,证明了文章计算方法特异识别环状rna。
3.环状和线性rna亚型的相对丰度
文章分析以确定每个环状RNA相比于其同源线性RNA的相对丰度。这就需要估计每一个线性RNA的相对丰度,每个环状RNA的相对丰度。同时需要一个等量因子或归一化常数将1测量单元的线性rna的分子数量与1测量单元环状rna的分子数量相关联。对于线性rna丰度,以RPKM为计算单位。环状亚型的丰度用比对到亚型节点的read对的数量来估计。丰度估计表明,研究的3个细胞系环状rna分子大约占poly(A)分子的1%。每个细胞系大约50个基因状亚型比线性亚型含量丰富,对于部分环状亚型基因,环状亚型的丰度大约为线性亚型的5%-10%。
4、环状亚型的调控
文章使用了ENCODE印记细胞系rna-seq数据研究环状rna表达调控。并用qPCR定量环状rna表达差异。qPCR测试基因CYP24A1,PVT1,LPAR1和LINC00340对环状rna表达具有细胞差异性。而A549、AG04450、及Hela细胞系中FAT1、HIPK3基因环状rna表达有一个稳定水平。
5、环状rna 亚型剪接位点选择的差异性
一个基因编码多个可变剪接环状亚型,为研究形成环状rna的剪接受体及供体的模型特征,文章把剪接位点对分为3类,”定型“类、”proximal “类、及”组合“类,大部分有环状亚型(定型类)的基因,一个单一的剪接受体、供体对被优选形成环状rna亚型,CYP24A1、MCU基因,每个基因中只有一个剪接异构体被优选。
6、环状rna异构体剪接位点的选择被调控
作者发现环状rna受体与供体使用模型具有细胞类型的特异性选择,NHLF中识别的唯一的RNF19B亚型在其他细胞系中未检测到,相反的,在其他细胞系中RNF19B主导亚型在NHLF中未检测到。
7、环状rna跨物种的进化保守性
文章最后还分析了跨物种的保守性,文章的研究结果,人类环状RNA表达基因的小鼠直向同源本身更有可能编码环形RNA,与类似的环状RNA保守的独立分析是一致的,并支持环状RNA具有进化保守功能的假说。虽然环状rna的丰度、普遍存在、潜在的发育调控都表明了环状rna的重要作用,但它的性质及机制仍未得到充分解释。
参考文献:
Cell-typespecific features of circular RNA expression.