欢迎关注”生信修炼手册”!

GreeNC数据库收录了植物和藻类的lncRNA信息,网址如下

​http://greenc.sciencedesigners.com/wiki/Main_Page​

该数据库中的lncRNA是软件预测的结果, pipeline示意如下

GreeNC:植物lncRNA数据库_数据库

利用RNA_seq数据组装得到转录本之后,再进行以下几个筛选步骤

  1. 挑选长度大于200nt的转录本;
  2. 挑选ORF长度小于360nt(蛋白质小于120个氨基酸)的转录本;
  3. 和swiss-prot蛋白数据库比对,挑选没有比对上的转录本或者采用CPC软件预测蛋白编码潜能,挑选预测结果为non-coding的转录本,取两种方法的并集作为候选的lncRNA;
  4. 和miRBase,Rfam数据库比对,挑选没有比对上的转录本作为最终的lncRNA

对于预测到的lncRNA序列,通过Repeatmasker软件分析其中的重复元件。所有预测的lncRNA, 又分为以下两类

  1. high confidence
  2. low confidence

和swissport没有比对结果,CPC软件预测为non-coding, 没有比对上miRBase和Rfam数据库,同时符合这3点条件的lncRNA, 归类为high confidence,如果只满足其中2个条件,归类为low confidence; 还有一种情况,如果一个lncRNA的重复元件比例太多,也被归类为low confidence。

目前该数据库收录了49个物种的lncRNA信息,以水稻​​Oryza sativa​​为例,检索结果如下所示

GreeNC:植物lncRNA数据库_ide_02
GreeNC:植物lncRNA数据库_ide_03

默认只展示5个lncRNA信息,通过右下方的​​more​​,可以查看完整结果,示意如下

1. Genes

GreeNC:植物lncRNA数据库_数据_04

2. Transcripts

GreeNC:植物lncRNA数据库_ide_05

该数据库预测lncRNA的策略较为严格,值得我们借鉴。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

GreeNC:植物lncRNA数据库_ide_06