欢迎关注”生信修炼手册”!
得到一个物种的参考基因组是开展后续结构和功能基因挖掘的前提,通过高通量测序可以快速的拼接得到基因组,本文整理了基因组组装相关的数据分析资料。
二代测序的基因组组装以kmer为序列的最小单位
- 基因组组装中的kmer究竟是何方神圣
- jellyfish:快速计算kmer分布
- GenomeScope评估基因组大小和杂合度
- Gerbil:支持GPU加速的kmer count工具
多款组装软件,可以用于组装不同类型的基因组
- soapdenovo2进行基因组组装
- velvet软件进行基因组组装
- Abyss:基于布隆过滤器的基因组组装软件
- ALLPATHS-LG基因组组装软件简介
- spades基因组组装软件简介
- QUAST:评估基因组组装效果
- GAGE:基因组组装评估的金标准
得到基因组序列之后,可以开展结构组学研究,预测各种基因和基因组元件
- SSRIT:简单重复序列识别工具
- Tandem Repeats Finder:串联重复序列查找工具
- RepeatMasker:查找基因组上的重复序列
- tRNAscan-SE:预测基因组上的tRNA基因
- RNAmmer:预测基因组上的核糖体RNA
- barrnap:预测基因组上的核糖体RNA
- GtRNAdb:tRNA数据库简介
- tRNAdb:综合序列和二级结构的tRNA数据库
- Dfam:真核生物转座元件数据库
- Augustus:真核生物基因结构预测软件-安装篇
- GeneMark-ES:真核生物编码基因预测软件
- Glimmer:识别微生物中的蛋白编码基因
- Euk-mPLOC:预测真核生物蛋白的亚细胞定位
预测出基因之后,需要进一步探究其功能
- Gene Ontology-基因产物功能数据库
- AmiGO2:在线浏览和查询GO信息的利器
- quickGO:在线查询GO和GO注释信息的网站
- GOA:Gene Ontology注释信息数据库
- Pfam:蛋白质家族数据库简介
- COG:直系同源蛋白数据库
- eggNOG:从COG延伸出来的同源蛋白数据库
- SMART:蛋白质结构域数据库
对于完整的基因组组装结果,还可以利用进化树探究和其他物种的进化关系
- 使用Clustal进行多序列比对
- 使用muscle进行多序列比对
- 使用mafft进行多序列比对
- kalign:适用于基因组规模的多序列比对工具
- phyml:基于最大似然法构建进化树
- FastTree:速度最快的最大似然法进化树构建软件
- Newick: tree文件格式简介
对于动植物等多倍体,高杂合,多重复序列的复杂基因组而言,仅用二代测序其组装难度是非常大的,可以考虑二代和三代结合的策略,对于微生物,真菌等结构简单的小型参考基因组,利用二代测序就可以有一个不错的效果。当然如果追求完美,那还是三代测序更好。
·end·
—如果喜欢,快分享给你的朋友们吧—