本文为工具使用类文章;本文字数:2668个;图片:40张;预计阅读时间为:10-15min。请享用!
假设你从GenBank数据库中获得一个基因的完整序列,而老板问你这个基因的结构特征的时候,你有没有看着一堆序列,感觉无从下手?又或查完数据库上该基因的结构信息后用笔在纸上画着草稿?其实,你完全不用这样,因为有更好的工具解决这个问题!
对于生物信息学分析工作来说,处理最多的数据可能就是序列数据了。下面是生物学研究中常会用到的生物信息(序列)数据库:
数据库 | 备注 |
NCBI GenBank | 美国国家生物信息中心核酸序列数据库 |
NCBI RefSeq | 美国国家生物信息中心参考基因数据库 |
DDBJ | 日本DNA序列数据库 |
EMBL | 欧洲分子生物学实验室序列数据库 |
UCSC | 加州大学圣克鲁兹分校物种基因组数据库 |
Uniprot | 蛋白质数据库 |
InterPro | 蛋白功能分类和结构预测数据库 |
PFAM | 蛋白家族分类数据库 |
NONCODE | 非编码RNA数据库 |
今天给大家分享一款序列可视化操作神器SnapGene Viewer。它所属公司GSL Biotech LLC,Viewer是它的免费社区版本,而SnapGene是其升级版本(收费),当然SnapGene软件支持的功能更多。但是Viewer软件的可视化功能其实对于科研人员来说已经足够用了。可以说这是一款序列可视化处理的神器,易学、易用,非常适合科研工作者对序列的一些可视化处理工作,例如DNA序列引物设计、电子PCR、DNA和蛋白序列的区域注释、序列格式化排列和序列机器翻译等等操作。
本文主要包括两大部分:第一部分是使用Viewer软件进行DNA序列可视化操作;第二部分是使用Viewer软件进行蛋白质序列可视化操作。想必看到这里大家已经心里痒痒慌,莫急,下面给大家娓娓道来:
SnapGene 软件是被设计用来处理和可视化序列数据的,其方便和美观度是获得科研人员喜欢的主要原因。Viewer是免费入门版,我们先从基础讲起,后面会增加对SnapGene进阶版的使用方法。
SnapGeneViewer软件的开始页面如下(版本为5.1.5,支持中文):
Viewer软件主要包括三种方式打开序列文件:
第一种:直接复制序列,然后选择新建序列文件(DNA或者蛋白质),粘贴进去,给文件起个名字;
第二种:直接打开本地的FASTA序列文件;
第三种:从数据库导入序列数据。
软件窗口分为以下四个区域:主菜单栏、功能快捷按钮、序列可视化区和描述面板,如下所示:
一、基因序列的可视化操作
1. 辅助引物设计
研究基因经常需要进行PCR,那就需要进行引物设计,引物设计的工具有很多,例如软件Primer Premier和Oligo、在线工具NCBI Pick Primer和PrimerBank等等。而这些工具都是基于引物设计原则进行工作的,例如对引物的长度和GC含量都有一定的要求。
(1)Viewer软件有引物设计帮助文档,点击主菜单栏中的“引物”选项,弹出引物菜单栏,然后选择“杂交参数”,会显示序列的引物的最适合条件。
(2)我们选择人的样例基因:RACK1作为测试,在GenBank数据库搜索RACK1基因,如下图所示:
(3)接着点击RACK1基因的FASTA序列按钮,在该页面中点击右侧的Pick Primers获取引物。
紧接着会弹出获取引物的参数页面,参数保持即可,见下图:
然后点击左下角:Get Primers,按钮获取引物
等待一会儿,就得到了我们想要的引物,引物会根据质量高低进行排序,通常我们会选择top5或者top10进行后续的引物合成及PCR验证。
(4)添加引物注释,点击主菜单“引物”,选择“添加引物”,然后复制我们在NCBI中得到的引物序列,成对逐一添加。具体操作如下图所示:
效果如下:
2.Viewer软件可以直接导入已经注释的序列文件我们以“导入NCBI数据库RACK1基因序列标注信息”作为演示:
这样,我们就得到了RACK1的序列结构注释信息图(如下所示):
长度7010个碱基的基因序列就转换为友好的可视化的图形,注释信息包括:序列的长度、基因的外显子、内含子,以及转录的非编码RNA序列和翻译的蛋白序列等等。当你拿这样一个序列数据给“老板”看的时候,会不会多些自信啊
二、蛋白质序列的可视化操作
1.在蛋白质序列可视化操作这部分
我们的样例蛋白为:P63244 [Homo sapiens] Receptor of activated protein C kinase 1,数据源:NCBI的Protein子数据库。
2. 手动复制粘贴蛋白序列
(1)进入NCBI >>Protein序列数据库;
(2)输入蛋白英文名称(可以填加物种名,以精确查找);
(3)接着选择蛋白的FASTA格式,全部复制;
(4)粘贴序列到SnapGene Viewer软件的新建蛋白序列框中;
(5)修改序列文件名称:NP_006089.1 receptor of activated protein C kinase 1
(6)设置氨基酸显示格式:单字母或三字母简称
(7)设置每行显示氨基酸数量:默认是每行排满,也可以指定每行排100个aa;
(8)设置显示氨基酸序列的格式,可以填加序列长度注释;
(9)获取序列属性,点击Viewer软件下方的“属性”按钮(例如:氨基酸残基占比信息、分子量、等电点pI)
(10)蛋白序列特征注释使用Viewer进行蛋白序列特征注释,首选获取注释信息,我们在Uniprot数据库中找到该蛋白的序列注释信息,然后点击“特征”菜单进行序列注释信息的添加,如下图所示:
点击“添加特征”,把需要注释的序列片段输入到框中,进行序列标注,可以修改这段序列的文字信息和序列示意图颜色,如下图所示:
receptor of activated protein C kinase 1蛋白的特征注释效果如下:
(11)蛋白序列特征查看,点击Viewer下方的“特征”按钮即可查看序列的特征注释信息了,见下图:
(12)还可以在Viewer软件中进行灵活的蛋白序列-图谱显示模式切换;
三、三大数据库导入序列的方法
1. 从NCBI数据库导入序列:
样例为:NP_006089.1,操作如下:
格式提示:
导入中
导入序列如下所示(特征信息也添加进来了):
2.从Uniprot数据库导入序列:
样例为:P63244,操作如下:
序列格式提示如下:
最终结果:
3.从Ensembl数据库导入序列样例为:ENSDARG00000002710,操作如下所示:
最终结果如下所示:
我们系统地讲解了如何使用SnapGene Viewer软件进行序列数据的可视化操作,还有一些神奇的功能等待大家去探索和使用,例如机器翻译(DNA->氨基酸)、限制性内切酶位点信息注释、质粒数据导入及可视化等。还在等什么,心动不如行动。(彩蛋:我们后续会推出SnapGene软件的使用方法,希望在生物序列处理上给科研工作者们提供更有力的支持,欢迎大家围观。)
科研之路漫漫,且行且珍惜啊!!