本文为工具使用类文章;本文字数:2668个;图片:40张;预计阅读时间为:10-15min。请享用!

假设你从GenBank数据库中获得一个基因的完整序列,而老板问你这个基因的结构特征的时候,你有没有看着一堆序列,感觉无从下手?又或查完数据库上该基因的结构信息后用笔在纸上画着草稿?其实,你完全不用这样,因为有更好的工具解决这个问题!


对于生物信息学分析工作来说,处理最多的数据可能就是序列数据了。下面是生物学研究中常会用到的生物信息(序列)数据库:

数据库

备注

NCBI GenBank

美国国家生物信息中心核酸序列数据库

NCBI RefSeq

美国国家生物信息中心参考基因数据库

DDBJ

日本DNA序列数据库

EMBL

欧洲分子生物学实验室序列数据库

UCSC

加州大学圣克鲁兹分校物种基因组数据库

Uniprot

蛋白质数据库

InterPro

蛋白功能分类和结构预测数据库

PFAM

蛋白家族分类数据库

NONCODE

非编码RNA数据库

今天给大家分享一款序列可视化操作神器SnapGene Viewer。它所属公司GSL Biotech LLC,Viewer是它的免费社区版本,而SnapGene是其升级版本(收费),当然SnapGene软件支持的功能更多。但是Viewer软件的可视化功能其实对于科研人员来说已经足够用了。可以说这是一款序列可视化处理的神器,易学、易用,非常适合科研工作者对序列的一些可视化处理工作,例如DNA序列引物设计、电子PCR、DNA和蛋白序列的区域注释、序列格式化排列和序列机器翻译等等操作。

本文主要包括两大部分:第一部分是使用Viewer软件进行DNA序列可视化操作;第二部分是使用Viewer软件进行蛋白质序列可视化操作。想必看到这里大家已经心里痒痒慌,莫急,下面给大家娓娓道来:

SnapGene 软件是被设计用来处理和可视化序列数据的,其方便和美观度是获得科研人员喜欢的主要原因。Viewer是免费入门版,我们先从基础讲起,后面会增加对SnapGene进阶版的使用方法。

SnapGeneViewer软件的开始页面如下(版本为5.1.5,支持中文):




Access图表可视化界面 access可视化工具_生物信息


Viewer软件主要包括三种方式打开序列文件:

第一种:直接复制序列,然后选择新建序列文件(DNA或者蛋白质),粘贴进去,给文件起个名字;

第二种:直接打开本地的FASTA序列文件;

第三种:从数据库导入序列数据。

软件窗口分为以下四个区域:主菜单栏、功能快捷按钮、序列可视化区和描述面板,如下所示:


Access图表可视化界面 access可视化工具_生物信息_02


一、基因序列的可视化操作

1. 辅助引物设计

研究基因经常需要进行PCR,那就需要进行引物设计,引物设计的工具有很多,例如软件Primer Premier和Oligo、在线工具NCBI Pick Primer和PrimerBank等等。而这些工具都是基于引物设计原则进行工作的,例如对引物的长度和GC含量都有一定的要求。

(1)Viewer软件有引物设计帮助文档,点击主菜单栏中的“引物”选项,弹出引物菜单栏,然后选择“杂交参数”,会显示序列的引物的最适合条件。


Access图表可视化界面 access可视化工具_生物信息_03


Access图表可视化界面 access可视化工具_access添加排序列_04


(2)我们选择人的样例基因:RACK1作为测试,在GenBank数据库搜索RACK1基因,如下图所示:


Access图表可视化界面 access可视化工具_Access图表可视化界面_05


(3)接着点击RACK1基因的FASTA序列按钮,在该页面中点击右侧的Pick Primers获取引物。


Access图表可视化界面 access可视化工具_生物信息_06


紧接着会弹出获取引物的参数页面,参数保持即可,见下图:


Access图表可视化界面 access可视化工具_access添加排序列_07


然后点击左下角:Get Primers,按钮获取引物


Access图表可视化界面 access可视化工具_数据_08


等待一会儿,就得到了我们想要的引物,引物会根据质量高低进行排序,通常我们会选择top5或者top10进行后续的引物合成及PCR验证。


Access图表可视化界面 access可视化工具_生物信息_09


(4)添加引物注释,点击主菜单“引物”,选择“添加引物”,然后复制我们在NCBI中得到的引物序列,成对逐一添加。具体操作如下图所示:


Access图表可视化界面 access可视化工具_Access图表可视化界面_10


Access图表可视化界面 access可视化工具_数据库_11


效果如下:


Access图表可视化界面 access可视化工具_数据_12


Access图表可视化界面 access可视化工具_Access图表可视化界面_13


2.Viewer软件可以直接导入已经注释的序列文件我们以“导入NCBI数据库RACK1基因序列标注信息”作为演示:


Access图表可视化界面 access可视化工具_数据库_14


这样,我们就得到了RACK1的序列结构注释信息图(如下所示):

长度7010个碱基的基因序列就转换为友好的可视化的图形,注释信息包括:序列的长度、基因的外显子、内含子,以及转录的非编码RNA序列和翻译的蛋白序列等等。当你拿这样一个序列数据给“老板”看的时候,会不会多些自信啊


Access图表可视化界面 access可视化工具_数据库_15


二、蛋白质序列的可视化操作

1.在蛋白质序列可视化操作这部分

我们的样例蛋白为:P63244 [Homo sapiens] Receptor of activated protein C kinase 1,数据源:NCBI的Protein子数据库。

2. 手动复制粘贴蛋白序列

(1)进入NCBI >>Protein序列数据库;

(2)输入蛋白英文名称(可以填加物种名,以精确查找);


Access图表可视化界面 access可视化工具_access添加排序列_16


(3)接着选择蛋白的FASTA格式,全部复制;

(4)粘贴序列到SnapGene Viewer软件的新建蛋白序列框中;


Access图表可视化界面 access可视化工具_Access图表可视化界面_17


(5)修改序列文件名称:NP_006089.1 receptor of activated protein C kinase 1


Access图表可视化界面 access可视化工具_数据_18


(6)设置氨基酸显示格式:单字母或三字母简称


Access图表可视化界面 access可视化工具_数据_19


(7)设置每行显示氨基酸数量:默认是每行排满,也可以指定每行排100个aa;


Access图表可视化界面 access可视化工具_数据_20


(8)设置显示氨基酸序列的格式,可以填加序列长度注释;


Access图表可视化界面 access可视化工具_生物信息_21


(9)获取序列属性,点击Viewer软件下方的“属性”按钮(例如:氨基酸残基占比信息、分子量、等电点pI)


Access图表可视化界面 access可视化工具_Access图表可视化界面_22


(10)蛋白序列特征注释使用Viewer进行蛋白序列特征注释,首选获取注释信息,我们在Uniprot数据库中找到该蛋白的序列注释信息,然后点击“特征”菜单进行序列注释信息的添加,如下图所示:


Access图表可视化界面 access可视化工具_Access图表可视化界面_23


点击“添加特征”,把需要注释的序列片段输入到框中,进行序列标注,可以修改这段序列的文字信息和序列示意图颜色,如下图所示:


Access图表可视化界面 access可视化工具_Access图表可视化界面_24


receptor of activated protein C kinase 1蛋白的特征注释效果如下:


Access图表可视化界面 access可视化工具_Access图表可视化界面_25


(11)蛋白序列特征查看,点击Viewer下方的“特征”按钮即可查看序列的特征注释信息了,见下图:


Access图表可视化界面 access可视化工具_数据_26


(12)还可以在Viewer软件中进行灵活的蛋白序列-图谱显示模式切换;


Access图表可视化界面 access可视化工具_数据库_27


三、三大数据库导入序列的方法

1. 从NCBI数据库导入序列:

样例为:NP_006089.1,操作如下:


Access图表可视化界面 access可视化工具_数据_28


Access图表可视化界面 access可视化工具_access添加排序列_29


格式提示:


Access图表可视化界面 access可视化工具_Access图表可视化界面_30


导入中


Access图表可视化界面 access可视化工具_数据库_31


导入序列如下所示(特征信息也添加进来了):


Access图表可视化界面 access可视化工具_数据库_32


2.从Uniprot数据库导入序列:

样例为:P63244,操作如下:


Access图表可视化界面 access可视化工具_生物信息_33


序列格式提示如下:


Access图表可视化界面 access可视化工具_生物信息_34


最终结果:


Access图表可视化界面 access可视化工具_access添加排序列_35


3.从Ensembl数据库导入序列样例为:ENSDARG00000002710,操作如下所示:


Access图表可视化界面 access可视化工具_数据_36


Access图表可视化界面 access可视化工具_数据_37


最终结果如下所示:


Access图表可视化界面 access可视化工具_数据_38


我们系统地讲解了如何使用SnapGene Viewer软件进行序列数据的可视化操作,还有一些神奇的功能等待大家去探索和使用,例如机器翻译(DNA->氨基酸)、限制性内切酶位点信息注释、质粒数据导入及可视化等。还在等什么,心动不如行动。(彩蛋:我们后续会推出SnapGene软件的使用方法,希望在生物序列处理上给科研工作者们提供更有力的支持,欢迎大家围观。)

科研之路漫漫,且行且珍惜啊!!