首先进行Blast类型的选择:
blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;
blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;
blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;
tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;
tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。
基本步骤如下:
1,进入在线blast界面,可以选择blast特定的物种(如下)。不同的blast程序上面已经有了介绍。这里以常用的Blast 中nucleotide blast作为例子。Human人类
Mouse小鼠
Rat大鼠
Arabidopsis thaliana拟南芥Oryza sativa水稻
Bos taurus牛
Danio rerio斑马鱼
Drosophila melanogaster黑腹果蝇Gallus gallus乌骨鸡
Pan troglodytes黑猩猩
Microbes微生物
Apis mellifera蜜蜂
2,粘贴fasta格式的序列(可以是多条奥!!)或使用Accession number(s)、gi(s)(注意仅使用数字,不加上标志符gi)。选择一个要比对的数据库,如果是人和鼠则进行相应的选择,否则选择Others中的nr/nt 。关于数据库的说明请看NCBI在线blast数据库的简要说明。其他选项不是必选的,如Job Title就是这次比对的名字,随便起一个即可;Organism为物种,可以填入你想比对的物种(分类单元如green plant等)的名字(拉丁名字,输入几个字母后会出现索引的)。第一个直接填入框中,往后需要点击一下加号后才能继续添加,选择Exclude就是与这些物种以外的物种序列进行比对。另外对于Limit by Entrez Query这一部分也为选填内容,若填写可以进行更为有效的限制,如可以限制分子类型、序列长度等等。具体限制内容如下:
protease NOT hiv1[organism]这将会将Blast检索限定在proteases,但不包含 HIV 1.
1000:2000[slen]对于核酸这将会将检索的序列的碱基长度限制在1000 to 2000bp, 对于蛋白质,则将残基个数限制在1000 to 2000 。
10000:100000[mlwt]这将检索的蛋白序列的分子重量限制在10 kD to 100 kD.
src specimen voucher[properties]这将检索范围限制在在来源特征中注有specimen_voucher(物种证明人) 的序列中。
all[filter] NOT enviromnentalsample[filter] NOT metagenomes[orgn]这将会排除宏基因组研究和来自未知环境的样品未知序列
知道数据库的组成部分和相应的应用Entrez terms 是很重要的. 例如biomol_mrna[prop] 不应该在htgs或者chromosome数据库检索,因为他们没有mRNA 记录!
3,blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。
4,注意一下你输入的序列长度。注意一下比对的数据库的说明。
5,blast结果的图形显示。没啥好说的(注意标题157Blast Hits意思为共有157条比对上的序列)。
6,blast结果的描述区域。注意分值与E值。分值越大越靠前了,E值越小也是这样。在下面图中可以在左边的复选框中选择,然后点击download可以一起下载这些序列。下载格式一般选择FASTA(complete sequence)格式较好。
7,blast结果的详细比对结果。注意比对到的序列长度。评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为1299,看Identities这一值,才匹配到1264bp,而输入的序列长度也是为1509bp,就说明比对到的序列要长一点。
附:
E值(Expect):表示随机匹配的可能性,例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1.E值越大,随机匹配的可能性也越大。E值接近零或为零时,具本上就是完全匹配了。通常来讲,我们认为E值小于10-5就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会S值比现在这个要高的话,那么不E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。但是E值也不是万能的。它在以下几个情况下有局限性:
1.当目标序列过小时,E值会偏大,因为无法得到较高的S值。2.当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gap scores就非常有用。3.有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。
E值总结:
E值适合于有一定长度,而且复杂度不能太低的序列。当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。当E值小于10-6时,表时两序列的同源性非常高,几乎没有必要再做确认。
一致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。
Score得分值越高说明同源性越好;Expect期望值越小比对结果越好,说明因某些原因而引起的误差越小;Identities是同源性(相似性),例中所示比对的1299个碱基中只有35个不配,其他97%相同;
Gaps是指多出或少的碱基或缺失的碱基数;缺失或插入(Gaps):插入或缺失。用'—'来表示。
Strand=plus/plus指两条序列方向相同,如果是plus/minus,即意味着一条是5'到3',一条是3'到5',或一条是正向,另一条是反向序列。
8.Blast的三个程序
1,MEGABLAST 常被用于鉴定核酸序列
MegaBLAST是一种BLASTN程序,主要是用来在同一物种非常相似的序列(相似度大于等于95%)之间同源性的比较。鉴定某一段核酸序列是否存在于数据库,最好的方法就是选择MEGABLAST。当然,BlastN/MEGABLAST/Discontiguous MEGABLAST,都可以完成这种事情。但MEGABLAST就是特别设计用于非常相似长序列之间的比对,可用于寻找查询序列的最佳匹配的序列。总之此程序主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。速度快用于同一物种间的。
2,Discontiguous MEGABLAST用于查找不同物种的相似的核酸序列,而不是查询相同的序列。
DiscontiguousMEGABLAST,用于跨物种核酸序列快速比对。它使用非重叠群字段匹配算法(noncontiguous word match)来进行核酸比对。DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。但是需要指出的是,核酸与核酸之间的比对并不是发现同源蛋白编码区域的最佳方法,直接在蛋白水平用Blastp比对更好。这是因为密码子的简并性。blastn比MEGABLAST 更为敏感是因为它使用一个短的默认字长11.所以blastn从其他物种寻找同源性比MEGABLAST 更好。blastn 字长可以从默认值调整至7来增加检索的敏感性 用相同字长检索在discontiguous MEGABLAST的效率和敏感度要高于标准的blastn。
需要重点指出的是核酸序列的相似性检索并不是在其他物种中发现同源蛋白编码区的最好的方法。要完成这项任务最好要通过蛋白质水平上的相似性检索。可以采用direct protein-protein BLAST和translatedBLAST searches的方法进行。
3.BlastN运行缓慢,但是允许将字长降低到7个碱基,增加检索的敏感性。
FilterFilter (Low-complexity)
⑧过滤器(Filter):过滤器可以屏蔽查询序列中低成分复杂性(Low CompositionalComplexity)片断(所谓低成分复杂性片段指四种碱基出现的机会不均等,往往是某几个碱基连续出现如此序列:CGGGGGAAAAAAAAGGGGAAAAAAARAAAAMR)。它只能过虑待比对的序列及其转录产物中的低成分复杂性片断,不能过虑数据库中存在的序列中低成分复杂性片断。用户可以在BLAST和BLAST 2.0的高级检索中选择相应的过滤程序以消除对检索结果的干扰,如不用过滤功能则选择“NONE”。但是在BLAST和BLAST 2.0基本检索中,因为,系统对于不同的BLAST程序设定了默认值,例如对于blastn程序,其默认值为“DUST”,其可以消除统计学上有重要意义但生物学上没意义的区域的对比,使输出结果只呈现在生物学上有意义的区域。而对于blastn以外的其他程序,默认值为“SEG”,所以用户只须选择用不用过虑功能,而不必设定过虑程序。
有时在与WISS-PROT和refseq数据库中进行比对时SEG程序未起作用,这也是正常的。. Furthermore, in some cases,sequences are masked in their entirety, indicating that the statisticalsignificance of any matches reported against the unfiltered query sequenceshould be suspect. This will also lead to search error when default setting isused.Filter (Human repeats)
这一选择是忽略 Human repeats (LINE's, SINE's, plus retroviral repeasts) 主要用于包含这些重复序列的一些人类的序列。忽略这些序列可以显著增加长序列(>100 kb)比对的速度。Filter (Mask for lookup table only)
BLAST检索包含两个阶段, finding hits basedupon a lookup table and then extending them. This option masks only forpurposes of constructing the lookup table used by BLAST so that no hits arefound based upon low-complexity sequence or repeats (if repeat filter ischecked). The BLAST extensions are performed without masking and so they can beextended through low-complexity sequence.Mask Lower Case
Withthis option selected you can cut and paste a FASTA sequence in upper casecharacters and denote areas you would like filtered with lower case. Thisallows you to customize what is filtered from the sequence during thecomparison to the BLAST databases.
可以上述中的一项或多项功能来获得最好的结果。
Match/Mismatch Scores
许多核酸序列的比对采用了一些较简单的记分系统,对于配对的实行'reward'奖励分,而不配对的则'penalty'减分当比对一些更加发散的序列时reward/penalty 的比例适当增加。比例为 0.33 (1/-3) 适合 99%以上的保守序列 而 0.5 (1/-2)则适合 95% 以上的保守序列;而1(1/-1)则适合75%以上的保守序列。
对于blastn为了保证BLAST 返回的结果在统计学意义上更加可靠NCBI采取了限制措施即reward/penalty pairs and their associated gap existence and gapextension penalties. See News on blast 2.2.13 for more information.
[1] States DJ, Gish W, and Altschul SF(1991) METHODS: A companion to Methods in Enzymology 3:66-70.
Matrixand Gap Costs
Gap Cost
对于选择的矩阵在下拉菜单中有相应的罚分,增加GapCosts 值将会导致更加整齐,这样减少了引入Gap的数目。