一、在NCBI 中搜索BLAST
点击这个,然后
来到这个页面,再点
来到了这个下载页面,选择合适的,开始下载
二、开始安装
建议不要安装在C盘。
安装结束后,然后设置环境变量,在path后,添加一句:D:\blast-2.12.0+\bin
然后打开cmd,输入blastn,出现下图所示,就证明安装成功。
然后在D:\blast-2.12.0+目录下,新建db文件,添加环境变量BLASTDB
三、使用Blast+
先整理好要用的fasta文件,也可以从网上下载,将fasta文件放在db文件夹下,然后打开cmd.输入如下。
-in:代表用来构库的基因组文件的地址和文件名
-dbtype:代表构建的是什么库,prot代表蛋白库 ,nucl代表核酸
然后就可以看到目录下,多了这些文件
然后进行目标序列与库序列进行比对
-query:代表的是要进行比对的序列文件
-db:为前面用于建库的基因组文件
-out:为输出文件的文件名
-evalue:为筛选标准(evalue越低,相似性越高)
-outfmt:输出文件格式,6代表表格形式。
第一列为: Query id ,查询序列ID标识
第二列为: Subject id ,比对上的目标序列ID标识
第三列为: % identity 序列比对的一致性百分比
第四列为: alignment length 符合比对的比对区域的长度
第五列为:mismatches 比对区域的错配数
第六列为:gap opening 比对区域的gap数目
第七列和第八列为:Query开始碱基位置q.start和结束碱基位置q.end
第九列和第十列为:Subject开始碱基位置s.start和结束碱基位置 s.end
第十一列为:期望值 e-value,比对结果的期望值,将比对序列随机打乱重新组合,和数据库进行对比,如果功能越保守,则该值越低。
第十二列为:比对结果的bit score值
- score值表示两序列的同源性,分值越高表明它们之间相似的程度越大。表格中的数据是由score值由高到低排序的。
- e-value值就是socre值可靠性的评价。它表明在随机的情况下,其它序列与目标序列相似度要大于score值的可能性。所以它的分值越低越好。
E值的计算:
E=Kmn(e-lambdaS)**
其中,S就是score,E就是e-value,K和lambda与数据库和算法有关,是个常量;m代表目标序列的长度,n代表数据库的大小。
通常来讲,我们认为E值小于10-5就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会比现在这个S值要高的话,那么把E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。
但是E值也不是万能的。它在以下几个情况下有局限性:
- 当目标序列过小时,E值会偏大,因为无法得到较高的S值。
- 当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gap scores就非常有用。
- 有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。
- E值总结:
E值适合于有一定长度,而且复杂度不能太低的序列。
当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。
当E值小于10-6时,表明两序列的同源性非常高,几乎没有必要再做确认。