一、在NCBI 中搜索BLAST

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_blast

点击这个,然后

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_文件名_02


来到这个页面,再点

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_环境变量_03


来到了这个下载页面,选择合适的,开始下载

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_文件名_04

二、开始安装

建议不要安装在C盘。

安装结束后,然后设置环境变量,在path后,添加一句:D:\blast-2.12.0+\bin

然后打开cmd,输入blastn,出现下图所示,就证明安装成功。

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_数据库_05


然后在D:\blast-2.12.0+目录下,新建db文件,添加环境变量BLASTDB

三、使用Blast+

先整理好要用的fasta文件,也可以从网上下载,将fasta文件放在db文件夹下,然后打开cmd.输入如下。

-in:代表用来构库的基因组文件的地址和文件名

-dbtype:代表构建的是什么库,prot代表蛋白库 ,nucl代表核酸

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_数据库_06


然后就可以看到目录下,多了这些文件

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_blast_07

然后进行目标序列与库序列进行比对

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_数据库_08


-query:代表的是要进行比对的序列文件

-db:为前面用于建库的基因组文件

-out:为输出文件的文件名

-evalue:为筛选标准(evalue越低,相似性越高)

-outfmt:输出文件格式,6代表表格形式。

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_数据库_09


第一列为: Query id ,查询序列ID标识

第二列为: Subject id ,比对上的目标序列ID标识

第三列为: % identity 序列比对的一致性百分比

第四列为: alignment length 符合比对的比对区域的长度

第五列为:mismatches 比对区域的错配数

第六列为:gap opening 比对区域的gap数目

第七列和第八列为:Query开始碱基位置q.start和结束碱基位置q.end

第九列和第十列为:Subject开始碱基位置s.start和结束碱基位置 s.end

第十一列为:期望值 e-value,比对结果的期望值,将比对序列随机打乱重新组合,和数据库进行对比,如果功能越保守,则该值越低。

第十二列为:比对结果的bit score值

  • score值表示两序列的同源性,分值越高表明它们之间相似的程度越大。表格中的数据是由score值由高到低排序的。
  • e-value值就是socre值可靠性的评价。它表明在随机的情况下,其它序列与目标序列相似度要大于score值的可能性。所以它的分值越低越好。
    E值的计算:
    E=Kmn(e-lambdaS)**
    其中,S就是score,E就是e-value,K和lambda与数据库和算法有关,是个常量;m代表目标序列的长度,n代表数据库的大小。
    通常来讲,我们认为E值小于10-5就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会比现在这个S值要高的话,那么把E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。

但是E值也不是万能的。它在以下几个情况下有局限性:

  1. 当目标序列过小时,E值会偏大,因为无法得到较高的S值。
  2. 当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gap scores就非常有用。
  3. 有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。
  4. E值总结:
    E值适合于有一定长度,而且复杂度不能太低的序列。
    当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。
    当E值小于10-6时,表明两序列的同源性非常高,几乎没有必要再做确认。