blast 比对得分比对位点数相似性分数python代码 blast怎么比对

转载

mob64ca1401b651 2024-01-12 12:54:15

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_blast

点击这个，然后

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_文件名_02

来到这个页面，再点

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_环境变量_03

来到了这个下载页面，选择合适的，开始下载

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_文件名_04

建议不要安装在C盘。

安装结束后，然后设置环境变量，在path后，添加一句：D:\blast-2.12.0+\bin

然后打开cmd，输入blastn,出现下图所示，就证明安装成功。

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_数据库_05

然后在D:\blast-2.12.0+目录下，新建db文件，添加环境变量BLASTDB

先整理好要用的fasta文件，也可以从网上下载，将fasta文件放在db文件夹下，然后打开cmd.输入如下。

-in:代表用来构库的基因组文件的地址和文件名

-dbtype:代表构建的是什么库，prot代表蛋白库，nucl代表核酸

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_数据库_06

然后就可以看到目录下，多了这些文件

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_blast_07

然后进行目标序列与库序列进行比对

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_数据库_08

-query：代表的是要进行比对的序列文件

-db：为前面用于建库的基因组文件

-out：为输出文件的文件名

-evalue：为筛选标准(evalue越低，相似性越高)

-outfmt：输出文件格式，6代表表格形式。

blast 比对得分比对位点数相似性分数python代码 blast怎么比对_数据库_09

第一列为: Query id ,查询序列ID标识

第二列为: Subject id ,比对上的目标序列ID标识

第三列为: % identity 序列比对的一致性百分比

第四列为： alignment length 符合比对的比对区域的长度

第五列为：mismatches 比对区域的错配数

第六列为：gap opening 比对区域的gap数目

第七列和第八列为：Query开始碱基位置q.start和结束碱基位置q.end

第九列和第十列为：Subject开始碱基位置s.start和结束碱基位置 s.end

第十一列为：期望值 e-value,比对结果的期望值，将比对序列随机打乱重新组合，和数据库进行对比，如果功能越保守，则该值越低。

第十二列为：比对结果的bit score值

score值表示两序列的同源性，分值越高表明它们之间相似的程度越大。表格中的数据是由score值由高到低排序的。
e-value值就是socre值可靠性的评价。它表明在随机的情况下，其它序列与目标序列相似度要大于score值的可能性。所以它的分值越低越好。
E值的计算：
E=Kmn(e-lambdaS)**
其中,S就是score,E就是e-value，K和lambda与数据库和算法有关，是个常量；m代表目标序列的长度，n代表数据库的大小。
通常来讲，我们认为E值小于10-5就是比较可性的S值结果。我们可以想象，相同的数据库，E=0.001时如果有1000条都有机会比现在这个S值要高的话，那么把E设置为10-6时可能就会只得到一条结果，就是S值最可靠的那个。

但是E值也不是万能的。它在以下几个情况下有局限性：

当目标序列过小时，E值会偏大，因为无法得到较高的S值。
当两序列同源性虽然高，但有较大的gap（空隙）时，S值会下降。这个时候gap scores就非常有用。
有些序列的非功能区有较低的随机性时，可能会造成两序列较高的同源性。
E值总结：
E值适合于有一定长度，而且复杂度不能太低的序列。
当E值小于10-5时，表明两序列有较高的同源性，而不是因为计算错误。
当E值小于10-6时，表明两序列的同源性非常高，几乎没有必要再做确认。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。