文章目录

  • 本地BLAST
  • 1.基本用法
  • 2.结果筛选
  • 3.改变参数
  • 设置字长
  • 设置计分矩阵
  • 4.PSI-BLAST
  • 5.双序列比对,指定起始位点
  • 6.建立自己的检索数据库
  • NCBI-BLAST
  • 1.数据输入
  • 2.选择参数
  • 3.结果筛选
  • 参考资料


本地BLAST

1.基本用法

以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库。

blastp -query HBA_HUMAN.FASTA -db uniprot_sprot|less

参数说明:

bolt协议和rest协议 blast 协议_迭代:蛋白blast

bolt协议和rest协议 blast 协议_迭代_02:参数,要检索的序列

bolt协议和rest协议 blast 协议_迭代_03:人血红蛋白的FASTA文件

bolt协议和rest协议 blast 协议_linux_04:参数,检索的数据库

bolt协议和rest协议 blast 协议_bolt协议和rest协议_05:SWISS PROT

结果:

找到了数据库中所有相似序列。

如果要将检索结果输出为单独文件,则添加参数bolt协议和rest协议 blast 协议_搜索_06,如:

blastp -query HBA_HUMAN.FASTA -db uniport_sprot -out HBA_SW.TXT
2.结果筛选

添加参数 bolt协议和rest协议 blast 协议_迭代_07

blastp -query HBA_HUMAN.FASTA -db uniprot_sprot_human -evalue 0.1 -outfmt 7|less

参数说明:

bolt协议和rest协议 blast 协议_数据库_08:筛选evalue小于0.01的序列

bolt协议和rest协议 blast 协议_bolt协议和rest协议_09:结果显示为表格形式

结果:

bolt协议和rest协议 blast 协议_bolt协议和rest协议_10

共找到了11条序列,结果中列的意义从左到右为:

搜索序列、标靶序列、相似度、比对长度、错配数、起始空位数、检索序列起始位点、检索序列终止位点、标靶序列起始位点、标靶序列终止位点、期望值evalue、得分。

3.改变参数
设置字长

添加参数bolt协议和rest协议 blast 协议_linux_11,一般blastp中字长默认值为6,例如设置字长为2:

blastp -query HBA_HUMAN.FASTA -db uniprot_sprot_human -evalue 1 -outfmt 7 -word_size 2|less

结果:

bolt协议和rest协议 blast 协议_迭代_12

找到了12条序列,相比前一次blast,多了亲缘关系更远的NGB蛋白,原因已在原理中介绍。

设置计分矩阵

添加参数 bolt协议和rest协议 blast 协议_bolt协议和rest协议_13,一般默认计分矩阵为bolt协议和rest协议 blast 协议_linux_14

将计分矩阵改为bolt协议和rest协议 blast 协议_搜索_15

blastp -query HBA_HUMAN.FASTA -db uniport_sprot_human -evalue 1 -outfmt 7 -matrix PAM250|less

结果:

同样找到了NGB蛋白

4.PSI-BLAST

使用命令bolt协议和rest协议 blast 协议_bolt协议和rest协议_16,添加参数bolt协议和rest协议 blast 协议_linux_17

无迭代的情况:

psiblast -query HBA_HUMAN.FASTA -db uniprot_sprot_human -evalue 0.001 -outfmt 7 -num_iterations 1|less

与之前一样找到了11个蛋白序列

两次迭代:

psiblast -query HBA_HUMAN.FASTA -db uniprot_sprot_human -evalue 0.001 -outfmt 7 -num_iterations 2 -comp_based_stats 0|less

第二次迭代结果:

经过迭代,重新找到了NGB蛋白

5.双序列比对,指定起始位点

参数:

主序列:bolt协议和rest协议 blast 协议_迭代_02

副序列:bolt协议和rest协议 blast 协议_bolt协议和rest协议_19

主序列起始位点:bolt协议和rest协议 blast 协议_bolt协议和rest协议_20

副序列起始位点:bolt协议和rest协议 blast 协议_迭代_21

以癌胚抗原搜索结构域为例:

blastp -query CEA21_HUMAN.FASTA -query_loc 147-231 -subject CEAM5_HUMAN.FASTA -subject_loc 145-675 -outfmt 7|less

bolt协议和rest协议 blast 协议_搜索_22

找到了六个恒定结构域,这些结构域之间存在相似性

6.建立自己的检索数据库

使用bolt协议和rest协议 blast 协议_linux_23功能

构建玉米转录因子的本地蛋白序列数据库:

makeblastdb -dbtype prot -in ZMTF_PEP.FASTA -out ZMTF_PEP

构建玉米转录因子的核酸本地数据库:

makeblastdb -dbtype nucl -in ZMTF_CDS.FASTA -out ZMTF_CDS

参数说明:

bolt协议和rest协议 blast 协议_搜索_24

bolt协议和rest协议 blast 协议_迭代_25

bolt协议和rest协议 blast 协议_搜索_26

构建完成后:

bolt协议和rest协议 blast 协议_bolt协议和rest协议_27

出现三个后缀为nhr、nin、nsq的文件,即数据库构建完成,可以在参数 bolt协议和rest协议 blast 协议_linux_04

NCBI-BLAST

NCBI-BLAST用法:

网址:[BLAST: Basic Local Alignment Search Tool (nih.gov)]:

1.数据输入

以protein blast为例:

bolt协议和rest协议 blast 协议_linux_29


bolt协议和rest协议 blast 协议_linux_30

bolt协议和rest协议 blast 协议_linux_31:输入序列,也可在下方上传文件

bolt协议和rest协议 blast 协议_bolt协议和rest协议_32

如果要进行序列比对,勾选下方的bolt协议和rest协议 blast 协议_搜索_33

bolt协议和rest协议 blast 协议_迭代_34:一般勾选前一个

bolt协议和rest协议 blast 协议_迭代_35:选择数据库

bolt协议和rest协议 blast 协议_bolt协议和rest协议_36 :选择物种,可输入物种英文名/学名/taxid,勾选后方的bolt协议和rest协议 blast 协议_bolt协议和rest协议_37为排除某物种

bolt协议和rest协议 blast 协议_数据库_38:选择BLAST模式

2.选择参数

打开下方的bolt协议和rest协议 blast 协议_搜索_39,一般情况下默认参数可以满足要求

bolt协议和rest协议 blast 协议_bolt协议和rest协议_40

bolt协议和rest协议 blast 协议_迭代_41

bolt协议和rest协议 blast 协议_搜索_42

bolt协议和rest协议 blast 协议_linux_43:起始空位罚分和延伸空位罚分

3.结果筛选

比对成功后,结果页面bolt协议和rest协议 blast 协议_bolt协议和rest协议_44处可以进行结果筛选

bolt协议和rest协议 blast 协议_迭代_45

bolt协议和rest协议 blast 协议_数据库_46

bolt协议和rest协议 blast 协议_搜索_47:筛选相似度

bolt协议和rest协议 blast 协议_迭代_48:筛选匹配上的序列长度

参考资料

生物信息学方法,北京大学 高歌

BLAST算法,降帅

Needleman, S. B. & Wunseh, (3. D. (1970). J. Mol. Biol.48, 443-453.

Waterman, M. S. (1984). Bull. Math. Biol. 46, 473-500.

Altschul, S. F., et al. Basic Local Alignment Search Tool. Journal of Molecular Biology 215, 403–410
(1990) doi:10.1016/S0022‑2836(05)80360‑2

Karlin, S. and S. F. Altschul (1990). “METHODS FOR ASSESSING THE STATISTICAL SIGNIFICANCE OF MOLECULAR SEQUENCE FEATURES BY USING GENERAL SCORING SCHEMES.” Proceedings of the National Academy of Sciences of the United States of America 87(6): 2264-2268.

ll. Math. Biol. 46, 473-500.

Altschul, S. F., et al. Basic Local Alignment Search Tool. Journal of Molecular Biology 215, 403–410
(1990) doi:10.1016/S0022‑2836(05)80360‑2

Karlin, S. and S. F. Altschul (1990). “METHODS FOR ASSESSING THE STATISTICAL SIGNIFICANCE OF MOLECULAR SEQUENCE FEATURES BY USING GENERAL SCORING SCHEMES.” Proceedings of the National Academy of Sciences of the United States of America 87(6): 2264-2268.