作为一名生物科研狗,在饱受实验折磨的同时,相信大家也都多少会受到一些生信软件的“宠爱”。比如需要做序列比对,却不知道该用什么软件,不知道怎么设参数、不懂怎么读结果。
今天我们详细地给大家介绍一款必会比对程序BLAST的用法,再给大家说一说几种常用比对软件的优缺点,方便大家自己选择。
BLAST(Basic Local Alignment Search Tool)可以说是短序列比对中最常用的比对工具了,它不仅支持核酸和蛋白的双序列比对,而且可以在蛋白质数据库或DNA数据库中进行相似性比较,找到与查询序列相似的序列。
NCBI上的在线BLAST具有四种功能模块:Nucleotide BLAST(核酸序列比对到核酸库)、Protein BLAST(蛋白序列比对到蛋白库)、BLASTX(核酸序列比对到蛋白库)、TBLASTN(蛋白序列比对到核酸库)。
使用方法:
B可以选择不同的比对选项,对应于我们前面介绍的五种功能
D可以接受各种格式的查询序列,可以一个序列号(NM_000249)或者是FASTA序列
E可以限定查询序列中的某个片段,比如“from 200 to 600”就是查询200-600bp位置的序列
G可以选择进行多序列比对,并且可以更改序列输入方式
A可以选择所要查询的数据库
B可以输入物种名称,它会显示下拉条目可以进行选择
C可以用来排除一些不想要的信息
D对于特定数据库可以进行一些搜索限制,比如输入 “biomol_mrna[prop] AND 500:1000[slen]”可以限制搜索500-1000bp长度的序列
E可以根据需要选择不同的速度或者灵敏度
F按钮执行BLAST搜索
G可以打开一个折叠页面,可以进行更为详细的参数设置(如下图)
H可以设定数据库中最大的匹配目标数
I允许BLAST自动优化30个碱基/残基或更短的查询设置
J是一个期望阈值的设置,可以过滤掉不太重要的匹配
K设置初始序列匹配的大小,设置越小越敏感
L限制了最大匹配数,默认设置“0”表示无限制
F和G是得分参数,对BLAST的敏感度也会有影响,不过一般情况下可以设为默认值。
比对结果:
左边图中显示一些关于比对的信息
JobTitile默认情况下显示第一个查询的序列id,也可以提交前对其进行自定义。
RID显示分配给此搜索的唯一标识符,Downlod ALL可以将完整的搜索结果保存为所需的格式XML (XML2)、JSON和CSV
Program列出进行的搜索,在本例中为BLASTN提供参考文献
Database是搜索的数据库,可以查看详细信息
Query ID显示结果的查询序列id
右图中的可以选项参数用于过滤结果
Organism允许设置物种名
Percent Identity 允许设置同一性程度进行过滤,比如94.74% 到94.76%
E Value允许通过期望值进行过滤,比如设置0.0001 到 5e-120 (5x10-120).
Description是BLAST结果默认显示选项,可以通过旁边的按钮切换
以上结果是默认按E值由高到低进行排序的,单击后面的每条accession号可以直接跳转到对应的核酸库或蛋白库中。
Graphics可以链接到基于图形序列的匹配显示(如下图)
Distance tree of results可以以距离树的形式显示比对结果(如下图),如果比对的是蛋白序列的话还会有一个Multiple alignment用于系统发育分析。
Alignments选项下包含查询序列和数据库序列之间的详细比对信息。
BLAST功能强大,使用方便,但是也存在一些缺点,它的分析速度比较慢,比对结果现不够直观,不利于后续的处理,比对不能显示基因内含子、外显子及基因定位等等。
BLAT(The BLAST-Like Alignment Tool)也是一款常用的序列比对工具,对于DNA序列,BLAT是用来设计寻找95%及以上相似至少25个碱基的序列。对于蛋白序列,BLAT是用来设计寻找80%及以上相似至少20个氨基酸的序列。
相比于BLAST,BLAT比对更简单方便,速度更快,还可以输出更为易读的比对结果,可以很容易的找到exons 和 introns。BLAT也同样可以处理DNA,RNA和蛋白质序列的比对。线上BLAT工具在http://genome.ucsc.edu上,也可以下载这个工具的安装版,在线下做比对分析。
BLAT也存在着一定的局限性,比如用于远亲缘物种间的核酸序列比对时,比对精度就不够高,建议使用专门为此用途开发的Blastz软件;对于少量的蛋白质比对任务(如数条或数十条),在速度和精度上Blastp均优于Blat;另外,Blat在重复搜索短小匹配片段的同时,会产生过多的没有生物学意义的序列比对碎片,一步分析确认。
几个常用的多序列比对软件
DANMAN是一个简单常用的核酸序列分析软件,它支持多序列比对、序列同源性分析、限制性酶切位点分析、PCR引物设计、质粒绘图等多种功能,并且是非常友好的Windows界面、软件占用内存小、兼容性也比较好,DNAMAN可以说是分子生物学人的必备工具之一了。
Clustal是基于渐进比对的多序列比对工具,有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlW,clustalX等。ClustalW不仅可以用来做多序列比对,也能做Profile-profile比对,以及基于Neighbor-joining方法构建进化树,是最常用的是多序列比对。但是由于它采用一种渐进的比对方法,不能保证能够得到最优的比对,而且速度也不够快。
Muscle是一款速度最快的比对软件之一,在速度和精度上都优于ClustalW,可以比ClustalW的速度快几个数量级,而且序列数越多速度的差别越大。
它采用迭代方法进行比对运算,每一次最优化过程就是迭代过程,通过不断地使用动态规划算法重排来纠正这种错误,同时对这些亚类群进行比较以获得所有序列地全局比对。但是Muscle地准确度降低了,并且对于内存的要求较高。
MAFFT做多序列比对的精确度和速度都是比较高的,在使用时需要调节的参数也比较少。目前的版本提供两种比对方法,渐进方法和迭代细化方法,也包括更快地对大量序列进行比对的选项、更高精度的比对、非编码RNA序列的比对等。MAFFT也有在线版和本地版。
以上是给大家介绍的比较常用的一些比对软件,大家想学习哪个软件可以留言,我们可以推出详细的使用教程并附上程序链接或软件包。除了上面介绍的这些,还有很多对应于不同功能的比对软件,比如用于基因组比对的比对软件、用于测序数据拼接的比对软件等。