全外显子(Whole-exome sequencing):(摘自http://www.sohu.com/a/135797054_419916)

首先外显子组(Exome)是指真核生物基因组中全部外显子区域的总和,包含了蛋白质合成最直接的信息。外显子 组测序(Exome-seq)是利用设计好的探针试剂盒将坐标已知的全基因组外显子区域的DNA捕捉并富集后,进行高通量测序的基因组分析方法。 对于人类基因组来说,外显子区域大概占到基因组的1%,大概在30M左右。

一般全外显子测序的测序深度为50X~200X,具体深度依研究目的而定,其个体之间的变异小(在VCF文件上记录着少许差异,一点点)。

转录组测序(RNA-seq):

首先转录组是指在相同环境(或生理条件)下的在一个细胞、或一群细胞中所能转录出的所有RNA的总和,包括信使RNA(mRNA)、核糖体RNA(rRNA)、转运RNA(tRNA)及非编码RNA。转录组测序(RNA-seq)是将提取所要研究的特定类型的RNA,将其反转录成cDNA,利用高通量测序技术获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息。对于已知参考基因组的物种,所获得大部分序列是已知的,同时会有一些新的转录本会被检测到,几乎可以忽略;甚至处于不同状态的人,其转录组数据有所不同。因此其主要的研究点——研究随着时空的变化、组织的变化、样本的变化,转录本发生改变。

染色质免疫共沉淀测序(ChIP-seq):

主要用于蛋白质与DNA相互作用研究,采用特异抗体对目的蛋白进行免疫沉淀,分离与目的蛋白结合的基因组DNA片段,对其进行纯化和文库构建,再通过高通量测序的方法,在全基因组范围内寻找目的蛋白的DNA结合位点,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA片段信息。(与外显子测序不一样,不是通过设计好的探针来捕获序列的,而是通过特异的RNApoly酶、组蛋白、转录因子来捕获序列的,蛋白结合在哪里就捕获哪里。每做一次实验,换一个蛋白,所捕获的序列是不一样的。)因此其主要研究点——研究用不同组蛋白、转录因子等不同蛋白来做不同的实验,找出互作的DNA序列的不同。

3 明差异 测序范围的区别:

全外显子测序测的是所有的能被探针捕获到的外显子区域,在IGV上面能看到reads都是覆盖到外显子及其侧翼区域。所以分析要点就是哪些已知的外显子覆盖度不够好,是探针捕获失败还是样本本身变异呢?外显子的哪些区域跟参考基因组序列不一样呢?

转录组测序测的是能被转录的区域,不需要是已知的外显子,而且reads是可以跨越外显子比对的!所以分析要点是哪些外显子被连接起来了?每个外显子都被覆盖了吗?

ChIP-seq测的是目标蛋白结合的DNA序列,取决于目标蛋白的结合能力,所以它的分析要点就是这些DNA序列在基因组的位置。

测序深度的区别:

全外显子测序的测序深度在大部分区域都是均匀的(反应捕获效果,或者拷贝数变异);

转录组测序一定是不均匀的,以外显子为单位的不均匀(反应表达量差异);

染色质免疫共沉淀测序的测序深度也是不均匀的,以每个碱基为单位的不均匀(反应蛋白结合位点);

其实还有关于这几个组学数据分析的异同点, 暂时还没有时间来整理:

trios全外显子基因检测 全外显子基因检测方法_trios全外显子基因检测

 

(1)使用范围有所不同。外显子组测序只能对已知基因组序列信息的物种进行测序,而转录组测序没有这样的限制。转录组可以对Non-coding RNA等进行测序,而外显子组测序仅限于外显子区域;

(2)转录组可以反映特定时刻、特定组织该物种的基因表达情况,而外显子组测序不具备此能力。但是,因为部分基因低表达或组织特异表达,转录组难以获得物种全部外显子的信息,而外显子组测序不受表达情况影响,可均一地获得外显子区域序列信息;

(3)从转录组获得的遗传信息可能受到转录后加工的影响而导致与基因组不符,而外显子测序无此影响。 染色质免疫共沉淀的测序范围是不确定的、未知的,研究不同蛋白质,其所捕获DNA序列区域是不同的;

我的基因组(八):原始测序数据质量报告

Nanodrop和Qubit仪器检测提取到DNA,检验合格的DNA样品通过Covaris破碎机随机打断成长度为350bp的片段,用TruSeq Library Construction Kit进行建库,PE150测序方式,Agilent 2100检查文库的insert size,具体名词自行搜索理解

Raw reads:统计原始序列双端read pair总数目;根据FASTQ的格式,以四行为一个单位进行统计。

Raw data:统计原始序列数据量。

Effective:过滤后用于后续的生物信息分析的Clean reads占原始数据的比例。

Error rate:通过公式一计算得到。

Q20、Q30:分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。

GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。

表格里面提到了好几个概念,比如duplicate的reads,一般来说是PCR造成的duplicate,在找变异的时候需要去除掉。然后是那些比对到了不同染色体的reads pair,虽然只有2.29% ,也是需要重点分析的。

Total:clean data双端总reads数目

Duplicate:重复的reads数目

Mapped:比对到参考基因组上的总reads数目(比例)

Properly mapped:比对到参考基因组且方向正确的reads数目(比例)

PE mapped:双端reads比对到参考基因组上的reads数目(比例)

SE mapped:仅单端read比对到参考基因组上的reads数目(比例)

with mate mapped to a different chr:比对到不同染色体的reads数目

with mate mapped to a different chr (mapQ>=5):比对到不同染色体且比对质量不低于5的reads数目

Average_sequencing_depth::比对到参考基因组的平均测序深度(测序数据量/基因组大小)

Coverage:比对数据对全基因组区域的覆盖度(碱基覆盖长度占全基因组碱基总长的比例)

Coverage_at_least_4X::全基因组区域中碱基覆盖深度不低于4X的比例

Coverage_at_least_10X:全基因组区域中碱基覆盖深度不低于10X的比例

Coverage_at_least_20X:全基因组区域中碱基覆盖深度不低于20X的比例

据介绍,HiSeq+X+Ten也是首个实现千元基因组测序的平台,这其中包括仪器折旧、DNA提取、文库制备及劳动力成本。

我的基因组(九):拿到数据后要做的事情

拿到数据后,第一件要做的事情就是检查数据传输的完整性,然后备份!

检查数据传输的完整性就是md5校验,看看数据在拷贝过程中有没有意外的损坏(这个在之前下载数据的时候我也说过)!一般传输数据之前,会用md5命令来生成各个文件的md5值,就是下面的MD5.txt文件里面的内容,然后传输数据之后,需要自行用md5sum -c MD5.txt 来校验文件里面记录的文件的完整性,如果显示都是OK,说明文件拷贝传输过程是没有问题的!但这个过程会耗费大量的磁盘读写,磁盘读写能力是有限的,所以开多个进程并不能加快这一过程。

 然后我把公司处理好的bam文件上传到服务器做下游分析,我用的winscp软件把文件传到服务器上的!

我的基因组(十):测序数据质量控制

 fastqc软件,它是一个java软件,功能很单一,就是对你的测序数据生成一个网页版的可视化检测报告而已。


 由于fastqc是免安装软件,直接解压后就可以直接使用。解压打开里面后缀是 .bat (相对于windows平台的批处理程序)的文件就打开fastqc啦,然后导入数据开始分析即可,静候一两个小时。 

如果你用的是linux服务器,可以直接用unzip解压fastqc的zip压缩文件。里面有个fastqc的文件,就是fastqc的程序了。我们可以用fastqc  -o output dir [-(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN的命令让它进行质量控制。-o是用来指定输出文件的目录,注意是这里是不能自动新建目录的。输出的结果是.zip文件,默认自动解压缩,-noextract则不解压缩。-f用来强制指定输入文件格式,默认会自动检测。-c用来指定一个contaminant文件,fastqc会把overrepresented sequences往这个contaminant文件里搜索。后面加上你要质控的序列的文件名就可以了。

把所有的fastq.gz文件用fastqc软件处理得到的测序质量检测报告是一个html文件加上一个文件夹,如果没有解压缩需要用命令ls *zip|while read id;do unzip $id;done,把所有压缩包批量解压开。可以看到对每个测序数据它都进行了十几项统计结果和可视化的图片,对该款软件的结果感兴趣的可以下载(http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip) 文件,对原始数据处理前后的fastqc报告的区别显而易见。