基因组大数据分析基因组数据分析方法

转载

编程之翼 2023-09-14 16:03:05

文章标签 基因组大数据分析插入图片 3d 数据 文章分类 数据分析人工智能

《全基因组测序WGS数据分析——1.DNA测序技术》学习笔记

WGS(Whole Genome Sequencing)

指将物种细胞里面完整的基因组序列全部DNA，检测并排列，此技术几乎能够鉴定出基因组上任何类型的突变。
对于人类来说，全基因组测序的价值是极大的，它的信息包含了所有基因和生命特征之间的内在关联性，当然也意味着更大的数据解读和更高的技术挑战。
测序，简单来说就是将DNA化学信号转变为计算机可处理的数字信号。

第一代测序技术——sanger法

Sanger法是基于DNA合成反应的测序技术，又称为SBS法、末端终止法。1975年由Sanger提出，并于1977发表第一个完整的生物体基因组序列。

原理和特点

由于ddNTP（4种带有荧光标记的A,C,G,T碱基）的 2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA的合成反应，在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP（分别为：ddATP,ddCTP,ddGTP和ddTTP），然后利用凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。
在每个反应体系中，ddNTP相对于dNTP是很少的，所以只有部分新链在不同的位置特异性终止，最终就会得到一系列长度不一的序列。
然后对这些DNA片段的混合物进行纯化，也就是去除掉游离的核苷酸和上面游离ddNTP的对这些混合物进行跑胶电泳分析，不同质量的会在电泳上排列在不同的位置，质量小的在上面，重的在下面，最后按顺序对每个序列检测尾部的荧光颜色序列读取每一个的颜色，就可以得到整个DNA片段序列信息了。
第一代测序技术的主要特点为，测序读长可达1000bp ，准确性高达99% 。但是费用高，通量低，是先合成，再测序的方法。
![在这里插入图片描述]( process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)

第二代测序技术——illumina

第二代测序技术大大降低了测序成本的同时，还大幅提高了测序速度，并且保持了高准确性。第二代测序技术的核心思想是边合成边测序（Sequencing by Synthesis）。
第二代测序技术在大幅提高了测序速度的同时，还大大地降低了测序成本，并且保持了高准确性， 以前完成一个人类基因组的测序需要3年时间，而使用二代测序技术则仅仅需要1周 ，但其序列读长方面比起第一代测序技术则要短很多，大多只有 100bp-150bp 。
第一代和第二代测序技术测序成本作了一个简单的比较，可以看出自第二代测序技术发展出来之后，历史开始发生根本性的改变，测序的成本开始快速实现断崖式下降，也就是业内经常提到的超摩尔定律现象。

![在这里插入图片描述](
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)

原理和特点

Illumina循环SBS法(cycle SBS)即SBRT(Sequencing By Reversible Termination,可逆终止)的核心技术是 DNA合成的可逆性末端循环，即3’-OH可逆性的修饰和去修饰。

目前illumina的测序仪占全球75%以上，以HiSeq系列为主。它的机器采用的都是边合成边测序的方法，主要分为以下4个步骤：

step1 构建DNA测序文库

简单来说就是把一堆乱糟糟的 DNA分子用超声波打断成一定长度范围的小片段。目前除了一些特殊的需求之外，基本都是打断为 300bp-800bp长的序列片段，并在这些小片段的两端添加上不同的接头【注】，构建出单链DNA文库，以备测序之用；
纯化后的连接产物构成了测序文库，测序文库是测序是否成功的关键步骤。

【注】接头在illumina中一般分为P5和P7接头，其中一个带有和flowcell上的探针反向互补的序列，以完成待测序列和探针结合的作用，另外一个接头带有barcord序列以区分不同的样本。

![在这里插入图片描述](
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)

step2 测序流动槽 flowcell

flowcell是用于吸附流动DNA片段的槽道，也是核心的测序反应容器——所有的测序过程就发生在这里。当文库建好后，这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的槽道（称为lane）上。
如下图所示，每个flowcell有8个lane，每个lane的表面都附有很多接头，这些接头能和建库过程中加在DNA片段两端的接头相互配对，这就是为什么flowcell能吸附建库后的DNA的原因，并能支持DNA在其表面进行桥式PCR的扩增，理论上这些lane之间是不会相互影响的。
![在这里插入图片描述]( process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)
Flowcell（流动池）是有着2个或8个lane（泳道）的玻璃板，每个lane可以测一个样本或者多样本的混合物，且随机布满了能够与文库两端接头分别互补配对或一致的寡核苷酸（oligos，P7和P5接头）。一个lane包含两列，每一列有60个tile，每个tile会种下不同的cluster，每个tile在一次循环中会拍照4次（每个碱基一次）。
![在这里插入图片描述]( process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)
P5和P7是不同的，它们分别和flowcell上的接头互补和相同。为了方便阐述，将与P5互补的接头称为P5’，与P7互补的接头称为P7’。
index1和index2也是不同的，与P5相连的是index2，与P7相连的是index1
关于index，也叫barcodes，因为一个lane可以同时测多个样品，为了避免混淆样品的read products，每种样品的DNA由一种index修饰，这样测序得到的reads都是具有index标记的，在测序结果中，依据之前标签与样品的对应关系，就可以获得对应样品的数据。而这里的index1和index2是为了区分paired-end测序得到的双端reads。

step3 PCR桥式扩增与变性

这是高通量测序技术NGS的一个核心特点。桥式PCR以flowcell表面所固定的序列为模板，进行桥形扩增，如下图所示。经过不断的扩增和变性循环，最终每个DNA片段都将在各自的位置上集中成束，每一个束都含有单个DNA模板的很多分拷贝，经桥式扩增把每个待测片段扩增到1000个拷贝左右。这一过程的目的在于实现将单一碱基的信号强度进行放大，以达到测序所需的信号要求。
![在这里插入图片描述](
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)

step4 测序

测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP （如同Sanger测序法）。这些 dNTP的3’-OH被化学方法所保护，因而每次只能添加一个dNTP，这就确保了在测序过程中，一次只会被添加一个碱基。同时在dNTP被添加到合成链上后，所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着，再加入激发荧光所需的缓冲液，用激光激发荧光信号，并有光学设备完成荧光信号的记录，最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后，再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团，以便能进行下一轮的测序反应。
测序过程中，往每个泳道里加入DNA聚合酶和四种不同荧光标记的特殊核苷酸（A T C G）。在酶的催化作用下，从测序引物结合部位开始合成与测序模板互补的DNA链，每次加入一个核苷酸。一轮合成反应结束后，每一个簇被激发产生不同的荧光，由测序仪的光学系统拍照并记录，特定波长的荧光代表不同的核苷酸，从而实现了待测模板第一个碱基的测序。
即将dNTP的3’-OH以叠氮集团RTG(Reversible Terminating Group,可逆末端基团)进行修饰；将4种碱基分别与不同的荧光分子连接；DNA合成时，RTG能起到类似于ddNTP的作用终止反应；每次合成反应终止并读取信号之后，洗脱RTG和荧光分子，进行下一轮循环。
一个测序循环结束后，核苷酸3’端的屏蔽基团被酶切除，从而可以进行下一个循环的合成测序，合成的下一个核苷酸产生的荧光再次被记录。如此周而复始，经过100或150个循环后，实现了每个簇上待测模板的 100bp/150bp的正向单向测序。
如果要进行双端测序，在单向测序完成后，往系统中加入缓冲液，洗掉测序过程中合成的DNA链，系统合成待测序列的互补链，然后以互补链为测序模板链，以与正向测序的方式进行反向测序，这样就得到了与正向序列相对的反向序列。

基因组大数据分析基因组数据分析方法_数据

一个簇的图像数据就是一个DNA序列（read），每条泳道（lane）上簇的密度可达750~850K/mm2，这样在一张芯片上簇的数量可以达到数亿或数十亿个。然后再通过第二种引物检测index上的，继续测序数个碱基，这里的测序就不是为了DNA测序，而是为了确定每个接头上DNA片段的来源。
虽然每个接头能测序的量不多，但是由于每个Flowcell有上亿个接头，因此二代测序的通量是非常大的，准确率也是非常的高。
llumina的这种每次只添加一个dNTP的技术特点能够很好的地解决同聚物长度的准确测量问题，它的主要测序错误来源是碱基的替换，目前它的测序错误率在1%-1.5%左右。测序周期以人类基因组重测序为例，30x-50x测序深度对于Hisq系列需要3-5天时间，而对于2017年初最新推出的NovaSeq系列则只需要40个小时！

目前二代测序存在的测序错误主要原因有以下两点：

Phasing ，也就是由于酶的活性的原因，部分接头上的叠氮基没有掉落，导致分子掉队的现象，也就是没有聚合下一个碱基，随着聚合循环次数增多，会导致Phasing现象越来越严重，这也是为什么二代测序的长度一般比较短。
Prephasing ,这种情况产生的原因和Phasing的原因相反，是因为多结合了一个碱基，也就是单次聚合了两个或者以上的碱基，出现这种现象的原因就是叠氮基不稳定，容易掉落，一旦当前聚合的碱基中的叠氮基掉落，他就可以结合新的ddNTP，导致超前的聚合。
因此Illumina公司用一些PF（phase filter）率或者质量分数（quality score）来评判测序结果的可靠性。

不同系列测序仪的比较

测序量比较（双流动槽为例，如为单流动槽则测序量减少为下表的一半，时间不变）

基因组大数据分析基因组数据分析方法_数据_02

一次测序的数据总产量的单位Gb，不是计算机字节，而是测序碱基的数目（Giga base）

![在这里插入图片描述](

process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)

上面表图是NovaSeq和其他测序系列的比较，数据相当好。按照这个数据量估算，一台NovaSeq

6000（S4）在跑满的情况下，一年就可以测序6400多人！而且按照以往的经验，illumina的官方公布的数据都是偏于保守的，我们在实际的使用过程中发现

高质量（Q30）的read其实占到了总数据的90%以上，远高于官方公布的75%，数据的总产量也同样更高。

第三代测序技术——PacBio SMRT技术（纳米孔单分子技术）

目前第三代测序技术主要为以PacBio公司的SMRT为主，最大的特点就是单分子测序，对于DNA 样本不需要经过PCR 扩增，超长读长，测序读长平均达到10Kb-15Kb，是二代测序技术的100倍以上。

原理和特点

PacBio SMRT技术其实也应用了边合成边测序的思想，并以SMRT芯片为测序载体（如同flowcell）。
基本原理是： DNA聚合酶和模板结合，用4色荧光标记A,C,G,T这4种碱基（即是dNTP）。在碱基的配对阶段，不同的碱基加入，会发出不同的光，根据光的波长与峰值可判断进入的碱基类型。
![在这里插入图片描述]( process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)
这个DNA聚合酶是实现超长读长的关键之一，读长主要跟酶的活性保持有关，它主要受激光对其造成的损伤所影响。PacBio SMRT技术的一个关键点是在于如何将反应信号与周围游离碱基的强大荧光背景区别出来。
他们利用的是ZMW（零模波导孔）原理：在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔，即 ZMW(零模波导孔)，外径100多纳米，比检测激光波长小(数百纳米)，激光从底部打上去后不会穿透小孔进入上方的溶液区，能量会被限制在一个小范围(体积20X 10-21 L)里（图A），正好足够覆盖需要检测的部分，使得信号仅仅只是来自于这个小反应区域，孔外过多的游离核苷酸单体依然留在黑暗中，从而实现将背景噪音降到最低的目的。
在纳米室底部有一个孔径70nm的小孔，由于远远小于激光的波长，所以激光从底部照射时，只会照亮一个小的区域，提高了信噪比。
PacBio SMRT技术除了能够检测普通的碱基之外，还可以通过检测相邻两个碱基之间的测序时间，来检测碱基的表观修饰情况，如甲基化。因为假设某个碱基存在表观修饰，则通过聚合酶时的速度会减慢，那么相邻两峰之间的距离会增大，我们可以通过这个时间上的差异来检测表观甲基化修饰等信息。
![在这里插入图片描述]( process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)

流程

聚合酶捕获文库DNA序列，锚定在零模波导孔底部
4种不同荧光标记的dNTP随机进入零模波导孔底部
荧光dNTP被激光照射，发出荧光，检测荧光
荧光dNTP与DNA模板的碱基匹配，在酶的作用下合成一个碱基
统计荧光信号，获得DNA序列
酶反应过程中，一方面使链延伸，另一方面使dNTP上的荧光基团脱落
聚合反应持续进行，测序同时持续进行

缺点

SMRT技术的测序速度很快，每秒约10个dNTP。但是，同时其测序错误率比较高（这几乎是目前单分子测序技术的通病），达到15%,但好在它的出错是随机的，并不会像第二代测序技术那样存在测序错误的偏向，因而可以通过多次测序来进行有效的纠错。此外，不能高效的将DNA聚合酶加入到阵列中，而且DNA聚合酶的降解也是丞待解决的问题。

第三代测序技术——Oxford Nanopore

单分子实时测序的新一代技术，主要是通过ssDNA或RNA模板分子通过纳米孔而带来的“电信号”变化推测碱基组成进行实时测序。

原理和特点

当纳米孔充满导电液时，两端加上一定电压，分子模板通过纳米孔生成可测量电流。纳米孔的直径只能容纳一个核苷酸，单链模板就会在电场作用下依次通过纳米孔而引起电流强度变化，通过检测相应的电流峰判断碱基，实现实时测序。
四种核苷酸的空间构象不一样，因此当它们通过纳米孔时，所引起的电流变化不一样。由多个核苷酸组成的DNA或RNA链通过纳米孔时，检测通过纳米孔电流的强度变化，即可判断通过的核苷酸类型，从而进行实时测序。
这个技术的关键点在于他们所设计的一种特殊纳米孔，孔内共价结合分子接头。当DNA分子通过纳米孔时，它们使电荷发生变化，从而短暂地影响流过纳米孔的电流强度（每种碱基所影响的电流变化幅度是不同的），最后高灵敏度的电子设备检测到这些变化从而鉴定所通过的碱基。
![在这里插入图片描述]( process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)
纳米孔测序以及其他第三代测序技术，有可能会彻底地解决目前第二代测序平台的诸多不足。另外，MinION的主要特点是：读长很长，而且比PacBio的都长得多，基本都是在几十kb上百kb以上，最新的数据显示可以达到900 kb！错误率是5%-15% ，也是随机错误，MinION最大的特点除了极小的体积之外，就是数据将是可实时读取的，并且起始DNA在测序过程中不被破坏！
此外，单分子纳米孔技术能够检测DNA甲基化，它能直接读出被甲基化的胞嘧啶，这对于在基因组水平直接研究表观遗传相关现象具有极大的帮助。
纳米孔技术读长很长，大约在几十kb，且通量高。然而原始的DNA可能被读错方向，对连续碱基的检测误差较大等问题仍然是一大痛点。
![在这里插入图片描述]( process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODI3OTIzOQ==,size_16,color_FFFFFF,t_70)

四大测序技术的优缺点

Sanger法测序读长长、准确度高，但是通量不高；
Illumina测序读长短、通量高、准确度高，在进行基因组组装或者结构变异分析的时候没有优势，可用作三四代测序read的纠错；
Pacbio测序读长长、通量高、准确度不高，但可通过测序深度弥补，GC偏差低，可进行甲基化的直接测序。
Nanopore测序读长长、通量高、准确度低，不可通过测序深度弥补，但可通过Illumina read 纠错，可进行甲基化的直接测序。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：sql server 查看数据类型 sql查看数据类型语句

下一篇：mysql如何将一张表的数分成两半 mysql分表多少张合适

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯