外显子和基因组基本概念(二)

转载

wx643df9f1afa1d 2023-07-18 16:58:33

文章标签 大数据 python 机器学习人工智能数据分析 文章分类 JavaScript 前端开发

上接：外显子和基因组基本概念(一)

（补）细胞周期（Cell cycle）：含间期（Interphase）与分裂期（即M期：Mitosis有丝分裂；Meiosis减数分裂）两个阶段。

间期分为：DNA合成前期（G1，Gap Phase 1）、DNA合成期（S，Synthesis Phase）与DNA合成后期（G2，Gap Phase 2）。
分裂期分为：前期（Prophase）、中期（Metaphase）、后期（Anaphase）和末期（Telophase）。
体细胞突变、癌变或生殖细胞新发突变，多发生在细胞分裂间期的S期或减数分裂的间期。

外显子和基因组基本概念(二)_数据分析

（https://www.genome.gov/genetics-glossary/Cell-Cycle）

外显子和基因组基本概念(二)_人工智能_02

外显子和基因组基本概念(二)_大数据_03

（左：Mitosis, Meiosis and the Cell Cycle (um.edu.mt)；右：http://wap.sciencenet.cn/blog-200233-206079.html）

G0期：在具有分裂能力的组织中，部分细胞会暂时脱离细胞周期，停止细胞分裂，即进入G0期。G0期内的细胞虽不分裂，但仍然活跃地进行代谢活动，执行特定的生物学功能。一旦得到信号指使，G0期细胞会快速返回细胞周期，分裂增殖。如结缔组织中的成纤维细胞，平时并不分裂；但一旦所在的组织部位受到伤害，成纤维细胞会马上返回细胞周期，分裂产生大量的成纤维细胞分布于伤口部位，促使伤口愈合。

对G0期细胞的产生和其重返细胞周期机理的研究，已越来越受到人们的重视。不仅涉及对细胞分化和细胞增殖调控过程的探讨，而且对生物医学，如肿瘤发生和治疗、药物设计和药物筛选等，都具有重要的指导意义。

全外显子测序与基因组测序的应用: 胚系（或生殖细胞）突变检测，如人类遗传病、遗传性肿瘤、植物优良表型等；体细胞突变检测，如癌症研究、寻找药物靶点、肿瘤负荷监测等。

乔纳森·罗斯伯格与世界第一台高通量测序仪。罗斯伯格1985年毕业于卡内基梅隆大学化学工程专业（子承父“业”），1991年耶鲁大学生物学博士（期间创办CuraGen，旨在提供自动化方法寻找新基因）。2000年成立CuraGen的子公司，即著名的454 Life Science（第一家高通量DNA测序仪制造公司）。

外显子和基因组基本概念(二)_机器学习_04

(https://medicine.yale.edu/profile/jonathan_rothberg/)

罗斯伯格创建454公司的想法来自于他的孩子罹患遗传疾病（结节性硬化症，TSC）的痛苦经历。

Ion Torrent原先是一家公司（后被Life公司收购），创办人仍是罗斯伯格。

2013年罗斯伯格离开Ion Torrent，创办LAM Therapeutics，研发治疗肺淋巴管肌瘤病（一种发生于发生于育龄期女性的罕见病）的药物。

生物信息学（第二版）

乔纳森·罗斯伯格（Jonathan Rothberg）https://www.forwardpathway.com/86412

群体（Polulation）：是指生活在一定空间范围内，能够相互交配并生育具有正常生殖能力后代的同种个体群。

家系（Family/Pedigree）：指记录某一家族各世代成员数目、亲属关系，以及有关遗传性状或遗传病在该家系中分布情况的图示。

先证者（Probands）：指在对某个遗传性状进行家系调查时，其家系中第一个被确诊的人。在谱系图上通常用箭头或手指图形来表示先证者。例如：

外显子和基因组基本概念(二)_大数据_05

在遗传病的家系调查中最初在医院受到检查的患者就是先证者，通常每一家系中有一个人是先证者，但在检查地区内的全体人员的时候，则所有患者都是先证者。

基因（Gene）：DNA的一个片段（section），是遗传的基本单位，为一个（生物）特征的遗传物质，为RNA或蛋白质的合成进行编码。

蛋白质是生命活动的承担者，一个疾病的产生往往是由于一个或少数几个蛋白的破坏；而基因是遗传的基本单位。以基因或蛋白的视角去统领整个遗传学研究可“承上启下”（上承SNV/InDel/CNV，下接GO/KEGG等生物学过程或通路）。

等位基因（Allele）：基因的一种特殊形式。一个来自父亲，另一个相同的部分来自母亲，也有可能是新发（de novo）突变形成的新等位基因。

基因型（Genotype）：从个体父母那里获得的（或新发突变形成的）两个等位基因的组合。例如：GA（或G/A）。

等位基因频率（Alleles Frequency, AF）：在一个群体中，某类等位基因占该基因位点上全部等位基因数的比率。

基因型频率（Genotype Frequence, GF）：群体中某一基因型个体的数目占群体总个数的比例。

遗传平衡定律或哈迪.温伯格定律（Hardy-Weinburg）：在一个群体无限大，且又具备以下条件：随机交配、没有突变没有选择、没有遗传漂变的情况下，群体内一个位点上的基因型频率和基因频率将代代保持不变，处于“遗传平衡状态” ，这一平衡状态就称之为Hardy-Weinberg Equilibrium（哈迪-温伯格平衡）。

外显子和基因组基本概念(二)_人工智能_06

连锁不平衡（Linkage Disequilibrium）：相邻位点之间的非随机关联，当一个位点上的某一等位基因与另一位点上的等位基因共同出现的概率大于随机组合的假设，则这两个位点之间存在连锁不平衡。

连锁平衡（Linkage equilibrium）：两个基因座的等位基因组合的频率等于组成组合的等位基因各自频率的乘积，不存在优势组合，称为连锁平衡。

杂合子（Heterozygous，美/hetərəˈzaɪɡəs/）：具有两个不同等位基因的基因型。

纯合子（Homozygous，美/hoʊməˈzaɪɡəs/ ）：具有两个相同等位基因的基因型。

复合杂合子（Compound heterozygous）：即：（同一个基因的）双等位突变。同一个基因在每条染色体均存在变异，但发生的位置不同。复合杂合子重要意义在于：两对及以上的等位基因可以在各自杂合状态下（同时也是隐性遗传），联合起来导致疾病（无需纯合突变致，但造成与纯合突变相似的破坏性）。如下图：

外显子和基因组基本概念(二)_python_07

复合杂合度反映了许多常染色体隐性遗传疾病突变基础的多样性（diversity of the mutation base）；大多数致病基因发生过多次突变。这意味着许多疾病发生在拥有两个不相关等位基因的个体身上，这些等位基因从技术上讲是杂合子（也是隐性遗传），但两个等位基因都有缺陷。

外显子和基因组基本概念(二)_数据分析_08

（https://doi.org/10.1038/s41439-018-0035-5）

表型（Phenotype）：基因型和环境共同决定的基因的物理表达，如：眼睛的颜色、身高、智力、是否患病。

次要等位基因（Minor allele ）：其概念主要用于群体的（全基因组）关联分析。一般用A1代表minor allele，A2代表major allele，均是由实际测序样本中的分布决定。据此，可以统一基因型（Genotype）的写法，例如：A1A1，A1A2，A2A2。

在群体的（全基因组）关联分析中，F_A代表minor allel在case中的频率，F_U表示minor allel在control中的频率（均是针对minor allel的定义）。

例如：假设Case有基因型如下的个体：AA, AA, AT；

Control有基因型如下的个体：TT, AA, TA, AA, AT, AT。

故等位基因A的个数是12，T的个数为6，

则A1（minor allel）为T，总占比少：6/(12+6)；A2为A（major allel）。

F_A=1/6≈0.1666667；F_U=5/12≈0.4166667，可见0.4166667>0.1666667，是否具有显著性则需要计算P-value，样本量少时一般选择费舍尔精确检验。

一个典型的相关数据表：

外显子和基因组基本概念(二)_python_09

（https://doi.org/10.2147/NDT.S186705）

MAF（Minor allele frequency）：次要等位（Minor allele ）基因的频率。

先证者模式：是只对家系中第一个发现该病的患者（先证者）一个人进行检测，数据分析后有疑似致病性位点，再进行父母或其他患病成员的家系Sanger测序验证。

家系trio模式：对先证者及其父母三个人（family trio）全部进行高通量测序。trio模式会提高阳性诊断率，如严重发育障碍患者，先证者模式WES阳性诊断率是28%，Trio-WES的阳性诊断率可以提高至40%。

家系模式的优势之一是可进行家系表型-基因型的共分离分析，可以从遗传学上考虑到更有意义的变异位点，如：新发（De novo）突变、纯合突变、复合杂合突变、X连锁疾病半合子突变、单亲二倍体等。通过家系筛查可以判断变异致病性，有更强的遗传学证据，同时避免先证者模式可能造成的假阳性结果。

fasta文件：fasta格式是生物信息学领域的一项标准格式。第一行是由大于号“>”打头的任意文字说明。从第二行开始为序列本身，核苷酸符号大小写均可，氨基酸常用大写字母。存放fasta格式序列的文件为fasta文件（文件名后缀为.fa或.fasta）。例如：人类参考基因组、Biomart（Ensembl）下载的基因CDS序列。

fastq文件：除第一行以”@”符号开头外，前两行与fasta格式一致；第三行由“+”开始（也可以跟着序列的描述信息）；第四行是第二行序列的测序质量评价（ASCII码，转换时注意Phred+33与Phred+64），字符数跟第二行的序列是相等的。存放fastq格式序列的文件为fastq文件（文件名后缀为.fq或.fastq）。例如：原始测序数据或Clean Data。NGS基础：测序原始数据批量下载

测序质量报告：一般使用FastQC等软件对测序原始数据质量进行查看。主要内容包括。Basic Statistics、Per base sequence quality、Per sequence quality scores等，结果可放在文章的补充材料。

数据量产出统计：Read Length（读度长度）、原始read数和总碱基数量。

质量控制：过滤基本参数、Clean reads结果统计和过滤后的高质量碱基总数。

sam文件：即Sequence Alignment/Map，是一种通用的、用于说明序列比对结果的文本文件（文件名后缀为.sam）。例如：测序fastq文件 + 参考基因组作为输入文件，经序列比对软件（如：BWA-MEM）进行比对后可产生SAM文件（是一个比较耗时间、耗计算量的步骤）。生信分析过程中这些常见文件的格式以及查看方式你都知道吗？

sam文件格式。sam存储了测序Reads到参考序列的比对位置及信息，包含一系列以制表符（Tab键）分隔的ASCII编码数据列。一个典型的例子：

外显子和基因组基本概念(二)_机器学习_10

（https://datacarpentry.org/wrangling-genomics/04-variant_calling/index.html）

在比对结果部分，第1列QNAME表示read的名称；第2-4列表示染色体坐标；第5列MAPQ（比对的质量分数）越高说明该read比对到参考基因组上的位置越唯一；第6列CIGAR速记代码（Compact Idiosyncratic Gapped Alignment Report）用来定义read与参考序列之间的差异（比较原始的突变或变异记录信息）。

CIGAR以参考序列为基础，使用数字加字母表示比对结果，M：MATCH，I：INSERTION，D：DELETION，N：skipped bases on the reference，S：SOFT CLIPING，H：HARD CLIPING，P：PADDING。比如100M 表示100个碱基在比对时完全匹配；4S6M1P1I4M表示：前4个碱基被剪切去除了，然后6个比对上了，然后打开了一个缺口，有一个碱基插入，最后是4个比对上了。

外显子和基因组基本概念(二)_python_11

（https://datacarpentry.org/wrangling-genomics/04-variant_calling/index.html）

bam文件：是SAM文件的二进制版本（文件后缀.bam））。节省了存储空间（一个SAM文件可能高达50GB），建立索引后也便于查看。

Mapping统计：Total Mapping Reads、UnMapped Reads统计、Mapping率和测序覆盖度/测序深度分析。

检测全基因组中所有多态性位点时，可结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNP/SNV数据集。

bed文件：即：Browser Extensible Data (BED)，是与特定参考基因组配套的说明书（二者具有一致的坐标系），可注释：基因名、外显子号、基因类型、功能分类、正反链和CNV等 (Bedtools使用简介

外显子和基因组基本概念(二)_机器学习_12

VCF文件：VCF即：Variant Call Format，是存储变异位点的标准格式，SNP/SNV/InDel/SV/CNV均可被其表示。VCF文件解读：

外显子和基因组基本概念(二)_机器学习_13

（https://docs.it4i.cz/software/bio/omics-master/overview/）

注意：普通VCF文件只记录变异，野生位点及未检测到的位点都被扔掉了，且无法还原。

gVCF（Genome Variant Call Format）文件：gVCF的开发是为了同时存储非变异和变异位置的测序信息，这是人类临床应用所必需的。

gVCF文件分类：包括：“-ERC GVCF” 和“-ERC BP_RESOLUTION”，前者以“块”（block）的形式记录（有效的压缩文件的行数和大小，后期合并多个样本时又可被GATK有效还原），后者对所有检测到的位点全部记录（文件非常大）。

队列或群体样本研究推荐使用而非普通VCF文件。原因是：多个样本的VCF文件进行合并时必须区分./.和0/0（./.是未检出的基因型）。如果仅使用普通的VCF文件（./.和0/0均不记录，只记录变异）进行合并，则无法区分./.和0/0，导致结果产生偏差甚至错误。

基因组分析中一个典型的数据流：

外显子和基因组基本概念(二)_机器学习_14

(https://www.mdpi.com/1422-0067/18/2/412/htm)

错义突变（Missense mutation）：是指DNA的突变引起mRNA中密码子改变，编码另一种氨基酸。

无义突变（Nonsense mutation）：DNA的突变引起mRNA中的密码子改变为一种终止密码子。很让人费解的一个翻译。

突变/变异所在的位置的分类：exonic、intronic、intergenic、3’UTR 和5’UTR等。

Exonic区域蛋白一级结构影响分类（SNP/SNV）：nonsynonymous（非同义突变）、synonymous（同义突变）、stop-gain（翻译提前终止，终止突变）、stop-loss（终止密码子缺失，终止缺失）。

Exonic区域的蛋白一级结构影响分类（Indel）：frameshift（移码）、nonframeshif（非移码）、stop-gain 、stop-loss等。利用软件进行突变功能预测。对于遗传疾病的诊断来说，必须尽可能地准确判断变异的致病性。根据获得的与生物特殊性状或表型相关的候选基因，可通过软件对突变导致的基因功能变化进行预测，为后续的功能验证提供数据支持：

外显子和基因组基本概念(二)_大数据_15

(https://zhuanlan.zhihu.com/p/189865926)

软件预测结果是变异评级的重要依据，例如2015年发布的《ACMG遗传变异分类标准与指南》中的PP3证据包含：“多种统计方法预测变异会对基因或基因产物造成有害的影响”。

变异的有害性预测原理：有害性预测通常应用于非同义突变和剪接变异。剪接变异影响RNA的剪接方式，使得成熟mRNA中包含内含子或缺失外显子的序列，从而影响蛋白结构和乃至功能。非同义突变和剪接位点突变都可能导致不同程度的蛋白质结构和功能变化，最终导致疾病的发生。

目前已有多种计算机软件可用于评估序列变异对基因功能的影响，算法各异，如：蛋白质的结构和功能影响，序列保守性和机器学习。

SIFT (Sorting Intolerant From Tolerant）：http://sift.jcvi.org。基于同源蛋白每个位点上的氨基酸保守性，通过进化保守性和位置特异打分矩阵PASSM，SIFT预测错义替换是否影响蛋白质功能，从而得知这个氨基酸替代是否有害。SIFT分数范围0-1，分值＜0.05的位置被预测为有害D：Deleterious，分值≥0.05，则预测为无害T：Tolerated。
PolyPhen2（Polymorphism Phenotyping v2, PP2）：http://genetics.bwh.harvard.edu/pph2/index.shtml。基于进化保守性与蛋白质的三维结构，利用贝叶斯分类器计算后验概率来预测突变的致病性。通过已有的蛋白质注释数据库鉴定替换位置的重要性做打分矩阵评分，软件应用机器学习算法Naive Bayes。

Polyphen2_HVAR，基于HumanVar数据库，常用于单基因遗传病，预测结果D: Probably damaging (很可能有害，分值>=0.909)，P: Possibly damaging (可能有害，0.447<=分值<=0.909)，B: Benign (无害，分值<=0.446))。
Polyphen2_HDIV，基于HumanDiv数据库，常用于复杂疾病。预测结果D: Probably damaging (很可能有害，分值>=0.957)，P: Possibly damaging (可能有害，0.453<=分值<=0.956)，B: Benign (无害，分值<=0.452)。

CADD（Combined Annotation Dependent Depletion）：https://cadd.gs.washington.edu/。CADD是对人类基因组中单核苷酸变异以及插入/删除变异的危害性进行评分的工具/网站。虽然有许多不同的注释和评分工具，但大多数注释倾向于利用单一的信息类型（例如：保守性）和/或在适用范围上受限（例如：错义突变）。因此，需要一个广泛适用的度量标准，客观地衡量和集成各种信息。CADD是一种框架，通过对比自然选择中幸存的变体和模拟突变，将多个注释集成到一个数据集中。C-scores 与等位基因多样性、编码和非编码变异的致病性、实验测量的调控效应以及个体基因组序列中的Top致病变异（highly rank causal variants）密切相关。最后，全基因组关联研究（GWAS）中复杂性状相关变异的C-scores 显著高于匹配的对照，并与研究样本量相关，这可能反映了更大的GWAS准确性的提高。CADD可以在广泛的功能类别、效应值和遗传结构中，定量地对功能性、有害性和致病性变异进行优先级排序，亦可在科研和临床环境中对致病变异进行优先性排序。scaled C-scores也叫做PHREAD。在分析潜在的致病变异位点时，通常会对PHREAD进行过滤。官方推荐阈值为10,15,20都可以，但是更加推荐结合C-Scores和其他实验证据来对变异位点的致病性进行评估，而不是单纯的进行一个数值过滤。CADD包含且整合了PolyPhen和SIFT的结果。
RVIS (Residual Variation Intolerance Score) ：是一个基于基因评分的模块，旨在帮助解释人类序列数据。在gnomad.broadinstitute.org上可下载后台数据，包含每个基因的评分（文件RVIS_Unpublished_ExACv2_March2017一共包含17,519个基因）。在线预测结果：

生物学通路（Biological pathway）：包括代谢通路和信号转导通路等，是生物功能的重要组成部分。广义的通路包含：GO Terms和KEGG Pathways等。

GO (Gene Ontology) ：即：基因本体。GO用有控制的词汇表和严格定义的概念关系，以有向无环图的形式统一表示各物种的基因功能分类体系，涵盖生物学的三个方面：细胞组分、分子功能、生物过程，较全面地概括了基因的功能信息。

KEGG（Kyoto Encyclopedia of Genesand Genomes）：即：京都基因和基因组百科全书。是一个数据库集合，涉及基因组、生物途径、疾病、药物和化学物质，从分子水平了解生物系统，如细胞，有机体和生态系统的高级功能和效用。推荐几个常用的生物通路数据库

通路分析的必要性。SNP/SNV/InDel/SV/CNV所涉及的突变位点和基因，结合人群频率、临床表型、遗传模式、突变类型及有害性、数据库资源等进行筛选后，最终可能仍然包含大量基因，须结合通路进行进一步的筛选。

通路分析的意义。通过超几何分布检验等方法对上述基因在各种通路的富集程度进行排序，或结合PPI（蛋白-蛋白互作）网络等进行综合分析，进而识别和筛选发生显著功能改变的潜在通路。最终考察功能性突变对这些通路的影响程度和影响规律，确认少数潜在的致病基因，解释疾病。

基因组分析的常见统计可视化。例如：碱基替代类型和比例，密码子和氨基酸变化，各基因变异的分布（Circles图），候选位点的检测、统计和注释，候选基因的GO、KEGG富集和功能注释，PPI网络，多物种同源基因序列比较，突变对蛋白三维结构的影响等。

撰写：宋红卫

校对：叶明皓

新鲜出炉 | 临床基因组学数据分析实战将于2021年11月12-14开课！！！

外显子和基因组基本概念(二)_大数据_16

外显子和基因组基本概念(二)_大数据_17

上一篇：基因组浏览器IGV的安装和图形解读

下一篇：招聘| 基因组所Yuwen Liu团队诚聘科研人员

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

外显子和基因组基本概念(二)

外显子和基因组基本概念(二)

51CTO博客