机器学习的基因多态性检测

转载

jacksky 2024-11-04 17:11:24

文章标签 机器学习的基因多态性检测 transition 生物 c 多态性 文章分类 机器学习人工智能

单核苷酸多态性(single nucleotide polymorphism，SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在，平均每500～1000个碱基对中就有1个，估计其总数可达300万个甚至更多。

    SNP所表现的多态性只涉及到单个碱基的变异，这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起，也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。

    理论上讲，SNP既可能是二等位多态性，也可能是3个或4个等位多态性，但实际上，后两者非常少见，几乎可以忽略。因此，通常所说的SNP都是二等位多态性的。这种变异可能是转换(C T，在其互补链上则为G A)，也可能是颠换(C A，G T，C G，A T)。转换的发生率总是明显高于其它几种变异，具有转换型变异的SNP约占2/3，其它几种变异的发生几率相似。Wang等的研究也证明了这一点。转换的几率之所以高，可能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点，其中大多数是甲基化的，可自发地脱去氨基而形成胸腺嘧啶。

    在基因组DNA中，任何碱基均有可能发生变异，因此SNP既有可能在基因序列内，也有可能在基因以外的非编码序列上。总的来说，位于编码区内的SNP(coding SNP,cSNP)比较少，因为在外显子内，其变异率仅及周围序列的1/5。但它在遗传性疾病研究中却具有重要意义，因此cSNP的研究更受关注。

    从对生物的遗传性状的影响上来看，cSNP又可分为2种：一种是同义cSNP(synonymous cSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列，突变碱基与未突变碱基的含义相同；另一种是非同义cSNP(non-synonymous cSNP),指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变，从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。cSNP中约有一半为非同义cSNP。

    先形成的SNP在人群中常有更高的频率，后形成的SNP所占的比率较低。各地各民族人群中特定SNP并非一定都存在，其所占比率也不尽相同，但大约有85%应是共通的。

    SNP自身的特性决定了它更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究：

1、 SNP数量多，分布广泛。据估计，人类基因组中每1000个核苷酸就有一个SNP，人类30亿碱基中共有300万以上的SNPs。SNP 遍布于整个人类基因组中，根据SNP在基因中的位置，可分为基因编码区SNPs（Coding-region SNPs，cSNPs）、基因周边SNPs（Perigenic SNPs，pSNPs）以及基因间SNPs（Intergenic SNPs，iSNPs）等三类。

2、 SNP适于快速、规模化筛查。组成DNA的碱基虽然有4种，但SNP一般只有两种碱基组成，所以它是一种二态的标记，即二等位基因（biallelic）。由于SNP的二态性，非此即彼，在基因组筛选中SNPs往往只需+/-的分析，而不用分析片段的长度，这就利于发展自动化技术筛选或检测SNPs。

3、 SNP等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是：首先选择参考样本制作标准曲线，然后将待测的混和样本与标准曲线进行比较，根据所得信号的比例确定混和样本中各种等位基因的频率。

4、易于基因分型。SNPs 的二态性，也有利于对其进行基因分型。对SNP进行基因分型包括三方面的内容：(1)鉴别基因型所采用的化学反应，常用的技术手段包括：DNA分子杂交、引物延伸、等位基因特异的寡核苷酸连接反应、侧翼探针切割反应以及基于这些方法的变通技术；(2)完成这些化学反应所采用的模式，包括液相反应、固相支持物上进行的反应以及二者皆有的反应。(3)化学反应结束后，需要应用生物技术系统检测反应结果。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。