生物医学数据挖掘题库数据挖掘生物信息学

转载

killads 2023-12-07 00:42:10

文章标签 生物医学数据挖掘题库数据库人工智能生物信息学数据 文章分类 数据挖掘人工智能

生物信息学利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学与信息技术（尤其是因特网技术）的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。目前主要的研究方向有：序列比对，基因识别，基因重组，蛋白质结构预测，基因表达，蛋白质反应的预测，以及建立进化论的模型。
生物学技术往往生成大量的嘈杂数据。与数据挖掘类似，生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括：重新组装在散弹法DNA测序过程中被打散的DNA序列，从蛋白质的氨基酸序列预测蛋白质结构，利用mRNA微阵列或质谱仪的数据检验基因调控的假说。
某些人将计算生物学作为生物信息学的同义词处理，在英语维基百科中就是如此；但是另外一些人认为计算生物学和生物信息学应当被当作不同的条目处理，因为生物信息学更侧重于生物学领域中计算方法的使用和发展，而计算生物学强调应用信息学技术对生物学领域中的假说进行检验，并尝试发展新的理论。

主要研究方向

1.序列分析
1977年，噬菌体Φ-X174成为第一个被完整测定基因组顺序的生物体。自此以后，越来越多生物体的DNA序列被人类测定。通过对这些序列的分析，人们希望获知其中对应蛋白质编码的基因和基因调控序列。不同物种间的基因比对既能够解释和预测他们蛋白质的功能的相似性，又能够揭示不同物种间的联系。由于数据量巨大，依靠人工分析DNA序列早已变得不切实际，这使得人们不得不采用计算机分析数千种生物体的数十亿个核苷酸组成的DNA序列。由于DNA序列中普遍存在变异现象，这些计算机程序需要识别大量相关但是不完全相同的序列。即便是在DNA测序的过程中，也存在着不确定的因素。在DNA测序的散弹法（The Institute for Genomic Research依此技术测定了第一个细菌的基因组）中，完整的DNA链被打散为成千上万条长约600到800个核苷酸的DNA片段。这些DNA片段的两端相互重叠，只有依照正确的顺序组合，才能还原为完整的DNA序列。对于较大的基因组，散弹法能够迅速的测定DNA片段的序列，但将它们组装起来的工作则相当复杂。在人类基因组计划中，该基因重组过程花费了几个月的CPU时间（on a circa-2000 vintage DEC Alpha computer）。由于现今几乎所有基因序列均由散弹法测定，基因重组算法是信息生物学研究的重点课题。
基因组中并不是所有的核苷酸都构成基因，所以序列分析的另一个研究课题是对基因组中的基因和基因调控序列进行自动识别。在较高等的生物体中，DNA序列的大部分并没有明显的作用。但是，这些所谓的“垃圾DNA”却可能具有未被识别的功能。

2基因组
       在基因组学中，对基因和其他生物特征的标注称为基因组注释。1995年，Owen White（在1995年完成的人类首次为独立的生物体——流感嗜血杆菌——测序的工作中，他是组员之一）设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征，并能够初步的分析它们的功能。大多数现今的注释系统的与之类似，但用以分析DNA序列的软件在不断进化之中。
      在寻找基因和致力于发现新蛋白的努力中，人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能，不管它们是双重比对还是多序列比对，都可以回答大量的其它的生物学问题。举例来说，面对一堆搜集的比对序列，人们会研究隐含于蛋白之中的系统发生的关系，以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白，而是研究一个家族中的相关蛋白，看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域，我们可以对蛋白质的整个结构进行预测，并且猜测这些保守区域对于维持三维结构的重要性。
       显然，分析一群相关蛋白质时，很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域，绝大多数方法都是基于渐进比对（progressive alignment）的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题，但是当比对的序列大大地超过两个时（双重比对），对于计算的挑战就会很令人生畏。在实际操作中，算法会在计算速度和获得最佳比对之间寻求平衡，常常会接受足够相近的比对。不管最终使用的是什么方法，使用者都必须审视结果的比对，因为再次基础上作一些手工修改是十分必要的，尤其是对保守的区域。

3计算进化生物学
进化生物学研究物种的起源和演化。引入信息学到进化生物学中，使得研究者能够：
      通过度量DNA序列的改变研究众多生物体间的进化关系（超越了以前基于身体和生理特征观察的研究方法）
     通过整个基因组的比对，研究更为复杂的进化论课题，如基因复制，基因横向迁移等
     为种群进化建立复杂的计算模型，以预测种群随时间的演化
      保存大量物种的遗传信息
     未来的研究工作包括重建业已相当复杂的进化树。

计算进化生物学常常与采用遗传算法的计算机科学相混淆。后者受到生物进化原理的启发，发展出一套软件用于改进配方、算法、集成电路设计等等。

4生物多样性的度量
对一个特定的生态系统，小到一层生物膜、一滴海水、一铲泥土，大到整个地球，其中全体物种的基因组成分可被定义为这个生态系统的生物多样性。搜集各物种的名称、描述、分布、遗传信息、地位、种群大小、栖息地，和各生物体间的相互作用等信息，可以建立一个数据库。有专门的软件用于搜寻、分析和可视化这些信息，更重要的是，它们还能够帮助人们相互交流这些信息。计算机能够模拟相应的模型，以计算种群动态演变，遗传健康状态等等。
该领域的一个重要前景是为濒危物种建立基因银行，即将各物种的基因组信息保存下来。这样即便在将来这些物种灭绝了，人类也可能利用它们的基因组信息重新创造出它们。

5蛋白质结构预测
      蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列（也称为一级结构）可以容易的由它的基因编码序列获得。在绝大多数情况下，在蛋白质的原生环境中，其结构由它的氨基酸序列唯一的决定。蛋白质的结构对于理解蛋白质的功能十分重要。这些结构信息通常被称为二级、三级、四级结构。目前尚没有普遍可行方案实现这些结构的准确预测；大多数方案为启发式的。
      同源性是生物信息学中的一个重要概念。在基因组的研究中，同源性被用以分析基因的功能：若两基因同源，则它们的功能可能相近；在蛋白质结构的研究中，同源性被用于寻找在形成蛋白质结构和蛋白质反应中起关键作用的蛋白质片断。在一种被称为同源建模的技术中，这些信息可与已知结构的蛋白质相比较，从而预测未知结构的蛋白质。目前为止，这是唯一可靠的预测蛋白质结构的方法。
      人类血色素和豆类血色素间的相似性是以上方法的一个实例。两种血色素有相同的功能，均能够在各自的生物体内运输氧气。尽管它们的氨基酸序列大不相同，它们的蛋白质结构几乎一样。

6蛋白质表达分析
通过蛋白质微阵列技术或高通量质谱分析对生物标本进行测量所获得的数据中，包含有大量生物标本内蛋白质的信息。生物信息学被广泛的应用于这些数据的分析。对于前者，生物信息学所面临的问题与RNA微阵列数据分析中遇到的问题相似；对于后者，生物信息学将所获得的大量质谱数据与通过已知蛋白质数据库预测的数据进行比较，并使用复杂的统计学方法进一步分析。

7比较基因组学
比较基因组学的核心课题是识别和建立不同生物体的基因或其他基因组特征的联系。这些跨基因组的联系使得我们能够跟踪基因组的进化过程。基因组进化由多个不同层次的事件完成。在最低的层次，单个核苷酸上发生了点变异。在较高的层次，大的染色体片段经历了复制、横向迁移、逆转、调换、删除和插入等过程。在最高的层次上，整个基因组会经历杂交、倍交、内共生等变异，并迅速产生新的物种。

8 基因表达分析
多种生物学技术可以用于测量基因的表达，如微阵列，表达序列标签（expressed sequence tag），基因表达连续分析（serial analysis of gene expression），大规模平行信号测序（massively parallel signature sequencing），多元原位杂交法（multiplexed in-situ hybridization）等。所有这些方法均严重依赖于环境并能产生大量高噪音的数据。生物信息学致力于发展一套统计学工具以从中提取有用的信息。

9 调控分析
调控是指当细胞受到外信号刺激之后其内发生的一些列反应过程的总和。生物信息学技术被用于分析调控的各个步骤。例如，基因表达的数据可用于分析基因调控。对于一个单细胞生物体，我们可以用生物芯片技术观察受到不同外界刺激、处于细胞周期不同状态的细胞，并将采集到的数据利用聚类算法分析，以寻找表达相似的基因或样本。该结果可用于多种深入的分析。

10 生物系统模拟
系统生物学通过对细胞子系统的计算机模拟，分析这些细胞过程间的复杂联系，并将分析结果可视化。例如，人工生命就通过计算机模拟简单的生物形式，以帮助人类了解进化过程。

11 在药物研发方面的应用
生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得在不同组织在正常／疾病状态下基因表达的差异，通过搜索这些数据库，可以得到候选基因作为药物靶标，特异性地针对某一种疾病。另外，还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定，以便早期了解所研究蛋白的属性，预测它是否适用于药物作用。

12 软件工具
BLAST(基本局域联配搜寻工具)和FASTA是目前使用得最为频繁的两套数据库搜索程序。它们的功能相近，都是把用户提交的一个核酸序列或蛋白质序列拿去与指定的数据库中的全部序列作比较。一般认为，BLAST运行速度快，对蛋白质序列的搜寻更为有效。FASTA运行较慢，对核酸序列更为敏感。也有基于网页交互的软件如STING，用于结构生物信息学的分析。

-

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。