假设我们想搜具有某种功能的一类基因,比如具有激酶活性的基因,我们应给怎么办呢?gene ontology(http://www.geneontology.org/),可以大致翻译为基因注释的数据库就可以帮上忙了。个人理解对于本体(ontology)的解释就是最终认识,即对于以前的不明了和不方便的基因的注释来联系起来,最终让生物学家方便的搞科研。下面摘抄了在生物统计学家园网站上的三个帖子,进行总结,并在最后加上了自己用过的实例(会加上的)。这是最基本的对于gene ontology的理解,深入的了解还是要看看官网的介绍。

1.    什么是gene ontology ?

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.可以简单的理解为:分三个方面描述一个基因产物的数据库,比如对某个基因的产物,GO从三方面描述:它有什么功能,它参加了什么生物学过程,它的在细胞的什么位置。

2.    基因本体论(gene ontology)的建立

现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。

Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database (小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。

GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。

3.    三个非重叠的分子生物学领域描述基因产物属性的本体

分子功能MF

MF(Molecular Function)描述了在分子水平的活动性(activities),例如接触反应的或捆绑的活动性的。GO分子功能术语要求活动性而不是执行这个活动的实体(分子或复合物),并且并不规定在何处,何时或在什么上下文这个活动发生。例如接受了个体分子功能术语广泛的“kinase activity(激酶活动性)”和更为专门的“6-phosphofructokinase活动性”概念,它们表示激酶活动性“kinase activity”的一个子类。

基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物,也表明了它的功能。但是这之间其实是存在差别的?D?D一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。所以,在GO中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。许多基因产物会形成复合物后执行功能。这些“基因复合物”有些非常简单(如血红蛋白由血红蛋白基因产物α-球蛋白、β-球蛋白和小分子的亚血红素组成),有些非常复杂(如核糖体)。现在,小分子的描述还没有包括在GO中。在未来,这个问题可望由和现在的Klotho和LIGAND等小分子数据库联合而解决。

生物过程BP

BP(Biological Process )描述一个或多个有序的分子功能集结的生物目标。高层过程例如“细胞死亡(cell death)”可能有两个子类型,例如“粉蚀apoptosis”,和子过程,例如“粉蚀染色体浓缩apoptotic chromosome condensation”。生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或α-配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等。因此,GO并不涉及到通路中复杂的机制和所依赖的因素。

细胞成分CC

CC(Cellular Component)以子细胞结构和维分子联合体水平描述位置。例如细胞成分包括“核的内膜nuclear inner membrane”,具有同义词“内包膜inner envelope”;和“普遍连接酶联合体ubiquitin ligase complex”,具有表示这些联合体的几个子类。在每一个本体中,术语都有自由文本的定义,和稳定独特的标识。在有“is-a”和“part-of”关系支持的分类中的词汇是结构化的。在参考(5±7)中更详细地描述GO词汇的范围和结构。在当前研究环境中不断地有许多新的基因序列迅速生成,并且有相当多的基因组分析要求综合来自多源的数据,因此生物学界特别要求提供可能被生物学界共享的严格本体。

应用:Gene Ontology: usage

integrating gene/protein information from different organisms

assigning functions to protein domains

finding functional similarities in genes

predicting the likelihood that a particular gene is involved in diseases that haven‘t yet been mapped to specific genes

analyzing groups of genes that are co-expressed during development;

developing automated ways of deriving information about gene function from the literature

verifying models of genetic, metabolic and product interaction networks.