文献整理02

原创

design 2008-04-30 14:09:36 ©著作权

©著作权归作者所有：来自51CTO博客作者design的原创作品，请联系作者获取转载授权，否则将追究法律责任

《基于汉语框架网络本体的文本推理案例研究》

本体作为一种能在语义和知识层次上描述信息的概念模型建模工具，一方面，可以利用良好的概念、属性及关系使自然语言形式化。另一方面，因其是关于世界知识的多维的揭示，通过各种关系和属性约束将概念组织成一个立体的、伸缩的网状概念层次结构，支持逻辑推理等特性，为实现文本推提供了逻辑基础。目前，基于本体的推理成为国内自然语言处理领域研究的热点。经过笔者对国内外大量的文献调查表明，目前本体在文本推理中的应用大多局限于通过对本体自身的推理，从本体库中找出与文本中概念相关的信息。如，国内外有人在类似知识网等的尝试知识本体库的基础上，通过概念联想确定知识本体库中与输入文本有语义关联的概念来产生新的信息的方法，利用“标记传递”进行推理。本文将本体知识与文本信息进行集成，实现针对文本数据的推理研究，首先采用OWL DL语言实现汉语框架网络知识本体的形式化表征及自然与样文本的知识本体标注，进而采用DL推理机RacerPro对标注文本的OWL DL 数据进行查询与推理，以完成问答系统提出的任务。

为了使汉语框架网络中框架、框架元素的属性形式化，用某种标准工具对其数据进行浏览、查询和推理、并建立与其它本体之间的映射，我们需要对其采用本体描述语言OWL DL形式化。OWL DL在保证推理的完备性和可判定性的前提下，有尽可能强的表达能力，并且其作为一种易于泛化的表示形式，可以方便地转化为其它表达能力更强的本体语言，入KIF或CycL等。用本体描述语言OWL DL表示汉语框架网络中数据的基本设计思想如下：将框架、框架元素及语义类型都形式化地表示为类；用本体中有关类的属性约束表示框架关系、框架元素关系以及框架元素之间的关系；将标注文本中具体框架和框架元素的实现分别表示为框架类和框架元素的实例。基于此，我们将CFN本体分解为欢愉框架网络模板本体、框架本体、标注本体。

目前，我们对句子的框架语义标注是以机器辅助人工标注方式完成的，包括框架元素、语义类型和语法功能三个层次的标注。标注文本的OWL DL表示的处理对象以语块为单位。语块指一个可激活某框架或为某框架元素填槽的文本中的词段，一个语块包含于较大单位的语块或整个句子中，他们之间是句法包含关系（Subsume）。标注本体从标注句子提取出其中的语块、句法包含关系、以及语块与框架、框架元素之间的关系，并加以表示。实现步骤如下：将标注文本中的每条句子生成一个句法依存图，从中获得相应的框架和框架元素实例；使生成的实例满足框架本体中类的约束条件，即生成相关联类的实例并将实例按照对应的类之间的关系或属性约束建立正确的关联。

尽管构建标注本体时并没有引用整个框架本体，而且在建立句子的激活框架实例与相关联框架的实例之间的连接时，限制了生成关联框架的层级数。但是，在检索时RacerPro要处理的数据仍比较大，影响西贡运行速度。此外，检验语块是否相符还需用到一些外部工具。

《元素据与知识本体》元素据在国内依然是一个热门概念，然而很多图书馆员可能没有意识到，制定和应用元数据规范，虽然最终是为人服务的，但实际上是在为机器打工---为了在分布式网络环境下实现机器与机器之间的语义理解而制定规则。元数据方案能够做到这一点，除了必须采用标准的属性元素集之外，还得益于采用标准的编码语言（例如RDF）进行编码（又叫置标），将各种具体的约束（例如数据类型、是否必备、是否可重复等等）进行明确的定义，这个过程在计算机语言中叫做“形式化”。只有经过形式化的元数据方案才能保证具体的查询请求在联网的资源库之间“拷贝不走样”，从而能够使人在整个网络中湖区全名而准确的信息。

对于本体进行形式化和应用的研究已经是计算机界的一个“热门”领域。

万维网是目前最大的开放的分布式网络，可以看成由无数三层结构应用组成的大型资源库群（repositories）.这些资源库群是彻底异构的，从数据结构[数据结构]、操作系统[操作系统]，到数据库系统[数据库]，到应用系统；从命名方式，到数据格式，到结构模型，到用户界面，都有可能完全不同，目前没有多少标准规范能够对这个各层次的异构进行适当的约束，（....）在这个方面尚缺乏完整的解决方案，而且解决方案也不是唯一的。从体系结构上来看，“语义万维网”和“Web服务”技术正在形成一套异构系统互操作问题完整的解决方案。

元数据并不能完全解决信息系统的语义异构问题，包括资源采用不同元数据方案所造成的微观结构的异构问题以及资源对象之间存在的复杂的关联关系，本体在某种程度上可以看成是“元”元数据，信息系统中不同实体对象可能草用不同的元数据方案，不同的实体对象之间的关联关系非常复杂，知识本体能够对这些情况进行很好的描述，从而为信息的组织、管理以及检索、查询提供模型和方法。

本体（ontology）被赋予了太多的含义，（.....）直观地，我们可以把本体看成是“领域知识规范的抽象和描述，表达、共享、重用知识的方法。”

如果把每一个知识领域抽象成一套概念体系，再具体化为一个词表来表示，包括每一个词的明确定义、词与词之间的关系以及该领域的一些公理性知识的陈述等，并且能够在这些知识领域的专家之间达成某种共识，即能够共享这套词表，所有这些就构成了该知识领域的一个“本体”。最后，为了便于计算机理解和处理，需要用一定的编码语言（例如RDF/OWL）明确表达上述体系（词表、此表关系、关系约束、公理、推理规则等）。在这个意义上，知识本体已经成为一种提取，理解和处理领域知识的工具，可以被应用于任何具体的学科和专业领域。

多某个知识领域每个人的认识从内容到形式都可能是不一样的，通用的高层本体（Common Onotologies）常常从哲学的认识论出发，其概念的根节点往往是时间、空间、事件、状态、对象等抽象术语，而且不一定需要形式化；领域本体（Domain Ontologies）专注于解决领域知识的抽象，较为具体，容易进行形式化和共享；术语本体（Terminology Ontologies）常常表现为一个词表，概念关系的抽取较为随意和简单，不严格要求，甚至可以没有概念定义，例如著名的WordNet本体；形式本体（Formal Ontology）对于概念术语的分类组织要求较为严格，需要按照一定的分析原则和标准，明确定义概念间的显性、隐性关系，并明确各种约束、逻辑联系等，这类本体常常由术语本体发展而来，但却与术语本体没有截然的界限；另外还有表现本体、方法本体、混合型本体等。

如上所述，某个具体领域的本体不可能是唯一的，形式化方式手段也可以不同，但是不同的知识本体必须通过某种机制进行交换，形式化的方式也需要标准化，这就是知识本体语言的作用。

从宏观上说，本体：1.对于领域知识进行分析、明确，并使其形式化；2.在人、机器(表现为软件代理)以及人与机器之间共享对于信息及结构的共同理解；3.实现一定程度的领域知识的重用（例如以一个专业叙词表为基础的知识本体在专业领域中的重用）4.使领域公理得到明确描述从而达成共知。

本体如何实现功能？如图：（从新插入了图片，但添加了好几次~都无法显示，所以用附件的形式。第一幅图附件一，第二幅图附件二。）

本体的创建

本体有多种形式，元数据方案本身可以看成是本体的一种形式，或者一类简单的本体。元数据方案的制定是对一个应用系统相关的实体进行分析并提取属性的过程，如果在此基础上继续对所涉及的各种实体类型的关联关系进行详细分析，最终就能导出本体模型，元数据方案的制定过程就是一种本体的建立过程。

除此之外，许多叙词表和分类表等本身就是领域知识的概念体系，包含丰富的关系，虽然许多关系可能不是非常严密，但它们也都可以看成是一类本体。上述两种本体的初级形式经过规范化和形式化之后，都可能成为计算机可以操作的本体工具。

目前支持本体开发的工具多大数十种，功能各不相同，对于本体语言的支持能力、表达能力、逻辑支持能力以及可扩展性、灵活性、易用性等都相差很大，其中较著名的有protege-2000、OntoEdit、OilEd、Ontolingua等。protege-2000是目前较活跃的本体工具，是可以免费获得开放软件，目前的版本是（....）。他用Java语言开发，通过各类插件支持多种本体格式，甚至已经能够支持刚刚发布的，也是目前最有前途的W3C的OWL格式。图：（从新插入了图片，但添加了好几次~都无法显示，所以用附件的形式。第一幅图附件一，第二幅图附件二。）

与元数据标准规范一样，本体的价值在于共享和重用，而且是基于机器之间进行语义理解的共享和重用，因此形式化是非常重要的。形式化语言经过数年的发展目前基本定位到了W3C主导的OWL语言。

《顶级专家Frank van Harmelen揭秘语义网》所谓“语义”就是文本的含义。语
义需要理解文本的意思和结构，而与显示方式无关。简单地说，语义网（Semantic Web）是一种能理解人类语言的智能网络，它不但能够理解人类的语言，而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。
虽然语义网和人工智能（AI）所用的工具有一些相同（比如本体、推理、逻辑等），但它们的目标是完全不同的。实际上，语义网的目标是更为适度的：语义网并不是要构建一个通用的、综合性的、基于Internet的智能系统，而是要实现Web上数据集（datasets）间的互操作（无论数据是结构化、非结构化还是半结构化的）——这一目标更具实践性，更为适度。
仅依靠手工来构建本体，显然是成本过高的，而且也限制了可被编纂与分类的知识的量。

语义网技术主要是基础设施技术（Infrastructure Technology）而基础设施技术是存在于背后、并非用户直接可见的。你所能感受到的，只是诸如：网站变得更人性化了（因为背后存在语义网技术，你的个人兴趣概要（Proﬁle）可以与网站的数据源进行互操作）、搜索引擎对结果的聚类（Clusterinof Results）做得更好了（因为搜索引擎在背后采用具有含义的本体来对搜索结果加以分类）以及桌面搜索工具能够把文档作者的姓名与你的地址簿里的Email地址关联起来了（因为这些数据格式在背后通过暴露其语义来实现互操作）等，但这些应用不会在其界面上注明“语义网技术”。语义网技术就像是发动机汽缸壁上的Nikasil涂层③：虽然很少有司机知道它，但司机们能够察觉到燃料消耗的减少、最高时速的提升以及引擎寿命的延长等等。语义网技术就是目前正在开发着的、下一代人类友好的计算机应用的Nikasil涂层。

《一种基于叠加框架的元学习策略》叠加法（Stacking）是机器学习的一种重要的

元学习框架，最早由 Wolpert[A. L. Prodromidis, P. Chan, Meta-learning in Distributed Data Mining Systems: Issues and Approaches, H. Kargupta, P. Chan(Eds.), Advances of Distributed Data Mining, AAAI Press, 2000. ]于 1992 年提出。它是一种用更高层模型对低层模型进行组合以获取更高准确率的方法，主要用于组合多分类器，以取得比组成它们的单个分类器更高的分类准确率。随着分布式计算技术的兴起，特别是机器学习的许多分类技术被广泛用于数据挖掘， Chan 等人将叠加法的思想应用到分布式数据挖掘系统 JAM 的研发当中[A. L. Prodromidis, P. Chan, Meta-learning in Distributed Data Mining Systems: Issues and Approaches, H. Kargupta, P. Chan(Eds.), Advances of Distributed Data Mining, AAAI Press, 2000.]，从而促进了人们对叠加法的进一步研究，使该方法成为了多分类器组合的一种有效策略。叠加法是通过对多个模型的输出结果进行泛化（Generalization），利用前一层模型的输出结果作为下一层的学习输入信息，使得前一次的学习能够被充分用于后面的归纳过程当中去，从而发现并且纠正所使用的学习算法中的分类偏差，提高学习的精度。叠加法具有较强的可扩展性，叠加的层次可以从一层至多层向上伸延，每一层中各个模型可以使用任何分类算法来构造，这些特性使得它非常适合用于并行和分布式的计算模式。