1).分词规范的问题

(1)汉语词的概念

汉语自动分词的首要困难是词的概念不清楚。书面汉语是字的序列,词之间没有间隔标记,使得词的界定缺乏自然标准,而分词结果是否正确需要有一个通用、权威的分词标准来衡量。分词标准的问题实际上是汉语词与语素、词与词组的界定问题,这是汉语语法的一个基本、长期的问题。它涉及到许多方面:

·核心词表问题:分词需要有一个核心(通用、与领域无关的)词表,凡在该词表中的词,分词时就应该切分出来。对于哪些词应当收进核心词表,已提出各种收词条件,但这些条件本身难以操作,目前尚无合理的可操作的理论和标准。

·词的变形结构问题:汉语中的动词和形容词有些可以产生变形结构,如“打牌”、“开心”、“看见”、“相信”可能变形成“打打牌”、“开开心”、“看没看见”、“相不相信”等。可以切分出“打打/牌”,但“开开/心”就不合理。“看/没/看见”说得过去,“相/不/相信”就说不过去了。又如大量的离合词“打架”、“睡觉”等可以合理地变形为“打了一场架”、“睡了一个觉”。对这些变形结构的切分缺少可操作而又合理的规范。

·词缀的问题:语素"者"在现代汉语中单用是没有意义的,因此"作者"、“成功者”、“开发者"内部不能切开。依据这个标准,“作出了巨大个人财产和精神牺牲者”、“克服许多困难而最终获得成功者”、“开发中国第一个操作系统软件者"也不能切开,但这样复杂的结构与词的定义相矛盾。又如职务名称"教育局长”,语义上理解为"教育局之长”,切成"教育/局长"、“教育局/长”、"教育/局/长"或不予切分,都会有人提出异议。

·非词语素问题:一些汉字在古代汉语中是词,演变到现代汉语时成了非词语素,例如“民”。现代的书面汉语并非纯粹的"现代汉语",其中夹杂着不少文言成分,如“为民除害”、“以逸待劳”、"帮困济穷"等等。探寻白话文中夹杂文言成分的规律,是中文信息处理需要解决的一大问题。

(2)不同应用对词的切分规范要求不同

汉语自动分词规范必须支持各种不同目标的应用,但不同目标的应用对词的要求是不同的,甚至是有矛盾的。

·以词为单位的键盘输入系统:为了提高输入速度,一些互现频率高的相互邻接的几个字也常作为输入的单位,如:“这是”、“每一”、“再不”、“不多”、“不在”、“这就是”、“也就”等。

·校对系统:校对系统将含有易错字的词和词组作为词单位,如许多人“作”、“做”分不清。计算机自动判别时,若把它们当作单字词也不好区分,但在同前后文构成的词或词组中往往可以有确定的选择,故应把有关的词和词组都收进词库,如“敢做”、“敢作敢为”、“叫做”、“做出”、“看作”、“做为"等。校对系统要求分词单位较大。如把"勇斗”、“力擒”、"智取"等分别作为一个分词单位并划归及物动词参与上下文检查。“张老师”、“五分之三”、"北京中医学院"也应分别作为分词单位,并分别归类作为人、数字、机构名,再参与上下文检查。

·简繁转换系统:"干"的繁体形式有“乾”和“幹”,它的简繁转换是非确定的。但在词和词组的层面上,它的转换常常是确定的。比如“幹部”、“幹事”、“乾净”、“乾燥”等。为了提高简繁转换的正确率,简繁转换系统把这类词或词组收进词表。

·语音合成系统:语音合成系统收集多音字所组成的词和词组作为分词单位,如“补给”、“给水”,因为在这些词或词组中,多音字"给"的音是确定的。

·检索系统:检索系统的词库注重术语和专名,并且一些检索系统倾向于分词单位较小化。比如,把"并行计算机"切成“并行/计算机”,“计算语言学"应切成“计算/语言学”,使得无论用"并行计算机"还是用"计算机”、“计算语言学”或是“语言学”检索,都能查到。分词单位的粒度大小需要考虑到查全率和查准率的矛盾。

2).分词算法的困难

要将汉语文本的字序列切分成词的序列,即使确定了一个合适的分词标准,要实现这个标准也还存在算法方面的困难。

(1)切分歧义

汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧义(约占全部歧义的85%以上)和组合型歧义。只有向分词系统提供进一步的语法、语义知识才有可能作出正确的决策。排除歧义常常用词频、词长、词间关系等信息,比如“真正在”中,“真”作为单字词的频率大大低于"在"作为单字词的频率,即"在"常常单独使用而“真”作为单字词使用的可能性较小,所以应切成"真正/在"。有时切分歧义发生在一小段文字中,但为了排除歧义,需要看较长的一段文字。如"学生会"既可能是一个名词,指一种学生组织,也可能是"学生/会",其中"会"为"可能"或"能够"的意思。在“学生会主席”中只能是前者,在"学生会去"中只能是后者,在“学生会组织义演活动”中歧义仍然排除不了,则需要看更多的语境信息。

(2)未登录词识别

未登录词即未包括在分词词表中但必须切分出来的词,包括各类专名(人名、地名、企业字号、商标号等)和某些术语、缩略词、新词等等。“于大海发明爱尔肤护肤液"需要切分成"于大海/发明/爱尔肤/护肤液”,并需要识别出"于大海"是人名,“爱尔肤”是商标名,“护肤液"是术语名词。专名中还包括外族、外国名的汉译名,如"斯普林菲尔德是伊里诺州首府”,“丹增嘉措70多岁了”,其中的美国地名、藏族人名都需识别。未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。因为各种汉语处理系统都需要使用词频等信息,如果自动分词中对未登录词识别不对,统计到的信息就会有很大误差。比如,一个分词系统若不做中外人名识别,分词后进行词频统计,可能会发现"张"、“王”、“李”、“刘”、“尔”、“斯”的频率比"却"、“如”、"你"的频率还要高,用这样的统计结果做汉语处理,其效果肯定有问题。又比如校对系统,如果系统不具备生词识别能力,就无法判断句子中大部分词的使用是否合理,也就不能检查真正的错误所在。

(3)分词与理解的先后

计算机无法像人在阅读汉语文章时那样边理解边分词,而只能是先分词后理解,因为计算机理解文本的前提是识别出词、获得词的各项信息。这就是逻辑上的两难:分词要以理解为前提,而理解又是以分词为前提。由于计算机只能在对输入文本尚无理解的条件下进行分词,则任何分词系统都不可能企求百分之百的切分正确率。

3、分词系统的目标

汉语自动分词系统达到怎样的水平才能适应信息处理的要求?我们认为可以从以下几个方面来衡量,即准确、高效、通用及适用。

1).准确性

准确率是分词系统性能的核心指标。现在有些分词系统的准确率达到98%,似乎已经很高了,其实不然。若这种分词系统被用来支持句法分析、汉-外机器翻译系统,假定平均每句话有10个汉语词,那么10句话中会错切2个词,含有切分错误的2句就不可能被正确处理。因此仅仅由于分词阶段的准确度不够,语言理解的准确率就会减少20%。可见,分词系统的准确率应达到99.9%以上才能基本满足上层使用的要求。

2).运行效率

分词是各种汉语处理应用系统中共同的、基础性的工作,这步工作消耗的时间应尽量少,应只占上层处理所需时间的一小部分,并应使用户没有等待的感觉,在普遍使用的平台上大约每秒钟处理1万字或5千词以上为宜。

3).通用性

随着Internet的普遍应用,中文平台的处理能力不能仅限于我国,仅限于字处理,仅限于日常应用领域。作为各种高层次中文处理的共同基础,自动分词系统必须具有很好的通用性。自动分词系统应支持不同地区(包括我国的香港、台湾、澳门,以及新加坡和美洲、欧洲、澳洲的华语社区)的汉语处理;应能适应不同地区的不同用字、用词,不同的语言风格,不同的专名构成方式(如港澳台地区一些妇女名前冠夫姓,外国人名地名的汉译方式与我国人名地名很不一样)等;支持不同的应用目标,包括各种输入方式、简繁转换、语音合成、校对、翻译、检索、文摘等等;支持不同领域的应用,包括社会科学、自然科学和技术,以及日常交际、新闻、办公等等;应当同现在的键盘输入系统一样成为中文平台的组成部分。为了做到足够通用又不过分庞大,必须做到在词表和处理功能、处理方式上能灵活组合装卸,有充分可靠和方便的维护能力,有标准的开发接口。同时,系统还应该具有良好的可移植性,能够方便地从一个系统平台移植到另一个系统平台上而无需很多的修改。当然,完全的通用性很难达到。

4).适用性

汉语自动分词是手段而不是目的,任何分词系统产生的结果都是为某个具体的应用服务的。好的分词系统具有良好的适用性,可以方便地集成在各种各样的汉语信息处理系统中。