前言:自然语言处理是人工智能皇冠上的明珠。
1 提出问题
- 如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图?
- 如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务?
2 学科区分
- 自然语言理解(Natural Language understanding, NLU):人工智能的角度,研究计算机对于人的语言理解的一种能力,或认知过程的模拟
- 计算语言学(Compuyational Linguistics, CL):计算机科学的角度,研究自然语言的建模和计算问题
- 自然语言处理(Natural Language understanding, NLP):面向语言工程,面向计算机网络或通信,考虑语言工程的系统实现问题
由于学科之间的交叉性,往往不详细加以区分,统称为人类语言技术,例CMU等校。
3 研究内容
说明:
- 由于不同的研究方向所关注的侧重点不同,一般将语音识别、语音合成和说话人识别等以语音信号为主要研究对象的语音技术独立出来,而其他以文本为主要处理对象的研究内容作为自然语言处理的主体。
- 文字识别更多地涉及图像识别与理解地问题。
- 信息检索与自然语言处理之间既有密切关联,又各自相对独立,我们暂且回避他们之间关系地争论。
4 面临的挑战
- 普遍存在的不确定性:词法、句法、语义、语用和语音各个层面
- 未知语言现象的不可预测性:新的词汇、新的术语、新的语义和非规范语法等现象无处不在
- 始终面临的数据不充分性:有限的语言集合无法涵盖开放的语言现象
- 知识表示的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难
- 机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等
目前NLP的发展水平不及3岁孩童。
5 基本方法
5.1 理性主义:通过对一些代表性语句或语言现象的研究 得到对人的语言能力的认识,归纳语言使用的规律,以此分析、推断测试样本的预期结果
问题求解的基本思路:基于规则的分析方法建立符号 处理系统
- 知识库 + 推理系统 = NLP 系统
- 理论基础:Chomsky 的文法理论
5.2 经验主义:利用大规真实语言数据,借助人的帮助 (标注数据和筛选特征等),统计发现语言使用的规律及其可能性(概率)大小,以此为依据计算预测测试样本的可能结果。统计单元是离散事件(词、短语、词性等)。
求解问题的思路:基于大规模真实数据建立计算模型
- 语料库 + 统计模型 = NLP 系统
- 理论基础:统计学、信息论、机器学习
5.3 连结主义(神经网络):利用大规真实语言数据构建模型,统计发现语言使用的规律及其可能性(概率)大小,以此为依据计算预测测试样本的可能结果。统计单元采用连续的实数空间表示(向量)。
求解问题的思路:基于大规模真实数据建立计算模型
- 语料库 + 神经网络 + 统计模型 = NLP 系统
- 理论基础:统计学、深度学习
【举例】给定英语句子: There is a book on the desk. 将其翻译成汉语。
基于规则的方法
方法评价:
- 优点:可以较好地保持原文的结构,产生的译文结构与源文的结构关系密切,尤其对于语言现象已知的或句法结构规范的源语言语句具有较强的处理能力和较好的翻译效果。
- 弱点:规则一般由人工编写,工作量大,主观性强, 一致性难以保障,不利于系统扩充,对非规范语言现象缺乏相应的处理能力。
数据驱动的翻译方法(如SMT和 NMT)
方法评价:
- 优点:一般不需要对源语言句子进行深层次分析,甚至对源语言没有任何基本知识,只要有足够多的双语言句对就可以建立一个机器翻译系统。
- 弱点:对于某些语言对来说,收集高质量大规模的双语句对并不是一件容易的事情;机器翻译过程和译文结果缺乏解释性;对于结构复杂的句子、生僻词汇、指代、译文一致性等问题缺乏有力的处理手段。
6 参考资料
)
)