自然语言处理与深度学习发展历程总结自然语言处理与理解

关注风轻云淡的开发

文章目录

1 提出问题
2 学科区分
3 研究内容
4 面临的挑战
5 基本方法
6 参考资料

自然语言处理与深度学习发展历程总结自然语言处理与理解

转载

风轻云淡的开发 2024-02-22 16:01:43

文章标签 自然语言处理与深度学习发展历程总结数据自然语言处理理论基础 文章分类 文心一言 AIGC

前言：自然语言处理是人工智能皇冠上的明珠。

1 提出问题

如何让计算机能够自动或半自动地理解自然语言文本，懂得人的意图？
如何让计算机实现海量语言文本的自动处理、挖掘和有效利用，满足不同用户的各种需求，实现个性化信息服务？

2 学科区分

自然语言理解(Natural Language understanding, NLU)：人工智能的角度，研究计算机对于人的语言理解的一种能力，或认知过程的模拟
计算语言学(Compuyational Linguistics, CL)：计算机科学的角度，研究自然语言的建模和计算问题
自然语言处理(Natural Language understanding, NLP)：面向语言工程，面向计算机网络或通信，考虑语言工程的系统实现问题

由于学科之间的交叉性，往往不详细加以区分，统称为人类语言技术，例CMU等校。

3 研究内容

自然语言处理与深度学习发展历程总结自然语言处理与理解_自然语言处理

自然语言处理与深度学习发展历程总结自然语言处理与理解_自然语言处理与深度学习发展历程总结_02

说明：

由于不同的研究方向所关注的侧重点不同，一般将语音识别、语音合成和说话人识别等以语音信号为主要研究对象的语音技术独立出来，而其他以文本为主要处理对象的研究内容作为自然语言处理的主体。
文字识别更多地涉及图像识别与理解地问题。
信息检索与自然语言处理之间既有密切关联，又各自相对独立，我们暂且回避他们之间关系地争论。

4 面临的挑战

普遍存在的不确定性：词法、句法、语义、语用和语音各个层面
未知语言现象的不可预测性：新的词汇、新的术语、新的语义和非规范语法等现象无处不在
始终面临的数据不充分性：有限的语言集合无法涵盖开放的语言现象
知识表示的复杂性：语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述，为语义计算带来了极大的困难
机器翻译中映射单元的不对等性：词法表达不相同、句法结构不一致、语义概念不对等

目前NLP的发展水平不及3岁孩童。

5 基本方法

自然语言处理与深度学习发展历程总结自然语言处理与理解_理论基础_03

5.1 理性主义：通过对一些代表性语句或语言现象的研究得到对人的语言能力的认识，归纳语言使用的规律，以此分析、推断测试样本的预期结果

问题求解的基本思路：基于规则的分析方法建立符号处理系统

知识库＋推理系统 = NLP 系统
理论基础：Chomsky 的文法理论

5.2 经验主义：利用大规真实语言数据，借助人的帮助 (标注数据和筛选特征等)，统计发现语言使用的规律及其可能性(概率)大小，以此为依据计算预测测试样本的可能结果。统计单元是离散事件(词、短语、词性等)。 

求解问题的思路：基于大规模真实数据建立计算模型

语料库＋统计模型 = NLP 系统
理论基础：统计学、信息论、机器学习

5.3 连结主义(神经网络)：利用大规真实语言数据构建模型，统计发现语言使用的规律及其可能性(概率)大小，以此为依据计算预测测试样本的可能结果。统计单元采用连续的实数空间表示(向量)。 

求解问题的思路：基于大规模真实数据建立计算模型 

语料库＋神经网络＋统计模型 = NLP 系统
理论基础：统计学、深度学习

【举例】给定英语句子： There is a book on the desk. 将其翻译成汉语。

基于规则的方法

自然语言处理与深度学习发展历程总结自然语言处理与理解_自然语言处理与深度学习发展历程总结_04

自然语言处理与深度学习发展历程总结自然语言处理与理解_自然语言处理_05

自然语言处理与深度学习发展历程总结自然语言处理与理解_自然语言处理_06

方法评价：

优点：可以较好地保持原文的结构，产生的译文结构与源文的结构关系密切，尤其对于语言现象已知的或句法结构规范的源语言语句具有较强的处理能力和较好的翻译效果。
弱点：规则一般由人工编写，工作量大，主观性强，一致性难以保障，不利于系统扩充，对非规范语言现象缺乏相应的处理能力。

数据驱动的翻译方法（如SMT和 NMT）

自然语言处理与深度学习发展历程总结自然语言处理与理解_理论基础_07

自然语言处理与深度学习发展历程总结自然语言处理与理解_数据_08

自然语言处理与深度学习发展历程总结自然语言处理与理解_自然语言处理_09

自然语言处理与深度学习发展历程总结自然语言处理与理解_自然语言处理与深度学习发展历程总结_10

自然语言处理与深度学习发展历程总结自然语言处理与理解_自然语言处理与深度学习发展历程总结_11

方法评价：

优点：一般不需要对源语言句子进行深层次分析，甚至对源语言没有任何基本知识，只要有足够多的双语言句对就可以建立一个机器翻译系统。
弱点：对于某些语言对来说，收集高质量大规模的双语句对并不是一件容易的事情；机器翻译过程和译文结果缺乏解释性；对于结构复杂的句子、生僻词汇、指代、译文一致性等问题缺乏有力的处理手段。

6 参考资料

自然语言处理与深度学习发展历程总结自然语言处理与理解_数据_12

自然语言处理与深度学习发展历程总结自然语言处理与理解_理论基础_13

)

自然语言处理与深度学习发展历程总结自然语言处理与理解_理论基础_14

)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：如何获取栈顶应用Android 取栈顶元素操作

下一篇：流上打断点Java java如何打断点

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册