自然语言处理, 英文简称NLP,全称Natural Language Processing。最近爆火的Chat-GPT,是NLP领域的前沿研究成果。
NLP 与 AI
人类语言是人类智能的一个非常重要的体现。人工智能(AI)能否理解人类语言,是其智能的一个表现。
图灵测试,最初叫模仿游戏,类似于鸭子定律。
“鸭子定律”又称“伍迪·艾伦定律”,是一条在计算机编程领域中非常著名的原则。这个定律的内容是“如果某个东西看起来像鸭子,走起路来像鸭子,叫起来也像鸭子,那么它就很可能是鸭子。”
NLP的发展阶段
- 基于规则
- 基于统计学
- 基于深度学习:当前尖端技术
- 未来……
NLP分类
- 自然语言生成(NLG, Natrual Language Generation)
- 自然语言理解(NLU, Natural Language Understand)
NLP基本任务
- 序列标注:
- 分词
- 词性标注( Part of speech,POS tagging):标注一句话中的名词、动词、形容词等。
- 命名实体识别( Named Entity Recognition,NER):
- 共指消解(Co-reference):代词
- 基本依存关系(Basic dependencies):主谓宾
- 文本分类/聚类:情感识别/计算
- 关系判断:
- 简单:相似度判断、文本关联识别
- 复杂:机器问答、语义改写
- 生成任务:机器翻译、文本摘要、文本扩充
- 机器阅读理解、关系提取、推理
NLP应用
搜索引擎与在线广告
语义搜索
知识图谱:
2012年,google推出。实体关系
Machine Reading
Personal Assistant 个人助理
智能音箱、虚拟助手
Machine Translation 机器翻译
语言翻译
Sentiment Analysis and Opnion Mining 情感分析 和 意见挖掘
政治分析和舆情监控
其它日常使用场景:
- 垃圾邮件过滤程序
- 拼写检查程序
- 语法检查程序
- 自动更正
词表示
将自然语言中的词汇转换成离散数学向量的过程,以便计算机进行有效地处理和分析。
- 相似度
- 词与词之间语义的关系
One-hot Representation
向量表示字
表达词时,会出现问题 --> 解决方法上下文
上下文 ,低频率问题 --> 大模型Word Embedding
语言模型
有能力根据前言预测下一个词是什么
N-gram model
马尔可夫假设
Neural Language Model
每一个词都是一个低维的向量。
2003年发布的文章……