自然语言处理, 英文简称NLP,全称Natural Language Processing。最近爆火的Chat-GPT,是NLP领域的前沿研究成果。


NLP 与 AI

人类语言是人类智能的一个非常重要的体现。人工智能(AI)能否理解人类语言,是其智能的一个表现。

图灵测试,最初叫模仿游戏,类似于鸭子定律。

“鸭子定律”又称“伍迪·艾伦定律”,是一条在计算机编程领域中非常著名的原则。这个定律的内容是“如果某个东西看起来像鸭子,走起路来像鸭子,叫起来也像鸭子,那么它就很可能是鸭子。”


NLP的发展阶段

  • 基于规则
  • 基于统计学
  • 基于深度学习:当前尖端技术
  • 未来……

NLP分类

  • 自然语言生成(NLG, Natrual Language Generation)
  • 自然语言理解(NLU, Natural Language Understand)

NLP基本任务

  • 序列标注:
  • 分词
  • 词性标注( Part of speech,POS tagging):标注一句话中的名词、动词、形容词等。
  • 命名实体识别( Named Entity Recognition,NER):
  • 共指消解(Co-reference):代词
  • 基本依存关系(Basic dependencies):主谓宾
  • 文本分类/聚类:情感识别/计算
  • 关系判断:
  • 简单:相似度判断、文本关联识别
  • 复杂:机器问答、语义改写
  • 生成任务:机器翻译、文本摘要、文本扩充
  • 机器阅读理解、关系提取、推理

NLP应用

搜索引擎与在线广告

语义搜索


知识图谱:

2012年,google推出。实体关系

Machine Reading

Personal Assistant 个人助理

智能音箱、虚拟助手

Machine Translation 机器翻译

语言翻译

Sentiment Analysis and Opnion Mining 情感分析 和 意见挖掘

政治分析和舆情监控


其它日常使用场景:

  • 垃圾邮件过滤程序
  • 拼写检查程序
  • 语法检查程序
  • 自动更正

词表示

将自然语言中的词汇转换成离散数学向量的过程,以便计算机进行有效地处理和分析。

  • 相似度
  • 词与词之间语义的关系



One-hot Representation

向量表示字

表达词时,会出现问题 --> 解决方法上下文 

上下文 ,低频率问题 --> 大模型Word Embedding

语言模型

有能力根据前言预测下一个词是什么

N-gram model

马尔可夫假设

Neural Language Model

每一个词都是一个低维的向量。

2003年发布的文章……