为何 NLP 领域难以出现“独角兽”？

转载

SAP虾客 2019-08-26 16:17:00

文章标签 人工智能为何 NLP 领域难以出现“独角兽”？ 文章分类 NLP 人工智能

引言：比尔·盖茨曾说过，「语言理解是人工智能皇冠上的明珠」。自然语言处理的进步将会推动人工智能整体进展。NLP 的历史几乎跟计算机和人工智能的历史一样长。自计算机诞生，就开始有了对人工智能的研究，而人工智能领域最早的研究就是机器翻译以及自然语言理解。

随着大数据和技术设施的完善，人工智能技术在近年来迎来了井喷式的发展。在产业方面，不少专注于计算机视觉的公司也获得了长足发展。其中比较具有代表性的是估值已经超过 20 亿美元的商汤科技，在经历了数轮大额融资之后，其隐隐有从独角兽变成巨头的趋势。

不过，人工智能另一个相关领域自然语言处理似乎没有达到这种高度。在技术方面，这一领域的技术准确率远远没有达到计算机视觉和语音识别的水平，技术产品也因为较高的错误率，缺少实际价值。那么NLP 技术到底有哪些难点呢？

为何 NLP 领域难以出现“独角兽”？_为何 NLP 领域难以出现“独角兽”？

什么是 NLP？

在人工智能出现之前，计算机只能处理结构化的数据，就比如我们平时用的表格里的数据，但是网络中大部分的数据都是非结构化的，比如我们看到的文章、图片、视频等等。在这些数据中，文本数据又往往是最多的，为了能够分析和利用这些文本信息，我们就需要利用 NLP 技术，让机器理解这些文本信息，并加以利用。

人类可以通过语言来交流，而为了让计算机之间互相交流，人们让所有计算机都遵守一些规则，计算机的这些规则就是计算机之间的语言。自然语言处理（NLP）就是在机器语言和人类语言之间沟通的桥梁，以实现人机交流的目的。

NLP 的两个部分：NLU 和 NLG

自然语言理解（NLU）则是 NLP 的一部分，这几年深度学习技术的发展使 NLU 能在一些场景中落地。自然语言理解就是希望机器像人一样，具备正常人的语言理解能力，由于自然语言在理解上有很多难点 (下面详细说明)，所以 NLU 是至今还远不如人类的表现。

NLU 目前应用的领域主要集中在机器翻译、机器客服、智能音箱等领域，但由于需要大量的数据训练和 NLU 本身存在的一些语言语义上的难点，其实机器还不是非常智能。

自然语言生成（NLG）是 NLP 的重要组成部分，NLU 负责理解内容，NLG 负责生成内容。他的主要目的是降低人类和机器之间的沟通鸿沟，将非语言格式的数据转换成人类可以理解的语言格式。

自然语言生成 – NLG 有 2 种方式：

text – to – text：文本到语言的生成
data – to – text ：数据到语言的生成

NLP 的难点

对于机器来说，难点主要分为 5 类问题：

语言的多样性，我们日常所用的语言是没有规律的，不同的组合可以表达出很多的含义。
语言的歧义性，如果不联系上下文，缺少环境的约束，语言有很大的歧义性
语言是一个开放集合，我们可以任意的发明创造一些新的表达方式。
语言需要知识依赖，需要联系到实践知识。
语言的上下文

应用场景复杂，很难出现“独角兽”

总的来说，NLP 技术领域之所以没有出现如计算机视觉领域那些独角兽公司，是因为自然语言处理的技术难度太大，和应用场景太复杂。一个公司的成立发展都是由需求驱动的，自然语言应用主要是机器翻译，虽然机器翻译的需求长期存在，但机器翻译的水平一直未取得突破性的进展，即使到今天，机器也很难翻译有背景的复杂句子。

另外，自然语言处理的应用太依赖于 UI 了。图像识别基本不需要 UI，直接在系统内部集成一些技术就行。一些公司做翻译软件，如果 UI 做得不行，用户体验不行，人们就不会愿意使用。

技术产业化最重要的是商业模式，也就是怎么让技术挣钱。图像识别公司的挣钱模式已经成立了，但翻译付费就难多了。所以自然语言是从研究到技术到落地到商业化，面临一系列的挑战。目前的现状是，自然语言处理技术更多的是作为公司内部技术，比如内部的商业情报或人机接口功能。

NLP 技术发展，未来可期

从今年的 ACL 大会可以看出 NLP 技术的火爆。会议共收到了 2900 余篇提交的论文，投稿规模相较于 2018 年增长了 75%！自然语言处理领域实在是炙手可热，学术界和工业界的热情都创下了历史新高。

从商业层面来讲也涌现出了微软小冰、小米小爱等比较成熟的机器人产品，相信在未来的不久 NLP 技术一定会给我们带来更多的惊喜。