根据MarketsandMarkets的研究,自然语言处理(NLP)市场规模预计将从2019年的102亿美元增长到2024年的264亿美元。即使在全球Covid-19大流行之后,企业组织也比以往任何时候都更加了解NLP,并且正在向NLP投资。事实上,最近的一项研究显示,尽管在整体IT今年消费低迷,NLP预算提高整个组织的行业,公司规模和位置(需要下载)的任何地方从10%至30%。

显然,2020年是应用NLP的大规模增长之一,但实际上是什么实践在推动使用和预算的增长呢?尽管有许多促成因素,但这是塑造NLP行业和当今开源生态系统的三个主要趋势。

1.模型需要更好的管理员

过去几年中,公开可用的NLP模型数量激增-想想TensorFlow,PyTorch,Hugging Face等等。虽然将模型放在渴望的用户的指尖上是很棒的,但饱和度越高,找到下一个项目实际应使用的模型就越困难。以拥抱脸为例。社区中的任何人都可以免费上载模型,现在您有3,000多种模型可供选择,但无法确定哪种模型最符合您的标准。

归根结底,许多用户希望有人为他们的项目策划最准确的模型(实际上是受支持的)。这是使用开源库(例如Spark NLP)的优势之一,该库同时提供准确性和支持。许可用户可以获得库,模型和支持,可帮助您准确找到所需的内容。也就是说,即使允许任何人上传模型的TensorFlow现在也可以帮助用户对精选模型进行排序。新的模型中心正在增加更好的搜索,发现和管理,这将继续有助于采用和易用性。

2.多语言模式

根据前面提到的NLP调查,语言支持被列为技术领导者提到的最大挑战之一。NLP库中支持的语言数量有所不同。例如,斯坦福大学CoreNLP列出了六个,而Spark NLP附带了46种语言的模型。最近,支持多种语言变得更加容易,快捷和经济。得益于诸如语言不可知的句子嵌入,零镜头学习和多语言嵌入的公共可用性等最新进展,支持数十种语言的开放源代码库首次成为常态。

从历史上看,最优质的NLP软件是英语或中文。令人兴奋和欣慰的是像谷歌和Facebook等公司发布预训练的嵌入了超过150种语言的模型。这是在几年前闻所未闻的。现在,我们可以期望所有这些语言的开源模型都可以使用。这是实现包容性和多样性的重要一步,使NLP遍及全球用户。

3.最先进的模型是一行代码的

过去,必须在该领域进行正规教育并使用核心NLP库,才能使用深度学习模型。以情绪为例:推断“美好的一天”是一个积极的陈述,您需要数据科学家进行培训。这些都是过去的事情。现在,运行历史上许多最准确,最复杂的深度学习模型已减少为仅一行Python代码。

这大大降低了刚入门者的入门门槛,这就是重点。通过将需求减少到一行代码,对NLP一无所知的人可以上手。但是,这不仅对NLP新手有用。即使对于知道如何训练模型的数据科学家而言,这种易用性也实现了一定程度的自动化,使他们有时间进行更复杂的项目。这是每个人的胜利。

自从NLP诞生以来,已经有几次证明这种技术如此有价值。现在是那些时代之一。公司已利用NLP进行所有工作:分析简历,做出投资决策,提供客户服务,诊断和分诊患者,改善销售参与度,汇总法律文件以及开发新药物。这些都是在最近的NLP峰会上提出的用例,我公司作为赞助者参加了这些用例。在不断增长的应用程序和技术的民主化之间,很高兴看到随着NLP变得更加易于使用,NLP的未来。但可以肯定的是:NLP有望在2021年实现更大的增长。