国外顶尖NLP专家 nlp顶级期刊

转载

mob64ca1417736e 2024-06-08 13:29:33

文章标签 国外顶尖NLP专家机器学习人工智能深度学习编程语言 文章分类 NLP 人工智能

ACL 2021今天正式颁发“最佳论文”奖项，字节跳动AI Lab的研究成果在3350篇投稿中脱颖而出，当选今年度“最佳论文”。这是ACL成立59年以来，华人科学家团队第二次赢得最高奖项，此前由中科院计算所主导的研究项目曾被评为ACL 2019“最佳长论文”。

ACL大会由国际计算语言学协会主办，是自然语言处理与计算语言学领域最高级别的学术会议。自然语言处理（NLP）被誉为“人工智能皇冠上的明珠”，在机器翻译、搜索、信息流、输入法等领域有着广泛的应用。

字节跳动的获奖论文提出一种新的词表学习方案VOLT。词表是所有NLP任务都会使用的基础组件，ACL官方评审认为，“字节跳动的VOLT方案对机器翻译中一个重要问题提出了有效且新颖的解决方案，能显著减少词表的学习和搜索时间，相信其不仅会在研究界产生重要影响，在工业应用方面也有着巨大潜力”。

国外顶尖NLP专家 nlp顶级期刊_编程语言

在这篇主题为《Vocabulary Learningvia Optimal Transport for Machine Translation》的论文中，作者创新地把经济学和数学的知识运用到词表学习方案：

首先，论文使用经济学的“边际收益”概念定义了词表质量的评价指标。

信息熵可以理解为蕴含在每个字中的平均语义含量。信息熵越小，越加利于模型学习。作者使用基于字的熵计算方式来评估该属性，其中v为词表，i为词表中的标记，P为标记在训练集出现的频率：

国外顶尖NLP专家 nlp顶级期刊_国外顶尖NLP专家_02

在基于频率的方法下，词表越小，稀疏标记（token）越少，参数也越少，那么更加有利于模型学习。

信息熵和词表大小不可以兼顾。一般来说，词表越大，所需参数越大，稀疏标记越多，但是信息熵在减小。为此，论文引入了“边际收益”的概念。

“边际收益”衡量了付出单位代价所能获得的利益的数量。作者将信息熵看成是利益，词表大小看成是代价。随着词表的增加，不同大小的词表对应的信息熵收益是不同的。

通过使用“边际收益”的概念，作者定义了衡量词表质量的指标MUV，并且观测到了MUV指标和下游任务的相关性。

然后，以“最优运输”的数学方法尝试解决最优词表的生成问题。

给定词表评价指标MUV之后，学习最优词表的问题可以粗略地等价为寻找具有最大MUV的词表问题，但是词表搜索空间不仅庞大，而且是离散空间，如何去高效地学到相应的词表呢？论文作者巧妙地将词表学习转化成了搜索具有最大MUV分数词表的离散优化问题，“最优运输”就是一个非常合适的解决方案。

大约250年前，法国数学家蒙日在其作品中对“最优运输”类问题进行了严格分析，下面是一个比较直观的例子。假设在战争中，我方一些前线阵地发出了需要增兵的信号，而我们的士兵分散在不同的后方根据地。不同的前线需要的士兵个数不同，后方根据地的士兵个数也不同，前线距离后方根据地的距离也不同。问如何设计转移方案，使得总转移代价最低？这就是最优运输想要回答的问题。

国外顶尖NLP专家 nlp顶级期刊_人工智能_03

最优运输问题示意图

通过建模成一个“最优运输”的目标函数，VOLT方案取得了出色的效果。以下是VOLT生成的词表在双语翻译的结果，可以看到，新方法学到的词表比经常使用的词表小很多，效果也很有竞争力。

国外顶尖NLP专家 nlp顶级期刊_深度学习_04

以下是多语翻译的结果，总体来看，VOLT方案在三分之二的数据集上效果也是较好的。

国外顶尖NLP专家 nlp顶级期刊_国外顶尖NLP专家_05

目前，VOLT研究项目已向全球开发者开源。

论文地址：

https://arxiv.org/abs/2012.15671

项目地址：

https://github.com/Jingjing-NLP/VOLT

据了解，这篇最佳论文研究成果也将在字节跳动的火山翻译业务中逐步落地，为飞书、今日头条等产品和火山引擎的企业级客户提供机器翻译支持。2021年以来，火山翻译实现多项重要技术突破，研发出支持150个语种互译的大规模翻译模型mRASP2，并对外开源了当前业界最快的推理和训练引擎LightSeq2.0，以及端到端语音翻译工具包NeurST，获得开源社区的广泛好评。

在此前由ACL举办的机器翻译大赛WMT2021上，火山翻译以独创的“并行翻译”系统参赛，夺得德语到英语方向比赛自动评估第一名。“并行翻译”在国际赛事中首次亮相，就击败了从左向右逐词翻译的传统技术，打破后者在机器翻译领域的绝对统治地位，这项技术的论文也得到ACL 2021大会收录。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。