ACL 2021今天正式颁发“最佳论文”奖项,字节跳动AI Lab的研究成果在3350篇投稿中脱颖而出,当选今年度“最佳论文”。这是ACL成立59年以来,华人科学家团队第二次赢得最高奖项,此前由中科院计算所主导的研究项目曾被评为ACL 2019“最佳长论文”。

ACL大会由国际计算语言学协会主办,是自然语言处理与计算语言学领域最高级别的学术会议。自然语言处理(NLP)被誉为“人工智能皇冠上的明珠”,在机器翻译、搜索、信息流、输入法等领域有着广泛的应用。

字节跳动的获奖论文提出一种新的词表学习方案VOLT。词表是所有NLP任务都会使用的基础组件,ACL官方评审认为,“字节跳动的VOLT方案对机器翻译中一个重要问题提出了有效且新颖的解决方案,能显著减少词表的学习和搜索时间,相信其不仅会在研究界产生重要影响,在工业应用方面也有着巨大潜力”。

国外顶尖NLP专家 nlp顶级期刊_编程语言

在这篇主题为《Vocabulary Learningvia Optimal Transport for Machine Translation》的论文中,作者创新地把经济学和数学的知识运用到词表学习方案:

首先,论文使用经济学的“边际收益”概念定义了词表质量的评价指标。

信息熵可以理解为蕴含在每个字中的平均语义含量。信息熵越小,越加利于模型学习。作者使用基于字的熵计算方式来评估该属性,其中v为词表,i为词表中的标记,P为标记在训练集出现的频率:

国外顶尖NLP专家 nlp顶级期刊_国外顶尖NLP专家_02

在基于频率的方法下,词表越小,稀疏标记(token)越少,参数也越少,那么更加有利于模型学习。

信息熵和词表大小不可以兼顾。一般来说,词表越大,所需参数越大,稀疏标记越多,但是信息熵在减小。为此,论文引入了“边际收益”的概念。

“边际收益”衡量了付出单位代价所能获得的利益的数量。作者将信息熵看成是利益,词表大小看成是代价。随着词表的增加,不同大小的词表对应的信息熵收益是不同的。

通过使用“边际收益”的概念,作者定义了衡量词表质量的指标MUV,并且观测到了MUV指标和下游任务的相关性。

然后,以“最优运输”的数学方法尝试解决最优词表的生成问题。

给定词表评价指标MUV之后,学习最优词表的问题可以粗略地等价为寻找具有最大MUV的词表问题,但是词表搜索空间不仅庞大,而且是离散空间,如何去高效地学到相应的词表呢?论文作者巧妙地将词表学习转化成了搜索具有最大MUV分数词表的离散优化问题,“最优运输”就是一个非常合适的解决方案。

大约250年前,法国数学家蒙日在其作品中对“最优运输”类问题进行了严格分析,下面是一个比较直观的例子。假设在战争中,我方一些前线阵地发出了需要增兵的信号,而我们的士兵分散在不同的后方根据地。不同的前线需要的士兵个数不同,后方根据地的士兵个数也不同,前线距离后方根据地的距离也不同。问如何设计转移方案,使得总转移代价最低?这就是最优运输想要回答的问题。

国外顶尖NLP专家 nlp顶级期刊_人工智能_03

最优运输问题示意图

通过建模成一个“最优运输”的目标函数,VOLT方案取得了出色的效果。以下是VOLT生成的词表在双语翻译的结果,可以看到,新方法学到的词表比经常使用的词表小很多,效果也很有竞争力。

国外顶尖NLP专家 nlp顶级期刊_深度学习_04

以下是多语翻译的结果,总体来看,VOLT方案在三分之二的数据集上效果也是较好的。

国外顶尖NLP专家 nlp顶级期刊_国外顶尖NLP专家_05

目前,VOLT研究项目已向全球开发者开源。

论文地址:

https://arxiv.org/abs/2012.15671

项目地址:

https://github.com/Jingjing-NLP/VOLT

据了解,这篇最佳论文研究成果也将在字节跳动的火山翻译业务中逐步落地,为飞书、今日头条等产品和火山引擎的企业级客户提供机器翻译支持。2021年以来,火山翻译实现多项重要技术突破,研发出支持150个语种互译的大规模翻译模型mRASP2,并对外开源了当前业界最快的推理和训练引擎LightSeq2.0,以及端到端语音翻译工具包NeurST,获得开源社区的广泛好评。

在此前由ACL举办的机器翻译大赛WMT2021上,火山翻译以独创的“并行翻译”系统参赛,夺得德语到英语方向比赛自动评估第一名。“并行翻译”在国际赛事中首次亮相,就击败了从左向右逐词翻译的传统技术,打破后者在机器翻译领域的绝对统治地位,这项技术的论文也得到ACL 2021大会收录。