nlp实验室国内 nlp实验室排名_图结构

EMNLP 2020(2020 Conference on Empirical Methods in Natural Language Processing)将于2020年11月16日至20日以在线会议的形式举办。EMNLP是计算语言学和自然语言处理领域的顶级国际会议,由ACL旗下SIGDAT组织,每年举办一次。EMNLP在谷歌学术计算语言学刊物指标中排名第二,是CCF-B类推荐会议。本届EMNLP 2020引入了新在线附属出版物“Findings of EMNLP”。EMNLP 2020程序委员会暂未公布投稿量和录用量等信息。


哈工大讯飞联合实验室(HFL)的三篇论文被EMNLP 2020及子刊录用,其中长文一篇,短文一篇;同时一篇长文入选“Findings of EMNLP”。


nlp实验室国内 nlp实验室排名_自然语言处理_02

- 1 -

标题:Is Graph Structure Necessary for Multi-hop Question Answering?

作者:邵楠,崔一鸣,刘挺,王士进,胡国平

领域:多步推理,阅读理解,图神经网络

类型:EMNLP 2020, Short Paper

摘要:最近在许多NLP研究领域,人们都在尝试将文本建模为图结构并使用图神经网络算法进行处理。在本文中,我们探索了图结构在文本多步推理中的必要性。我们的分析聚焦于HotpotQA数据集。我们构建了一个较强的基线模型并在此之上验证了,当正确地使用预训练模型时,图结构对于文本多步推理并不是必要的。我们指出图结构以及对应的邻接矩阵都是一种任务相关的先验知识,并且图注意力算法可以被看作是自注意力的一种特例。实验证明了图注意力算法或整个图结构可以被自注意力或Transformer层替换。

- 2 -

标题:Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting

作者:陈三元,侯宇泰,崔一鸣,车万翔,刘挺,余翔湛

领域:优化方法,预训练模型

类型:EMNLP 2020, Long Paper

摘要:深层预训练模型在“预训练+精调”模式中取得了巨大成功。但这种迁移学习方法通常会碰到“灾难性遗忘”问题并且会导致次优结果。为了在精调过程中减少“灾难性遗忘”问题,我们提出了一种“recall and learn”的方法来同时学习预训练任务和下游任务。具体地,我们提出了一种模拟预训练机制,在不使用数据的情况下回忆预训练任务所带来的知识;同时提出了一种目标转移机制来逐步学习下游任务。实验结果表明我们的方法可以在GLUE任务上获得state-of-the-art效果。同时,BERT-base在应用了我们的方法后能够超过直接精调BERT-large的效果。我们已经将RecAdam优化器进行开源:https://github.com/Sanyuan-Chen/RecAdam

- 3 -

标题:Revisiting Pre-Trained Models for Chinese Natural Language Processing

作者:崔一鸣,车万翔,刘挺,秦兵,王士进,胡国平

领域:预训练模型,中文信息处理

类型:Findings of EMNLP, Long Paper

摘要:BERT及其相关变种预训练语言模型在众多自然语言处理任务中获得显著性能提升。在本文中,我们探究了这些模型在中文场景下的效果变现,并将相关模型进行开源。同时,我们也提出了一个简单有效的预训练语言模型MacBERT,并提出了MLM as correction (Mac) 预训练任务。我们在多个中文自然语言处理任务中评测了这些模型的效果,并且实验结果表明MacBERT在多个任务中达到了state-of-the-art效果。目前除MacBERT外所有中文预训练模型已开源:BERT&RoBERTa、XLNet、ELECTRA。

 编辑:HFL编辑部



nlp实验室国内 nlp实验室排名_nlp实验室国内_03