2D-TAN 2维时域临近网络

在本文中,我们研究了自然语言的矩定位问题,并提出了一种新颖的2D时间邻域网络(2D-TAN)方法。


核心思想是在二维时间图上检索一个时刻,该时刻将相邻的候选时刻视为时间上下文。 


2D-TAN能够对相邻的时间关系进行编码,同时学习区分特征以将视频时刻与参考表达进行匹配。


与三个基准数据集上的最新方法相比,我们的模型设计简单,并具有竞争优势。


【干货】AI领域优秀开源项目及优秀论文分享!_java


2D-TAN由三部分构成:一个用来提取自然语言文本特征的编码器,一个用来提取视频特征图的编码器,及一个用来定位的时域邻近网络。


论文地址:

https://github.com/microsoft/2D-TAN


02

 语音识别中的Word2Vec应用

构建基于注意力机制的语音识别模型,使用Word2vec模型帮助训练注意力模型。


项目的模型基于音素识别构建。使用的数据集是librispeech(http://www.openslr.org/12)和TIMIT。使用的发音词典是CMU的39个音素发音词典。


我们在模型中使用了一种新方法。word2vec模型用于初始化注意力模型中的嵌入矩阵,这可以使嵌入向量之间的距离更大,从而可以提高模型的性能。


同时,为了解决模型的过拟合问题注意模型上的注意力数据集。我们使用一种新的音素逆映射策略将39个音素数据集转换为61个音素数据集。


数据集:Librispeech、TIMIT

特征:40 mel-filterbank + delta + delta delta

编码器: 512BLSTM

解码器:512LSTM


模型架构:


【干货】AI领域优秀开源项目及优秀论文分享!_java_02


项目结果:



论文:

Application of Word2vec in Phoneme Recognitionhttps://arxiv.org/ftp/arxiv/papers/1912/1912.08011.pdf


项目地址:

https://github.com/fengxin-bupt/Application-of-Word2vec-in-Phoneme-Recognition


03

 cail2019 法研杯(CAIL 2019)相似案例匹配任务

法研杯2019相似案例匹配第二名解决方案;


比赛介绍:


关于比赛和赛题详情参见比赛官网和官方 Github 链接。


简要来说,是一个法律文书相似度计算问题,所有文书来自裁判文书网的真实借贷纠纷案件。


问题形式:给定三个文书(A, B, C),预测A与B, C中的哪一个更为相似


评价指标:准确率


项目方案介绍:


我们最终提交的方案主要使用了数据增广和设计了一个孪生 BERT 模型,没有进行模型集成,最终取得了第二名的成绩。


模型结构:


【干货】AI领域优秀开源项目及优秀论文分享!_java_03


项目地址:

https://github.com/padeoe/cail2019


04  horovod

Horovod是针对TensorFlow,Keras,PyTorch和Apache MXNet的分布式深度学习训练框架。Horovod的目标是使分布式深度学习快速且易于使用。


该项目的主要动机是简化单GPU TensorFlow程序,并使其能够在许多GPU上更快地成功进行训练。


这有两个方面:

为了使程序分布起来,必须对程序进行多少修改?运行起来有多容易?


它在分布式模式下运行的速度有多快?


在Uber内部,我们发现MPI模型比带有参数服务器的分布式TensorFlow更为简单,并且所需的代码更改少得多。


除了易于使用之外,Horovod还很快速。下面的图表表示在128个服务器上完成的基准测试,这些服务器具有4个Pascal GPU,每个GPU均通过支持RoCE的25 Gbit / s网络连接:


【干货】AI领域优秀开源项目及优秀论文分享!_java_04


Horovod对于Inception V3和ResNet-101均达到90%的缩放效率,对于VGG-16达到68%的缩放效率。请参阅基准,以了解如何重现这些数字。


虽然安装MPI和NCCL本身似乎是一个额外的麻烦,但是只需要由处理基础结构的团队来完成一次,而公司中其他所有构建模型的人都可以享受大规模培训模型的简便性。