论文阅读笔记

1. title:基于文本加权词共现的跨语言文本相似度分析

张晓宇

中国传媒大学

软件导刊

跨语言文本相似度计算三种方法:

(1)基于全文机器翻译方法:把源语言和目标语言映射到中间语言

(2)基于统计翻译模型方法:建立两种语言之间生成翻译概念词典,因此要大规模对齐语料

(3)CL-ESA算法 explicit semantic analysis

NLP中文相似词 中文语义相似度_NLP中文相似词


两个阶段: 匹配阶段和映射阶段

跨语言映射关系模型

输入: 平行语料

输出:<源语F, 目标语言F’>映射关系

NLP中文相似词 中文语义相似度_跨语言_02

NLP中文相似词 中文语义相似度_自然语言处理_03

NLP中文相似词 中文语义相似度_机器翻译_04


NLP中文相似词 中文语义相似度_机器翻译_05


2. 结合预训练模型和语言知识库的文本匹配方法

中文信息学报 2020
哈工大深
abstract
文章提出大规模预训练模型融合外部语言知识库方法
1)在大规模预训练模型
3)文本匹配标注数据进行微调
数据集: MRPC\QQP

在现有的大规模预训练模型框架基础上融入外部语言知识库

这种外部语言知识库(wordnet、hownet)[5\6\7] — > 这些外部知识库如何使用?

NLP中文相似词 中文语义相似度_跨语言_06


在wordnet找出同义词对、反义词对

词组固定搭配知识学习任务生成

2.4 bert存在的问题: 以token为输入和mask单位,每次mask 15%的词预测以学习语言模型,可能丢失某些固定词组的结构特征和隐式语义,或者需要大大增加捕捉改组合的信息所需的语料量和计算代价。


3. 中文长文本匹配算法研究

郭佳乐
哈工大
硕士论文

文本匹配任务本质上是判断源文本与目标文本之间的语义相似度
要正确建模文本中蕴含的语义信息
难点: 词汇和短语的歧义行 存在广泛的指代和省略; 文本篇幅长度的时候,文本中词汇、短语、句子本身语义受复杂文章结果影响很大

历史研究:
hierarchical structure表示文本,局表句子级别的层次信息; Liu [8]
Smash RNN 孪生多深度注意力机制的层次循环神经网络 Jiang [1]
Supervised Semantic Indexing SSI Bai [8]
Regularized Mapping to Latent Space 把文本表示进行震泽华隐空间映射 [19]
基于主题模型提出 双语主题模型对因空间进行概率建模 Gao[20]
CNTN模型 Qiu[21]
阿里巴巴 三种序列之间对其特征 [22]
Enhanced-RcNN [23] 短文本
分支思想将长文本转为多个关键词的匹配 Liu[24]

研究内容:
基于图分类框架的长文本匹配算法,通过将长文本匹配任务等价的转化为图分类任务,使用图表示分析的范式来求解,从而获得长文本匹配的结果。

NLP中文相似词 中文语义相似度_机器翻译_07


NLP中文相似词 中文语义相似度_自然语言处理_08


NLP中文相似词 中文语义相似度_自然语言处理_09

2.2 realted work
1.长文本表示学习
2
3 图表示学习 deepwalk 模型 + skip-gram ; LINE模型 ; Node2vec
方法介绍
文本对的图表示模型、基于图的卷积神经网络的节点特征抽取算法那、基于注意力机制图神经网络的节点特征抽取算法、图分类模型、损失函数
(1)文本对图表示模型
顶点的表示
用TextRank算法抽取文章中的NER和关键词, 因此图结构顶点就是文章中所出现的关键词表示; 把句子分配给相关词最高的关键词,每个句子只隶属于一个顶点。 每个顶点包含一个句子子集 。
原文描述:

NLP中文相似词 中文语义相似度_跨语言_10

(2)顶点的编码

对顶点进行编码,有两种方法第一种DNN、第二种TS(基于词项相似度)

DNN 用cnn或者lstm

NLP中文相似词 中文语义相似度_自然语言处理_11


(3)边的表示

NLP中文相似词 中文语义相似度_NLP中文相似词_12


2.3.2 基于图卷积神经网络的节点特征提取算法

基于自注意力机制图神经网络的节点

1) 基于相似度计算的自注意力机制

2)基于学习的自注意力机制

2.3.4 图分类模块
二分类网络, MLP

数据: CNSE,CNSS


4 using Prior Knowledge to Guide BERT’s Attention in Semantic Textual Matching Tasks

author: Xia
auth: jielin

part3 what has bert already know about semantic textual similarity
数据集: MRPC
(1)data Augmentation study
a. split and swap: 如何做到切分或者交换后 语义不变,那只能改变部分单词的位置?
b. add random word:
c. back translation
d. add high-tfidf word: find the w
e. delte low-tfidf word
f. replace synonyms
(2)Layer-wise Perfomance study、

科学问题: 跨语言语义相似度计算
回到 如何更好的编码 句子向量?
可做的创新新研究:

  1. 数据预处理方面:
  2. 编码方面:
  3. 关于相似度的计算问题?

5 机器翻译书籍(肖桐)

part IV 机器翻译前沿

无监督机器翻译

无监督词典归纳:处理不同语言见单词级别翻译任务

NLP中文相似词 中文语义相似度_自然语言处理_13

NLP中文相似词 中文语义相似度_跨语言_14