NLP中文相似词中文语义相似度

转载

mob6454cc68daf3 2024-01-27 20:51:23

文章标签 NLP中文相似词自然语言处理机器翻译跨语言相似度 文章分类 NLP 人工智能

论文阅读笔记

1. title:基于文本加权词共现的跨语言文本相似度分析

张晓宇

中国传媒大学

软件导刊

跨语言文本相似度计算三种方法：

（1）基于全文机器翻译方法：把源语言和目标语言映射到中间语言

（2）基于统计翻译模型方法：建立两种语言之间生成翻译概念词典，因此要大规模对齐语料

（3）CL-ESA算法 explicit semantic analysis

NLP中文相似词中文语义相似度_NLP中文相似词

两个阶段：匹配阶段和映射阶段

跨语言映射关系模型

输入：平行语料

输出：<源语F，目标语言F’>映射关系

NLP中文相似词中文语义相似度_跨语言_02

NLP中文相似词中文语义相似度_自然语言处理_03

NLP中文相似词中文语义相似度_机器翻译_04

NLP中文相似词中文语义相似度_机器翻译_05

2. 结合预训练模型和语言知识库的文本匹配方法

中文信息学报 2020
哈工大深
abstract
文章提出大规模预训练模型融合外部语言知识库方法
1)在大规模预训练模型
3)文本匹配标注数据进行微调
数据集： MRPC\QQP

在现有的大规模预训练模型框架基础上融入外部语言知识库

这种外部语言知识库（wordnet、hownet）[5\6\7] — > 这些外部知识库如何使用？

NLP中文相似词中文语义相似度_跨语言_06

在wordnet找出同义词对、反义词对

词组固定搭配知识学习任务生成

2.4 bert存在的问题：以token为输入和mask单位，每次mask 15%的词预测以学习语言模型，可能丢失某些固定词组的结构特征和隐式语义，或者需要大大增加捕捉改组合的信息所需的语料量和计算代价。

3. 中文长文本匹配算法研究

郭佳乐
哈工大
硕士论文

文本匹配任务本质上是判断源文本与目标文本之间的语义相似度
要正确建模文本中蕴含的语义信息
难点：词汇和短语的歧义行存在广泛的指代和省略；文本篇幅长度的时候，文本中词汇、短语、句子本身语义受复杂文章结果影响很大

历史研究：
hierarchical structure表示文本，局表句子级别的层次信息； Liu [8]
Smash RNN 孪生多深度注意力机制的层次循环神经网络 Jiang [1]
Supervised Semantic Indexing SSI Bai [8]
Regularized Mapping to Latent Space 把文本表示进行震泽华隐空间映射 [19]
基于主题模型提出双语主题模型对因空间进行概率建模 Gao[20]
CNTN模型 Qiu[21]
阿里巴巴三种序列之间对其特征 [22]
Enhanced-RcNN [23] 短文本
分支思想将长文本转为多个关键词的匹配 Liu[24]

研究内容：
基于图分类框架的长文本匹配算法，通过将长文本匹配任务等价的转化为图分类任务，使用图表示分析的范式来求解，从而获得长文本匹配的结果。

NLP中文相似词中文语义相似度_机器翻译_07

NLP中文相似词中文语义相似度_自然语言处理_08

NLP中文相似词中文语义相似度_自然语言处理_09

2.2 realted work
1.长文本表示学习
2
3 图表示学习 deepwalk 模型 + skip-gram ; LINE模型； Node2vec
方法介绍
文本对的图表示模型、基于图的卷积神经网络的节点特征抽取算法那、基于注意力机制图神经网络的节点特征抽取算法、图分类模型、损失函数
（1）文本对图表示模型
顶点的表示
用TextRank算法抽取文章中的NER和关键词，因此图结构顶点就是文章中所出现的关键词表示；把句子分配给相关词最高的关键词，每个句子只隶属于一个顶点。每个顶点包含一个句子子集。
原文描述：

NLP中文相似词中文语义相似度_跨语言_10

（2）顶点的编码

对顶点进行编码，有两种方法第一种DNN、第二种TS（基于词项相似度）

DNN 用cnn或者lstm

NLP中文相似词中文语义相似度_自然语言处理_11

（3）边的表示

NLP中文相似词中文语义相似度_NLP中文相似词_12

2.3.2 基于图卷积神经网络的节点特征提取算法

基于自注意力机制图神经网络的节点

1）基于相似度计算的自注意力机制

2）基于学习的自注意力机制

2.3.4 图分类模块
二分类网络， MLP

数据： CNSE,CNSS

4 using Prior Knowledge to Guide BERT’s Attention in Semantic Textual Matching Tasks

author: Xia
auth: jielin

part3 what has bert already know about semantic textual similarity
数据集： MRPC
（1）data Augmentation study
a. split and swap: 如何做到切分或者交换后语义不变，那只能改变部分单词的位置？
b. add random word:
c. back translation
d. add high-tfidf word: find the w
e. delte low-tfidf word
f. replace synonyms
（2）Layer-wise Perfomance study、

科学问题：跨语言语义相似度计算
回到如何更好的编码句子向量？
可做的创新新研究：

数据预处理方面：
编码方面：
关于相似度的计算问题？

5 机器翻译书籍（肖桐）

part IV 机器翻译前沿

无监督机器翻译

无监督词典归纳：处理不同语言见单词级别翻译任务

NLP中文相似词中文语义相似度_自然语言处理_13

NLP中文相似词中文语义相似度_跨语言_14

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Android 弹框框架安卓推送框架

下一篇：teambition的技术架构 teambition团队

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯