神经网络分割输入输出神经网络分词

转载

mob6454cc667b1d 2023-10-15 07:14:05

文章标签 神经网络分割输入输出 python 字符串相似度数据 文章分类 神经网络人工智能

一、基础知识

1、tokenization分词

分词，分出的每一个词语叫做token

*清华大学API：THULAC；或者直接用jieba

可以切分为词语，或者完全分成一个一个字

2、N-gram

表示把连续的N个词语作为特征，帮助获取词语特征的方法，感觉类似于卷积神经网络中的池化操作，将特征选择放大

import jieba
text="分词 >_<，英文tokenization，也叫word segmentation,是一种操作，它按照特定需求，把文本切分成一个字符串序列(其元素一般称为token，或者叫词语)。"
cuted=jieba.lcut(text)#cut结果是一个生成器，lcut结果直接是一个列表
[cuted[i:i+2] for i in range(len(cuted)-1)]#这里将连续的两个词语作为特征
#cuted[i:i+2]，len(cuted)-1是连续两个词语。N=3就-2

输出：

[['分词', ' '],
 [' ', '>'],
 ['>', '_'],
 ['_', '<'],
 ['<', '，'],
 ['，', '英文'],
 ['英文', 'tokenization'],
 ['tokenization', '，'],
 ['，', '也'],
 ['也', '叫'],
 ['叫', 'word'],
 ['word', ' '],
 [' ', 'segmentation'],
 ['segmentation', ','],
 [',', '是'],
 ['是', '一种'],
 ['一种', '操作'],
 ['操作', '，'],
 ['，', '它'],
 ['它', '按照'],
 ['按照', '特定'],
 ['特定', '需求'],
 ['需求', '，'],
 ['，', '把'],
 ['把', '文本'],
 ['文本', '切'],
 ['切', '分成'],
 ['分成', '一个'],
 ['一个', '字符串'],
 ['字符串', '序列'],
 ['序列', '('],
 ['(', '其'],
 ['其', '元素'],
 ['元素', '一般'],
 ['一般', '称为'],
 ['称为', 'token'],
 ['token', '，'],
 ['，', '或者'],
 ['或者', '叫'],
 ['叫', '词语'],
 ['词语', ')'],
 [')', '。']]

但是N-gram存在文本长度增加参数空间爆炸式增长问题，不适用于我的数据。应该使用word2vec

3、VSM空间向量模型

用连续的稠密向量去刻画一个word的特征，并建立一个从向量到概率的平滑函数模型，使得相似的词向量可以映射到相近的概率空间上，即向量空间模型（Vector Space Model，以下简称VSM）。

基于Bag of Words Hypothesis，构造term-document矩阵，每个行表示词典中的一个词，列表示训练语料中的文章，则可以提取行向量作为语义向量。

类似地，可以基于Distributional Hypothesis构造一个word-context的矩阵，term-document矩阵会给经常出现在同一篇document里的两个word赋予更高的相似度；而word-context矩阵会给那些有着相同context的两个word赋予更高的相似度。后者相对于前者是一种更高阶的相似度，因此在传统的信息检索领域中得到了更加广泛的应用。不过，这种co-occurrence矩阵仍然存在着数据稀疏性和维度灾难的问题。

4、word2vec【感觉很有用但是没咋看懂】

CBoW模型（Continuous Bag-of-Words Model）等价于一个词袋模型的向量乘以一个embedding矩阵，从而得到一个连续的embedding向量

5、文本向量化

方式：转化为one-hot编码//转为word-embedding

one-hot编码

将每一个token用一个长度为N的向量进行表示，但是结果是稀疏矩阵，占用巨大空间。

word-embedding

使用浮点型稠密矩阵进行表示，向量会使用不同的维度表示，得到m行n列矩阵。（100，256，300）。其中向量中的每一个值都是超参数，初始值随机生成。将文本中每一个词语转化为向量，句子用向量表示（相加求均值等）

首先将token用数字表示，然后再用向量表示。向量的每个维度都是训练出来的值。

神经网络分割输入输出神经网络分词_python

#torch.nn.Embedding(num_embeddings,embedding_dim)
embedding=nn.Embedding(vocab_size,300)#首先实例化
input_embeded=embedding(input)#获取input数据embedding操作之后的结果

其中，num_embeddings表示词典的大小

embedding_dim表示embedding的维度，即不重复词语的个数

得到的结果可以理解成，原来是一个数字表示一个词，现在变成一个向量，也就是二维数据变成三维了。

二、情感分类

1、数据集准备

如何完成基础的dataset构建与dataloader准备

batch中文本长度不一致，如何处理成相同长度

如何将batch中的文本转为数字序列

关于re.sub函数的介绍：flag还有后面S的含义

2、模型

3、训练

4、评估

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java监测数据表中增量数据 java数据增量同步方案

下一篇：java LinkedHashMap怎么比较顺序 java linkedhashmap原理

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯