NLP词汇聚类方法

有时,简单的算法也有其实用的意义,由于之前公司内部搜索引擎优化的需要,我根据《编程珠玑》中查找英文单词变位词的算法，来实现搜索纠错的功能。在搜索时，有时记不住单词，会出现拼写错误的情况，例如，搜索“height”时手误，搜索了“heigth”，那么我们要在搜索不到的情况下，给他变位词作为提示（注：因为公司内部搜索，该算法已经够用，真正的搜索引擎应该是采用更高效的算法，请有经验的前辈赐教）。算法分三

NLP词汇聚类方法

搜索

List

数组

转载

mob64ca13f83523

6天前

12阅读

NLP专业词汇 nlp相关

本文整理了 GitHub 上 11 个 NLP 相关项目。包含 NLP 的最近前沿进展、学习路径、基准语料库、面试必备理论知识等。无论是入门，还是精进 NLP ，这些项目足以满足你的需求！收藏本文慢慢学习吧。最近进展梳理：NLP-progresshttps://github.com/sebastianruder/NLP-progress跟踪 NLP 最新进展。整理常见 NLP 任务的 SOTA 模

NLP专业词汇

自然语言处理

深度学习

pytorch

nlp

转载

mob64ca1419a401

3月前

22阅读

NLP《词汇表示方法（六）ELMO》

我们已经学习了多种词向量的表示方法，嵌入词向量，基本上都是通过学习语言模型LM学习来的副产品。

ELMo

词向量

语言模型

权重

原创

DreamSeaQainXun

2022-12-14 16:25:24

117阅读

NLP《词汇表示方法（七）BERT》

今天学习超级火热的Bert模型来进行词向量的学习。BERT（Bidirectional Encoder Represen

Bert

词向量

并行化

情感分析

原创

DreamSeaQainXun

2022-12-14 16:25:28

76阅读

NLP《词汇表示方法（五）GloVe》

GloVe也是一个建立词向量的方法，但是这一篇我不打算自己写了，因为让我感到震撼的是，有强大的数学意识和数学思维是多么重要的一件事儿，当你想去设计一个模型，简化一个模型，以及解决这个模型的问题的时候，怎么使用数学手段去实现，当最终公式写出来的时候，你才会发现没有多么复杂的式子啊，人家是怎么想到的呢，其实是每一项的由来都是内含深厚的数学功底的。我是直接学习如下几个文章搞懂的，推荐给大家（自己可看原文

GloVe

.net

词向量

数学思维

原创

DreamSeaQainXun

2022-12-14 16:31:03

76阅读

nlp的词汇增强 nlp中语料增强的方法

一、应用背景众所周知，深度学习中的神经网络模型都是依靠数据驱动，优质的数据能够显著提升模型的运行效果。通常来说，有监督学习的模型性能会好于无监督学习的模型。但是，有监督学习的模型需要大量的标注数据，而人工标注数据需要花费大量的人力物力，所以数据增强是一种有效的解决方案。二、常用方法1.传统方法在NLP领域中，对文本数据进行增强无外乎两种方法，一种是加噪法，另一种是回译法。加噪法是指在原有数据基础上

nlp的词汇增强

深度学习

人工智能

机器学习

python

转载

mob6454cc7c8b2e

10月前

83阅读

NLP《词汇表示方法（四）负采样》

一：负采样在CBOW和Skip-Gram模型中，最后输出的都是词汇的one-hot向量，假如我们的词汇表的数量是10000，嵌入空间的维度是3

负采样

word2vec

随机数

反向传播

采样方式

原创

DreamSeaQainXun

2022-12-14 16:25:18

210阅读

NLP 根据词汇生成短句 nlp 词频

1 TF-IDF算法介绍TF-IDF（term frequency–inverse document frequency，词频-逆文档频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。TF-IDF是一种统计方法，用以评估一字词（Token）对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次

NLP 根据词汇生成短句

NLP

词频

权重

权值

转载

imking

8月前

37阅读

NLP《词汇表示方法（二）词嵌入表示》

用one-hot向量的方式表示词汇无法得到词语之间的相似性和联系性，这个不符合我们的语言习惯，我们很多词语

词汇表征

相似度

数据

语言模型

原创

DreamSeaQainXun

2022-12-14 16:28:07

89阅读

NLP词性标记词汇标记

如何进行词汇标注呢？首先进行数据预处理，例如如果给定的是句子，先要对句子进行分割；最简单的标注器，可以给定词汇使用得最频繁的词性作为标注器中该词汇的词性，但是由于词汇存在二义性，使得这种标注准确度受限，通过上下文语境，可以在一定程度上解决这个问题，可以采用N-gram标注器，此外，Brill标注器具有修正功能。为了使python的中文注释正确，必须在开头加上一句代码# -*- coding: ut

NLP词性标记

nlp

nltk

tagger

POS

转载

mob64ca1405664d

2023-08-31 07:18:50

60阅读

NLP《词汇表示方法（三）word2vec》

Word2Vec是2013年Google发布的工具，也可以说是一个产生词向量的一群模型组合，关于词向量，也就是嵌入词向量的解

word2vec

Skip-Gram

CBOW

词向量

权重

原创

DreamSeaQainXun

2022-12-14 16:27:42

136阅读

NLP词汇表怎么建立 nlp新词发现

正向最大匹配其主要是目的是将一句话分成进行词语的划分，相当于看看这句话由哪些词语组成，最完美的解决方案是，我会准备一个词库，然后我输入进去一句话，刚好我用我词库里面的词语把这句话分成一个一个词，一个字不剩（也不一定是词语，可能是介词，可能是代词）。我们的正向最大匹配就是为了达到这个目的。方法一：找出词表中最长的那个词语的长度从我们输入进去的话（也就是字符串）中，从头开始，用最大的那个长度去截取对应

NLP词汇表怎么建立

自然语言处理

中文分词

python

字符串

转载

mob64ca140bbb8b

5月前

0阅读

nlp 识别短句中的重点词汇 nlp词表

词向量：可以简单的描述为，用一定维度的矩阵来表示词语，用于计算机的运算，现在一般用于NLP领域。最早期的词向量维度的大小取决于

nlp 识别短句中的重点词汇

词向量

中心词

DNN

转载

mob6454cc6172e5

9月前

45阅读

NLP《词汇表示方法（一）one-hot向量表示》

词语是NLP里面最基本的要处理的单元，词语组合成能句子，句子组成段落，段仅仅能对字符做个区分表示而已。一：词语的表示原始的方法就是one-hot向量的方法。假如我们有个词库，一共有V个词汇，罗列了所

词汇表征

数据

相似度

模型表示

原创

DreamSeaQainXun

2022-12-14 16:27:12

148阅读

java nlp词性框架 java语言词汇

1.标识符包、类、方法、参数和变量的名称。大小写字母、数字、_和$符号的组合，不以数字开始，不能使关键字，不能包括分隔符和换行。（严格区分大小写，最大长度255个字符）2.字面量某种类型的值（具体的值）3.注释不能执行的文字，多用于解释，有单行注释//...,多行注释/*...*/和文档注释/**...*/4.分隔符分号 → 用于表示一个语句的结束。如a=1;b=2;空格

java nlp词性框架

java

数组名

数据

赋值

转载

mob6454cc6ba5a5

1月前

0阅读

nlp文本聚类 nlp 聚类

何为聚类简单理解，如果一个数据集合包含N个实例，根据某种准则可以将这N个实例划分为m个类别，每个类别中的实例都是相关的，而不同类别之间是区别的也就是不相关的，这个过程就叫聚类了。聚类过程1）特征选择(feature selection)：就像其他分类任务一样，特征往往是一切活动的基础，如何选取特征来尽可能的表达需要分类的信息是一个重要问题。表达性强的特征将很影响聚类效果。这点在以后的实验中我会展示

nlp文本聚类

机器学习

python

kmeans算法

聚类

转载

mob64ca140fd7c1

2023-09-16 11:20:44

90阅读

NLP方法 nlp方法与策略

1、情感分析的基本方法对情感分析的研究到目前为止主要集中在两个方面：识别给定的文本实体是主观的还是客观的，以及识别主观的文本的极性。大多数情感分析研究都是使用机器学习的方法。在情感分析领域，文本可以划分为积极和消极两类，或者积极、消极和中性的多类。分析方法主要分为：

NLP方法

nlp

数据

情感分析

循环神经网络

转载

mob6454cc6aab12

2023-07-31 22:45:53

59阅读

【NLP】Python NLTK获取文本语料和词汇资源

向AI转型的程序员都关注了这个号????????????大数据挖掘DT机器学习公众号：datayxNLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具...

python

词性标注

公众号

转载

datayx

2022-02-09 14:28:23

193阅读

【NLP】Python NLTK获取文本语料和词汇资源

向AI转型的程序员都关注了这个号????????????大数据挖掘DT机器学习公众号：datayxNLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具...

python

词性标注

公众号

机器学习

代码重用

转载

datayx

2021-10-26 13:34:35

343阅读

句子聚类nlp nlp 文本聚类

　　随着互联网的迅猛发展，信息的爆炸式增加，信息超载问题变的越来越严重，信息的更新率也越来越高，用户在信息海洋里查找信息就像大海捞针一样。搜索引擎服务应运而生，在一定程度上满足了用户查找信息的需要。然而互联网的深入发展和搜索引擎日趋庞大，进一步凸现出海量信息和人们获取所需信息能力的矛盾。那么，如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。面对互联网时代庞杂无序的海量信息，智能高效地处

句子聚类nlp

人工智能

聚类

数据

文本聚类

转载

Aceryt

9月前

50阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

NLP词汇聚类方法