有时,简单的算法也有其实用的意义,由于之前公司内部搜索引擎优化的需要,我根据《编程珠玑》中查找英文单词变位词的算法,来实现搜索纠错的功能。在搜索时,有时记不住单词,会出现拼写错误的情况,例如,搜索“height”时手误,搜索了“heigth”,那么我们要在搜索不到的情况下,给他变位词作为提示(注:因为公司内部搜索,该算法已经够用,真正的搜索引擎应该是采用更高效的算法,请有经验的前辈赐教)。算法分三
本文整理了 GitHub 上 11 个 NLP 相关项目。包含 NLP 的最近前沿进展、学习路径、基准语料库、面试必备理论知识等。无论是入门,还是精进 NLP ,这些项目足以满足你的需求!收藏本文慢慢学习吧。最近进展梳理:NLP-progresshttps://github.com/sebastianruder/NLP-progress跟踪 NLP 最新进展。整理常见 NLP 任务的 SOTA 模
我们已经学习了多种词向量的表示方法,嵌入词向量,基本上都是通过学习语言模型LM学习来的副产品。
原创 2022-12-14 16:25:24
117阅读
今天学习超级火热的Bert模型来进行词向量的学习。BERT(Bidirectional Encoder Represen
原创 2022-12-14 16:25:28
76阅读
GloVe也是一个建立词向量的方法,但是这一篇我不打算自己写了,因为让我感到震撼的是,有强大的数学意识和数学思维是多么重要的一件事儿,当你想去设计一个模型,简化一个模型,以及解决这个模型的问题的时候,怎么使用数学手段去实现,当最终公式写出来的时候,你才会发现没有多么复杂的式子啊,人家是怎么想到的呢,其实是每一项的由来都是内含深厚的数学功底的。我是直接学习如下几个文章搞懂的,推荐给大家(自己可看原文
原创 2022-12-14 16:31:03
76阅读
一、应用背景众所周知,深度学习中的神经网络模型都是依靠数据驱动,优质的数据能够显著提升模型的运行效果。通常来说,有监督学习的模型性能会好于无监督学习的模型。但是,有监督学习的模型需要大量的标注数据,而人工标注数据需要花费大量的人力物力,所以数据增强是一种有效的解决方案。二、常用方法1.传统方法NLP领域中,对文本数据进行增强无外乎两种方法,一种是加噪法,另一种是回译法。加噪法是指在原有数据基础上
一:负采样在CBOW和Skip-Gram模型中,最后输出的都是词汇的one-hot向量,假如我们的词汇表的数量是10000,嵌入空间的维度是3
1 TF-IDF算法介绍TF-IDF(term frequency–inverse document frequency,词频-逆文档频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词(Token)对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次
用one-hot向量的方式表示词汇无法得到词语之间的相似性和联系性,这个不符合我们的语言习惯,我们很多词语
原创 2022-12-14 16:28:07
89阅读
如何进行词汇标注呢?首先进行数据预处理,例如如果给定的是句子,先要对句子进行分割;最简单的标注器,可以给定词汇使用得最频繁的词性作为标注器中该词汇的词性,但是由于词汇存在二义性,使得这种标注准确度受限,通过上下文语境,可以在一定程度上解决这个问题,可以采用N-gram标注器,此外,Brill标注器具有修正功能。为了使python的中文注释正确,必须在开头加上一句代码# -*- coding: ut
转载 2023-08-31 07:18:50
60阅读
Word2Vec是2013年Google发布的工具,也可以说是一个产生词向量的一群模型组合,关于词向量,也就是嵌入词向量的解
原创 2022-12-14 16:27:42
136阅读
正向最大匹配其主要是目的是将一句话分成进行词语的划分,相当于看看这句话由哪些词语组成,最完美的解决方案是,我会准备一个词库,然后我输入进去一句话,刚好我用我词库里面的词语把这句话分成一个一个词,一个字不剩(也不一定是词语,可能是介词,可能是代词)。我们的正向最大匹配就是为了达到这个目的。方法一:找出词表中最长的那个词语的长度从我们输入进去的话(也就是字符串)中,从头开始,用最大的那个长度去截取对应
                      词向量:可以简单的描述为,用一定维度的矩阵来表示词语,用于计算机的运算,现在一般用于NLP领域。               最早期的词向量维度的大小取决于
词语是NLP里面最基本的要处理的单元,词语组合成能句子,句子组成段落,段仅仅能对字符做个区分表示而已。一:词语的表示原始的方法就是one-hot向量的方法。假如我们有个词库,一共有V个词汇,罗列了所
原创 2022-12-14 16:27:12
148阅读
 1.标识符包、方法、参数和变量的名称。大小写字母、数字、_和$符号的组合,不以数字开始,不能使关键字,不能包括分隔符和换行。(严格区分大小写,最大长度255个字符)2.字面量  某种类型的值(具体的值)3.注释不能执行的文字,多用于解释,有单行注释//...,多行注释/*...*/和文档注释/**...*/4.分隔符分号 → 用于表示一个语句的结束。如a=1;b=2;空格
何为聚简单理解,如果一个数据集合包含N个实例,根据某种准则可以将这N个实例划分为m个类别,每个类别中的实例都是相关的,而不同类别之间是区别的也就是不相关的,这个过程就叫聚了。聚过程1)特征选择(feature selection):就像其他分类任务一样,特征往往是一切活动的基础,如何选取特征来尽可能的表达需要分类的信息是一个重要问题。表达性强的特征将很影响聚效果。这点在以后的实验中我会展示
1、情感分析的基本方法       对情感分析的研究到目前为止主要集中在两个方面:识别给定的文本实体是主观的还是客观的,以及识别主观的文本的极性。大多数情感分析研究都是使用机器学习的方法。       在情感分析领域,文本可以划分为积极和消极两,或者积极、消极和中性的多。分析方法主要分为:   
转载 2023-07-31 22:45:53
59阅读
向AI转型的程序员都关注了这个号????????????大数据挖掘DT机器学习 公众号:datayxNLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具...
转载 2022-02-09 14:28:23
193阅读
向AI转型的程序员都关注了这个号????????????大数据挖掘DT机器学习 公众号:datayxNLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具...
转载 2021-10-26 13:34:35
343阅读
  随着互联网的迅猛发展,信息的爆炸式增加,信息超载问题变的越来越严重,信息的更新率也越来越高,用户在信息海洋里查找信息就像大海捞针一样。搜索引擎服务应运而生,在一定程度上满足了用户查找信息的需要。然而互联网的深入发展和搜索引擎日趋庞大,进一步凸现出海量信息和人们获取所需信息能力的矛盾。那么,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。面对互联网时代庞杂无序的海量信息,智能高效地处
  • 1
  • 2
  • 3
  • 4
  • 5