http://leyew.blog.51cto.com/5043877/860255#559183-tsina-1-46862-ed0973a0c870156ed15f06a6573c8bf0前几天开始学习lda,走了不少弯路,对lda仍然是一头雾水。看了这篇文档以后总算明白lda是干啥的了 LDA(Latent Dirichlet Allocation)学习笔记最近在看LDA算法,经过
项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为<IntegerWritable, VectorWritable>的matrix矩阵,key为待聚类文本的数字编号,value为待聚类文本的单词向量Vector, Vector的index为单词在字
原创 2014-06-24 10:44:01
1803阅读
上一节详细介绍了什么是LDA,详细讲解了他的原理,大家应该好好理解,如果不理解,这一节就别看了,你是看不懂的,这里我在简单的叙述LDA的算法思想:首先我们只拥有很多篇文本和一个词典,那么我们就可以在此基础上建立基于基于文本和词向量联合概率(也可以理解为基于文本和词向量的矩阵,大家暂且这样理解),我们只知道这么多了,虽然知道了联合概率密度了,但是还是无法计算,因为我们的隐分类或者主题不知道啊,在LS
最近一段时间在写关于情感分析方面的论文,用到了SVM作为分类算法进行情感分类。 我选用了著名的SVM开源工具包libSVM,果然效果不错。由于LibSVM的输入语料格式有一定的要求。故有时候怎样把我们的训练语料转换成LibSVM的输入语料格式,是一个比较麻烦的事情。 在做这个的过程中我也遇到了挺多麻烦的事情的,比如刚开始的时候,我把同一类的样例放在了一个,出现的结果是libSVM无法进行准确分
原创 2010-03-06 19:37:00
10000+阅读
5点赞
6评论
1、“bag-of words”词袋模型词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中,文本(段落或者文档)被看作是无序的词汇集合,忽略语法甚至是单词的顺序。  词袋模型被用在文本分类的一些方法当中。当传统的贝叶斯分类被应用到文本当中时,贝叶斯中的条件独立性假设导致词袋模型。另外一些文本分类方法如LDA和LSA也使用了这个模型。 2、向量空间模型&n
一、简介文本信息可以说是迄今为止最主要的一种信息交换手段,而作为文本处理中的一个重要领域——字符串匹配,就是我们今天要说的话题。(原文还特意提及文本数据数量每18个月翻一番,以此论证算法必须要是高效的。不过我注意到摩尔定律也是18个月翻番,这正说明数据的增长是紧紧跟随处理速度的,因此越是使用高效的算法,将来待处理的数据就会越多。这也提示屏幕前的各位,代码不要写得太快了……) 字符串匹配
假设有如下一张图,如何把其中的文本分块切割出来,比如“华普超市朝阳门店”、“2015-07-26”就是两个文本块。做图像切割有很多种方法,本文描述一种最直观的投影检测法。先来看看什么是投影,简单来说,投影就是在一定方向上有效像素的数量。来看个直观的图像:这是一张水平投影图与原图的对比,从投影图上能看到多个波峰,文字多的地方,投影就长,行间的空白处,投影为0。 上个示例代码:public 
推荐 原创 2015-07-29 16:22:56
10000+阅读
3点赞
3评论
这里是利用了textCNN、textRNN、Bi-LSTM、CNN+RNN、Transformer模型搭建的文本匹配项目。Github地址在这里:https://github.com/yingdajun/chinese_text_match_By_all_pattern.git
原创 2021-09-08 09:09:37
215阅读
        doccano是一个开源文本标注工具。 它提供了文本分类,序列标注和序列到序列的标注功能。 因此,您可以为情绪分析,命名实体识别,文本摘要等创建标记数据。 只需创建项目,上传数据并开始标注。总结下来就3步,上传数据,标注,下载带有标签的数据。命名实体识别第一个演示是序列标记任务之一,命名实体识别。 您只需选择文本跨度并对其进行标注即可。 由于
本文描述一种利用OpenCV及傅里叶变换识别图片中文本旋转角度并自动校正的方法,由于对C#比较熟,因此本文将使用OpenCVSharp。 文章参考了http://johnhany.net/2013/11/dft-based-text-rotation-correction,对原作者表示感谢。我基于OpenCVSharp用C#进行了重写,希望能帮到同样用OpenCVSharp的同学。========
推荐 原创 2015-07-24 16:08:36
10000+阅读
3点赞
4评论
上一次通过投影的方式进行文本块分割,但这种方法有很大的局限性,要求分行清晰、不能有字符跨多行、不能倾斜,而且对噪声比较敏感。还是拿上一回的图片,但是我在上面加了一个比较大的字,得出的结果就有问题了:可以看到,由于右下角大大的“测”字跨了多行,导致水平投影分行时就出错了。本次换一种方法,基于连通性分析来做。简单讲,就是把图像做一定的膨胀操作,使得同一个字符的不同部分以及相邻字符相互重叠到一起,变成
推荐 原创 2015-08-20 10:22:30
10000+阅读
6点赞
19评论
自动文摘出现的重要原因之一是信息过载问题。自动文摘要解决的问题描述很简单,就是用一些精炼的话来概括整篇文章的大意。目前有二种流派,一种是extractive,抽取式的,从原文中找到一些关键的句子,组合成一篇摘要;另外一种是abstractive,摘要式的,这需要计算机可以读懂原文的内容,并且用自己的意思将其表达出来。人类语言包括字、词、短语、句子、段落、文档这几个level,研究难度依次递增,理解
sed可以替换给定文本中的字符串。sed 's/pattern/replace_string/' file将sed替换结果应用于原文件。sed -i 's/text/replace/' file使用sed需要替换掉所有内容,需要在尾部加上参数g.sed 's/pattern/replace_string/g' filesed 's/pattern/replace_string/3g' file移除
原创 2014-07-09 13:23:06
1005阅读
IBM SPSS Modeler Server支持对数据库供应商的数据挖掘工具和建模工具进行整合,其中包括IBM Netezza、IBM DB2 InfoSphere Warehouse、Oracle Data Miner和Microsoft Analysis Services。实现了在IBM SPSS Modeler的分析功能和易用性将与数据库的功能和性能相结合,同时还兼备数据库供应商提供的数据
欢迎关注博客主页:https://blog.csdn.net/u013411339欢迎点赞、收藏、留言 ,欢迎留言交流!本文由【王知无】原创,首发于 CSDN博客!本文首发CSDN
转载 2021-09-07 16:47:34
164阅读
1 大纲概述  文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列:  word2vec预训练词向量  textCNN 模型  charCNN 模型  Bi-LSTM 模型  Bi-LSTM + Attention 模型  RCNN 模型  Adversarial LSTM 模型  Transform
分词:将文本句子拆分成语义学上的词语。英语中是以单词之间的空格作为自然分隔符,而中文则比较复杂,中文的分词工具有结巴分词。得到分词结果后,中英文后续处理方法区别不大。
俗话说“庙小妖风大,水浅王八多”,作为一名自然语言处理的水货研究生,通常只是对论文有着一知半解的了解,然而因为毕竟人老了年纪大容易忘事,有时候还是想把这一知半解的想法用文字写出来,以便之后回顾,看官勿喷,水货要开始动笔了。 文本建模是自然语言处理领域中很基础的内容,而且也已经被研究了千万遍,这个系列我主要的思路是从LSA->pLSA->unigram model ->L
上一篇文章中,我详细讲解了 BertModel。 在今天这篇文章,我会使用 BertForSequenceClassification,在自己的训练集上训练情感分类模型。 数据集来源于 https://github.com/bojone/bert4keras/tree/master/examples ...
转载 2021-07-27 17:18:00
10000+阅读
1点赞
3评论
词嵌入要解决什么问题在自然语言系统中,词被看作最为基本的单元,如何将词进行向量化表示是一个很基本的问题,词嵌入(word embedding)就是把词映射为低维实数域向量的技术。下面先介绍几种词的离散表示技术,然后总结其缺点,最后介绍词的分布式表示及其代表技术(word2vec)。词的离散表示One-hot表示根据语料构造一个大小为V的词汇表,并为每一个词分配一个id。每个词都可以表示为一个V维向
  • 1
  • 2
  • 3
  • 4
  • 5