1.Tang, Jian, et al. "Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis." ICML. 2014. This is the best paper of
原创 2022-07-15 21:25:06
12阅读
topic model 是一种应用十分广泛的产生式模型(generative model),在IR, NLP,ML都有
转载 2023-06-29 10:02:01
65阅读
1. del punctuation2. lower case3. del stopword4. len(s)>15. del infrequent word
00
原创 2023-06-29 10:04:40
11阅读
1.  difference between hidden variables and hyperparameter2. procudrestep 1: the complete-data likelihood, given hyperp observed data
sed
原创 2023-06-29 10:07:44
13阅读
Topic Model的分类和设计原则http://blog.csdn.net/xianlingmao/article/details/7065318topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。Topic Model (LDA)认为一...
topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic
转载 2023-06-29 10:02:09
33阅读
到2018年3月7日为止,本系列三篇文章已写完,可能后续有新的内容的话会继续更新。python下进行lda主题挖掘(一)——预处理(英文)python下进行lda主题挖掘(二)——利用gensim训练LDA模型python下进行lda主题挖掘(三)——计算困惑度perplexity本篇是我的LDA主题挖掘系列的第二篇,介绍如何利用gensim包提供的方法来训练自己处理好的语料。 gensim提供了
转载 5月前
15阅读
论文地址:https://www.aclweb.org/anthology/Q19-1011/ 已有研究工作: 之前的研究工作没有将文本分割和文档分类在整个文档级别上联合进行过;在数据集方面,缺少主题漂移情况的数据。 本文的工作和创新点: 1、提出了一个端到端的模型SECTOR,它可以将文档分割为连
转载 2020-04-20 23:56:00
185阅读
2评论
topic model中有parameter 和 hyper parameter, 首先我们不要consider hyper parameter,只对parameter与observation 进行model,即log-likelihood 是 ln p(x|theta) = sigma_ln p(x_i|theta) = sigma_ln sigma_i {p(x_i|z_i
原创 2023-06-29 10:03:28
22阅读
1.直观理解主题模型 听名字应该就知道他讲的是什么?假如有一篇文章text,通过里面的词,来确定他是什么类型的文章,如果文章中出现很多体育类的词,比如,篮球,足球之类的,那么主题模型就会把它划分为体育类的文章。因为主题模型涉及比较多的数学推导,所以我们先用一个小栗子,理解它要做的事。假设有这么一个场景:一个资深HR收到一份应聘算法工程师的简历,他想仅仅通过简历来看一下这个人是大牛,还是彩笔,他是怎
use the bayes ball methodhttp://www.cs.ubc.ca/~murphyk/Bayes/bnintro.htmlIn general, the conditional independence r by means of the “Bayes Ball”
转载 2023-06-29 10:06:14
7阅读
个人总结
原创 2023-06-29 10:09:21
22阅读
1. Today's university students are so fickle that, most of them have forgotten how to lead their lives. 2. Our lives are divided into two parts. One is those things you ought to do, an
原创 2012-09-16 11:48:32
382阅读
我就是在那种低水平上,不停地学习,不停地寻找变化,寻找突破,才达到后来的水平。                           &nb
原创 2012-10-04 16:20:56
560阅读
busy~~~just put my work office here to someone
原创 2021-08-16 10:51:43
176阅读
文档主题生成模型topic model指一种统计模型,用来从一批文档的集合中发现抽象的主题/论题。如果文本包含多个主题,这个技术能够用来识别和分离这些主题。我们这样做可以发掘给定的一系列文本的隐藏的主题结构。Topic Modeling 以一个最佳的方式帮助我们组织文档,这种方式能够被用来分析。值得注意的是,Topic modeling 算法不需要任何被标记的数据。这就像无监督学习一样,依靠自己本
转载 9月前
36阅读
前面我们了解完broker的配置,现在我们来看下topic的配置:1.cleanup.policy 字符串要么是“delete”,要么是“compact”,或者两者都是。此配置指定在旧日志段上使用的保留策略。默认策略(“delete”)将在达到保留时间或大小限制时丢弃旧段。“compact”设置将启用topic上的日志压缩。服务器提供的默认配置是log.cleanup.policy。2.compr
  我还记得第一次使用rocketmq的时候,需要去控制台预先创建topic,我当时就想为什么要这么设计,于是我决定撸一波源码,带大家从根源上吃透rocketmq topic的创建机制。topic在rocketmq的设计思想里,是作为同一个业务逻辑消息的组织形式,它仅仅是一个逻辑上的概念,而在一个topic下又包含若干个逻辑队列,即消息队列,消息内容实际是存放在队列中,而队列又存储在b
转载 4月前
211阅读
kafka1. kafkaKafka是一款开源的、轻量级的、分布式、可分区和具有复制备份的、基于ZooKeeper协调管理的分布式流平台的功能强大的消息系统。流平台特征:能够允许发布和订阅数据-消息队列提供相应的容错机制流数据能够及时被处理概念:topic(主题)、partition(分区)、replica(副本)、message(消息)、producer(生产者)、consumer(消费者)、c
purge all queues purge all topics
原创 2023-09-14 12:08:40
94阅读
  • 1
  • 2
  • 3
  • 4
  • 5