topic model 是一种应用十分广泛的产生式模型(generative model),在IR, NLP,ML都有
转载 2023-06-29 10:02:01
93阅读
1.Tang, Jian, et al. "Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis." ICML. 2014. This is the best paper of
原创 2022-07-15 21:25:06
19阅读
# Python 主题模型简介 在自然语言处理(NLP)领域,主题建模是一种无监督学习的技术,用于探索文档集合中潜在的主题。主题模型可以帮助我们发现大量文本数据的内在结构,广泛应用于信息检索、文本分类、情感分析等任务。本文将介绍如何使用Python进行主题建模,并通过代码示例进行演示。 ## 主题模型的基本原理 主题模型的核心思想是将文档表示为主题的组合,同时将主题表示为单词的组合。常见的主
原创 10月前
137阅读
1. del punctuation2. lower case3. del stopword4. len(s)>15. del infrequent word
00
原创 2023-06-29 10:04:40
13阅读
1 模块库使用说明1.1 requests库requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。1.2 urllib库urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响
1.  difference between hidden variables and hyperparameter2. procudrestep 1: the complete-data likelihood, given hyperp observed data
sed
原创 2023-06-29 10:07:44
21阅读
Topic Model的分类和设计原则http://blog.csdn.net/xianlingmao/article/details/7065318topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。Topic Model (LDA)认为一...
topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic
转载 2023-06-29 10:02:09
50阅读
论文地址:https://www.aclweb.org/anthology/Q19-1011/ 已有研究工作: 之前的研究工作没有将文本分割和文档分类在整个文档级别上联合进行过;在数据集方面,缺少主题漂移情况的数据。 本文的工作和创新点: 1、提出了一个端到端的模型SECTOR,它可以将文档分割为连
转载 2020-04-20 23:56:00
203阅读
2评论
topic model中有parameter 和 hyper parameter, 首先我们不要consider hyper parameter,只对parameter与observation 进行model,即log-likelihood 是 ln p(x|theta) = sigma_ln p(x_i|theta) = sigma_ln sigma_i {p(x_i|z_i
原创 2023-06-29 10:03:28
40阅读
1.直观理解主题模型 听名字应该就知道他讲的是什么?假如有一篇文章text,通过里面的词,来确定他是什么类型的文章,如果文章中出现很多体育类的词,比如,篮球,足球之类的,那么主题模型就会把它划分为体育类的文章。因为主题模型涉及比较多的数学推导,所以我们先用一个小栗子,理解它要做的事。假设有这么一个场景:一个资深HR收到一份应聘算法工程师的简历,他想仅仅通过简历来看一下这个人是大牛,还是彩笔,他是怎
use the bayes ball methodhttp://www.cs.ubc.ca/~murphyk/Bayes/bnintro.htmlIn general, the conditional independence r by means of the “Bayes Ball”
转载 2023-06-29 10:06:14
19阅读
个人总结
原创 2023-06-29 10:09:21
42阅读
文档主题生成模型topic model指一种统计模型,用来从一批文档的集合中发现抽象的主题/论题。如果文本包含多个主题,这个技术能够用来识别和分离这些主题。我们这样做可以发掘给定的一系列文本的隐藏的主题结构。Topic Modeling 以一个最佳的方式帮助我们组织文档,这种方式能够被用来分析。值得注意的是,Topic modeling 算法不需要任何被标记的数据。这就像无监督学习一样,依靠自己本
转载 2023-11-14 08:37:36
79阅读
1. Today's university students are so fickle that, most of them have forgotten how to lead their lives. 2. Our lives are divided into two parts. One is those things you ought to do, an
原创 2012-09-16 11:48:32
400阅读
我就是在那种低水平上,不停地学习,不停地寻找变化,寻找突破,才达到后来的水平。                           &nb
原创 2012-10-04 16:20:56
569阅读
busy~~~just put my work office here to someone
原创 2021-08-16 10:51:43
186阅读
kafka1. kafkaKafka是一款开源的、轻量级的、分布式、可分区和具有复制备份的、基于ZooKeeper协调管理的分布式流平台的功能强大的消息系统。流平台特征:能够允许发布和订阅数据-消息队列提供相应的容错机制流数据能够及时被处理概念:topic(主题)、partition(分区)、replica(副本)、message(消息)、producer(生产者)、consumer(消费者)、c
转载 2024-04-26 08:31:02
159阅读
purge all queues purge all topics
原创 2023-09-14 12:08:40
108阅读
Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用与大数据实时处理领域。1. 发布/订阅模式一对多,生产者将消息发布到 topic 中,有多个消费者订阅该主题,发布到 topic 的消息会被所有订阅者消费,被消费的数据不会立即从 topic 清除。2. 架构Kafka 存储的消息来自任意多被称为 Producer 生产者的进程。数据从而可以被发
转载 2024-05-16 07:14:35
109阅读
  • 1
  • 2
  • 3
  • 4
  • 5