聚类分析什么是聚类分析? (Clustering) 就是将数据对象分组成为多个或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。其实是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是。人们总是不断地改进下
目录前言       正文  01-聚类分析简介   02-绘制基于层次的树状图   03-基于特征集聚方法合并相似特征   04-均值移位算法实例分析   05-k-均值算法假设的证明   总结    &n
众所周知,个性化推荐系统能够根据用户的兴趣、偏好等信息向用户推荐相关内容,使得用户更感兴趣,从而提升用户体验,提高用户粘度,之前我们曾经使用协同过滤算法构建过个性化推荐系统,但基于显式反馈的算法就会有一定的局限性,本次我们使用无监督的Lda文本方式来构建文本的个性化推荐系统。推荐算法:协同过滤/Lda我们知道,协同过滤算法是一种基于用户的历史行为来推荐物品的算法。协同过滤算法利用用户之间的
转载 2024-05-24 11:29:17
50阅读
这是我的这一篇文章 ,主要是本人做笔记用的,希望日后能有所帮助这个阶段主要学习方向的知识,以下是近期的总结 ,也是算法的总结,具体算法并未详细介绍,只是一个大纲,若有错误,请多指教众所周知,机器学习包括监督学习和非监督学习,而是无监督学习的主要内容,那究竟是什么呢?的目标是在一个对象(模式,数据点)的集合中发现其自然的分组,但如何形式化的描述问题确实相当困难的,一个比较常用
转载 8月前
11阅读
spark1.4版本的LDA原文比较简单,下面主要是以翻译官网为主。理论部分 LDA是一个主题模型,它能够推理出一个文本文档集合的主题LDA可以认为是一个算法,原因如下:主题对应中心,文档对应数据集中的样本(数据行) 主题和文档都在一个特征空间中,其特征向量是词频向量 跟使用传统的距离来评估不一样的是,LDA使用评估方式是一个函数,该函数基于文档如何生成的统计模型。 LDA
转载 2024-10-26 19:37:31
33阅读
分布式计算题目解析填空题1、名字按结构可分为()和()(绝对名字)和(相对名字)绝对名字:这是完全确定的路径名字,也就是从根目录开始的完整路径。例如在文件系统中,“/usr/local/bin” 就是一个绝对名字,它明确指向系统上的一个特定位置。无论你当前在哪个位置,使用同一个绝对名字都可以找到相同的位置或者资源。相对名字:这是相对于某个参考点(通常是当前路径)的路径名字。例如,当你在"/usr/
Mahout LDA 一、LDA简介  (一)主题模型在主题模型中,主题表示一个概念、一个方面,表现为一系列相关的单词,是这些单词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。 怎样才能生成主题?对文章的主题应该怎么分析?这是主题模型要解决的问题。 首先,可以用生成模型来看文档和主题这两件事。所谓生成模型,就是
文章目录一、基于文本特征的方法1.K-Means算法2.均值漂移算法3.层次4.谱算法5.DBSCAN密度算法sklearn代码二、潜在语义分析三、深度学习 的应用场景没有分类广泛,而由于无监督其算法效果也不足已运用到生产环境中去,不过其仍然是机器学习中的一个重要组成部分。文本常见的应用场景就是文档标签生成,热点新闻发现等等,另外,在处理文本特征时,也可以使用形成特
话题模型topic model是自然语言处理领域里面热门的一个技术,可以用来做很多的事情,例如相似度比较,关键词提取,分类,还有就是具体产品业务上的事了,总之可以干很多的事情。今天不会讲LDA模型的很多细节和原理,没有满屏的数学公式,只讲一讲LDA模型是个什么东西,简单的原理,用什么技术实现的LDA,以及LDA能做什么开发和LDA在实现中的一些问题。什么是主题对于一篇新闻报道,看到里面讲了昨天NB
项目原理概述 利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式 为<IntegerWritable, VectorWritable>的matrix矩阵,key为待文本的数字编号,value为待文本的单词向量V
转载 2024-03-17 14:53:45
98阅读
1 #-*- coding:utf-8 -*- 2 importlogging3 importlogging.config4 importConfigParser5 importnumpy as np6 importrandom7 importcodecs8 importos9 10 from collections importOrderedDict11 #获取当前路径 12 path =os.
继上两篇文章介绍中基于划分思想的k-means算法和k-mediod算法本文将继续介绍另外一种基于划分思想的k-mediod算法-----clara算法clara算法可以说是对k-mediod算法的一种改进,就如同k-mediod算法对k-means算法的改进一样.clara(clustering large application)算法是应用于大规模数据的.而其核心算法还是利用k-med
(1)词向量模型(vector space model),它将文档中的词项映射到$n$维线性空间。(2) 词项频率-逆文档频率(term frequncy-inverse document frequency)模型,简称TF-IDF。这种模型的本质是:文档中出现频繁(TF),但在整个文档集中出现相对不频繁(IDF)的词要比在大量文档中普遍存在的词更重要。它用来得到词项的权重,并由此构成词向量。(3
源代码下载:TDIDF_Demo.rar         声明:本文代码思路完全来自蛙蛙池塘的博客,只为技术交流用途,无其他目的      昨天有幸拜读了蛙蛙池塘的《蛙蛙推荐:蛙蛙教你文本》这篇文章,受益匪浅,于是今天就动手尝试照着他的C#代码,用C++和STL标准
(一)简介1.主题模型是对文本中隐含主题的一种建模方法;每个主题其实是词表上单词的概率分布;2.主题模型是一种生成模型,一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的;  3.常见的主题模型有3种:(1)PLSA(Probabilistic Latent Semantic Analysis)(2)LDA(Latent
CLARANS (A Clustering Algorithm based on Randomized Search,基于随机选择的算法) 将采样技术(CLARA)和PAM结合起来。CLARA的主要思想是:不考虑整个数据集合,而是选择实际数据的一小部分作为数据的代表。然后用PAM方法从样本中选择中心点。如果样本是以非常随机的方式选取的,那么它应当接近代表原来的数据集。从中选出代表对象(中心点)
转载 2024-03-15 08:17:05
87阅读
前言:本文用到的方法叫做主题建模(topic model)或主题抽取(topic extraction),在机器学习的分类中,它属于非监督学习(unsupervised machine learning)。它是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词。 主题模型定义(维基百科):在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。主题
转载 2024-02-22 15:41:03
146阅读
Spark上实现LDA原理LDA主题模型算法Spark实现LDA的GraphX基础在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于GraphX上构建的第一个MLlib算法,GraphX是实现它最自然的方式。有许多算法可以训练一个LDA模型。我们选择EM算法,因为它简单并且快速收敛。因为用EM训练LDA有一个潜在的图结构,在GraphX之上构
转载 2024-04-07 14:21:47
66阅读
最近在搞文本主题相关的东西,所以花了很多时间研究LDA主题模型。个人感觉这个模型应用广泛,但是数学原理相对复杂,涉及到的数学公式比较多。下面总结一下。传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。相对于文本相似,文本相似主要是根据字符串的匹配程度进行判断的,
LDA 主题模型LDA的应用方向信息提取和搜索文档分类/、文章摘要、社区挖掘基于内容的图像、目标识别生物信息数据的应用基础函数LDA基本函数LDA涉及的问题共轭先验分布Dirichlet分布LDA模型:Gibbs采样算法学习参数共轭先验分布在贝叶斯概率理论中,如果后验概率p(θ|x)和后验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时先验分布叫做似然函数的共轭先
转载 2024-05-07 23:34:07
32阅读
  • 1
  • 2
  • 3
  • 4
  • 5