1.主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,目标是基于方差提取最有价值的信息,属于无监督问题。但是降维后的数据因为经过多次矩阵的变化我们不知道降维后的数据意义,但是更加注重降维后的数据结果。2.向量的表示及基的变换(基:数据的衡
转载
2024-07-06 09:10:43
210阅读
1.目标: 将目标的()维表示特征的向量降为()维,。2.输入数据: ,其中为()维表示第个目标特征的向量,我们将每一个目标看作维空间中的一个点,那么为空间中第个点的坐标。3.输出数据: &
目录1. 降维简介2. 降维模型2.1 PCA2.2 LDA3. 总结与分析1. 降维简介降维就是将原始高维空间中的数据点映射到低维度的空间中去, 实现数据压缩、数据可视化、减少特征维度等。降维其实可以分为特征抽取和特征选择,特征抽取后的特征是原来特征的一个映射;特征选择后的特征是原来特征的一个子集。本文介绍特征抽取的两种方式:一种是无监督的主成分分析(Principle Components A
文章目录一、PCA降维1、降维究竟是怎样实现的2、二维特征矩阵降维的一般过程3、PCA降维与特征选择的不同二、 PCA与SVD1、重要参数n_components2、迷你案例:高维数据的可视化(鸢尾花)3、最大似然估计自选超参数4、按信息量占比选超参数5、分析计算过程(以啤酒消费为例子)6、SVM,SVR,SVC的区别7、特征值与奇异值分解8、案例:猩猩图片处理 一、PCA降维1、降维究竟是怎样
嵌入(Embedding)在机器学习和自然语言处理中是一种表示离散变量(如单词、句子或整个文档)的方式,通常是作为高维向量或者矩阵。嵌入的目标是捕捉到输入数据中的语义信息,使得语义相近的元素在嵌入空间中的距离也比较近。例如,在自然语言处理中,词嵌入是一种将单词或短语从词汇表映射到向量的技术。这些嵌入向量捕捉了词汇之间的语义和语法关系。例如,词嵌入可以捕捉到"king"和"queen","man"和
转载
2024-03-26 23:07:56
308阅读
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT模型是来自Transformers的双向编码器表示。Bert是从未标记的文本中在所有层共同训练左、右上下文,旨在预训练双向深层表示。因此,仅增加一个额外的输出层就而无需进行大量针对特定任务的体系结构修改可就以对经过预训练的BERT模
前几个章节我们将了机器学习的基础知识以及数据预处理和特征选择,本章节我们将讲述数据降维,在次之前,首先我们要明白为什么要进行数据降维操作?加快运算速度有利于防止过拟合(但防止过拟合最好的方法却是正则化)减少用来存储数据的空间2.3数据降维当特征选择完成之后,可以直接训练模型,但是可能由于矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也就必不可少了。数据降维可以保证原始数据信息量没有
转载
2024-04-23 08:40:52
63阅读
Isomap Embedding 等距特征映射是一种新颖,高效的非线性降维技术,它的一个突出优点是只有两个参数需要设定,即邻域参数和嵌入维
原创
2024-05-19 21:04:31
53阅读
Introduction
在计算机视觉及机器学习领域,数据的可视化是非常重要的一个应用,一般我们处理的数据都是成百上千维的,但是我们知道,目前我们可以感知的数据维度最多只有三维,超出三维的数据是没有办法直接显示出来的,所以需要做降维的处理,数据的降维,简单来说就是将高维度的数据映射到较低的维度,如果要能达到数据可视化的目的,就要将数据映射到二维或者三维空间。数据的降维是一种无监督的学习过程,我们可
转载
2017-01-18 09:22:00
183阅读
2评论
上一篇文章,我们介绍了SNE降维算法,SNE算法可以很好地保持数据的局部结构,该算法利用条件概率来衡量数据点之间的相似性,通过最小化条件概率 pj|i 与 pi|j 之间的 KL-divergence,将数据从高维空间映射到低维空间。
Symmetric SNE
SNE算法利用的是条件概率,我们也可以利用联合概率,衡量两个空间 与 的联合概率分布的 KL-divergence,假设
转载
2017-01-18 16:02:00
55阅读
2评论
单细胞RNA降维之UMAPUMAP首先,UMAP是一种非线性降维的算法,相对于t-SNE,UMAP算法更加快速 该方法的原理是利用流形学和投影技术,达到降维目的 首先计算高维空间中的点之间的距离,将它们投影到低维空间,并计算该低维空间中的点之间的距离。然后,它使用随机梯度下降来最小化这些距离之间的差异。比方说,图中两个黑点,若考虑直线距离,那么这两个黑点之间距离很相近 如果放到流形学上,那么这两个
转载
2023-10-11 22:56:28
423阅读
LLE局部线性嵌入,Locally Linear Embedding(LLE)是另一个功能强大的非线性降维(nonlinear dimensional reduction,NLDR)技术。它是一个流形学习技术,并不基于投影。简单地说,LLE工作的方式是:首先衡量每个训练实例与它最近的邻居们(closest neighbors,c.n.)的线性相关程度,然后在这些局部关系可以得到最好地保存的情况下,
转载
2024-03-19 10:28:42
50阅读
本周关于降维的学习主要分为五类:PCA、LDA、LLE、tSNE、ISOMAP 来进行学习 首先自己的任务是:tSNE的学习 (一)降维的基本知识点总结 1、降维方法分为线性和非线性降维,非线性降维又分为基于核函数和基于特征值的方法。 (1)线性降维:PCA、ICA、LDA、LFA、LPP (2)非线性降维方法:①基于核函数的方法:KPCA、KICA、KDA ②基于特征值的方法:IS
转载
2024-04-08 08:25:43
101阅读
前面写的PCA,LE,LDA,LLE都是以前就比较熟悉的东西,从这篇开始写的都是之前不熟悉的甚至都不知道名字的算法,然而都还很经典。疫情期间在家里看看原文,学习学习,既是算法总结又是读论文笔记。这篇来写LTSA局部切空间排列。本篇符号尽量与原文保持一致,与前面几篇有所不同。主要思路LTSA(Local Tangent Space Alignment)的基本思路是用样本点的近邻区域的切空间来表示局部
转载
2024-05-22 19:23:55
240阅读
特征降维方法包括:Lasso,PCA,小波分析,LDA(Linear Discriminant Analysis线性判别分析),LDA(Latent Dirichlet Allocation潜在狄利克雷分配),奇异值分解SVD,拉普拉斯特征映射,深度学习SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap,word2vec。1. LASSO通过参数缩减达到降维的目的。LAS
转载
2024-05-09 12:41:25
53阅读
目录例子LDA降维在前几篇的文章中,大管提到了PCA降维,有小伙伴私信说在实际情况中,效果不太好。那大管今天就和大家聊一聊另一种降维的方法线性判别分析 (LDA)。它目前也是机器学习领域中比较经典而且又热门的一种算法。 还记得在PCA中是怎样做的吗?简单来说,是将数据映射到方差比较大的方向上,最后用数学公式推导出矩阵的前TopN的特征向量,这里的方差可以理解为
转载
2024-02-21 16:20:43
85阅读
本文包括两部分,使用python实现PCA代码及使用sklearn库实现PCA降维,不涉及原理。总的来说,对n维的数据进行PCA降维达到k维就是:对原始数据减均值进行归一化处理;求协方差矩阵;求协方差矩阵的特征值和对应的特征向量;选取特征值最大的k个值对应的特征向量;经过预处理后的数据乘以选择的特征向量,获得降维结果。 实验数据数据data.txt使用[2]中编写的数据,以下是部分数据截
转载
2023-08-10 11:37:47
229阅读
作者: 郗晓琴 熊泽伟今天这篇文章是介绍目前前沿好用的一种降维可视化算法:t-SNE,并且附带python的实际例子加以讲解。t-SNE是什么技术我们直接开门见山好了,第一件事:什么是t-SNE?t-SNE的全称叫做t分布式随机邻居嵌入(t-SNE)。该算法是一种非监督的非线性技术,主要用于数据探索和可视化高维数据。简而言之,t-SNE为我们提供了数据
转载
2023-08-09 19:41:45
193阅读
网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码。这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA、LDA、MDS、LLE、TSNE 等,并附有相关资料、展示效果;非常适合机器学习初学者和刚刚入坑数据挖掘的小伙伴。所谓降维,即用一组个数为 d 的向量 Zi 来代表个数为 D 的向量 Xi 所包含的有用信息,其中 d<
转载
2023-08-15 17:18:52
128阅读
一、Tensor的降维——torch.squeeze()函数1.tensor的维度小编对于张量的理解一直很模糊,今天用Excel来帮助大家理解,希望对大家有所帮助。首先,张量是多维数组,这里不多赘述,可以去查阅相关资料。今天重点介绍的是张量的维度。张量有一维、二维、三维、四维等。一维:正如我们的Eecel表里的3个数字就组成一维数据。你也可以把它理解为一行数据,即由单个元素组成的一组数据。&nbs
转载
2023-08-25 07:24:24
255阅读