参考:菜菜的sklearn教学之降维算法.pdf!!PCA(主成分分析法)1. PCA(最大化方差定义或者最小化投影误差定义)是一种无监督算法,也就是我们不需要标签也能对数据做降维,这就使得其应用范围更加广泛了。那么PCA的核心思想是什么呢?例如D维变量构成的数据集,PCA的目标是将数据投影到维度为K的子空间中,要求K<D且最大化投影数据的方差。这里的K值既可以指定,也可以利用主成分的信息来            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-09 21:09:36
                            
                                45阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # Python指定属性的降维
## 1. 整体流程:
| 步骤 | 描述 |
| ------ | ------ |
| 1 | 导入必要的库 |
| 2 | 加载数据 |
| 3 | 选择需要降维的属性 |
| 4 | 进行降维操作 |
| 5 | 可视化降维结果 |
## 2. 详细步骤及代码:
### 步骤一:导入必要的库
```python
import numpy as np            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-04-30 07:25:02
                            
                                23阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文包括两部分,使用python实现PCA代码及使用sklearn库实现PCA降维,不涉及原理。总的来说,对n维的数据进行PCA降维达到k维就是:对原始数据减均值进行归一化处理;求协方差矩阵;求协方差矩阵的特征值和对应的特征向量;选取特征值最大的k个值对应的特征向量;经过预处理后的数据乘以选择的特征向量,获得降维结果。 实验数据数据data.txt使用[2]中编写的数据,以下是部分数据截            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-10 11:37:47
                            
                                229阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            sklearn中的降维算法1. PCA与SVD sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块。在过去的十年中,如果要讨论算法进步的先锋,矩阵分解可以说是独树一帜。矩阵分解可以用在降维,深度学习,聚类分析,数据预处理,低纬度特征学习,推荐系统,大数据分析等领域。在2006年,Netflix曾经举办了一个奖金为100万美元的推荐系统算            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-08 14:23:47
                            
                                59阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数据降维:定义:特征的数量减少特征选择:原因:1、冗余部分特征相关性高,容易消耗计算机性能2、噪声:部分特征对预测结果有负影响工具:1、Filter(过滤式):VarianceThreshold   (sklearn.feature_selection.VarianceThreshold)2、Embedded(嵌入式):正则化、决策树3、Wrapper(包裹式)方差大小来考虑P            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-31 15:36:19
                            
                                102阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1. 纬度  纬度是数据集中特征的数量。2. 降维  降维是对给定数据集进行(特征)降维的过程。也就是说,如果数据集有100列/特性,并将列数减少到了20-25列。2.1 降维的好处  随着特征数量的增加,数据点的数量也会成比例地增加。即越多的特征会带来更多的数据样本,模型的性能会提升。当数据纬度过大时,会造成“纬度灾难”,导致模型的性能降低。因此应当对数据进行降维处理,使模型性能达到最优。它有助            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-02 11:17:27
                            
                                102阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            数据降维概述1.数据降维概述所谓的数据降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中,可以解决大规模特征下的数据显示问题,使得数据集更易使用,降低后续算法的计算,消除噪声影响并使得结果更易理解。 数据降维的方法有很多,可从线性或非线性角度对其简单分类。 线性降维是指通过降维所得到的低维数据能保持高维数据点之间的线性关系,主要包括主成分分析(Principal Compone            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-23 10:22:44
                            
                                38阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Python中T-SNE实现降维 from sklearn.manifold import TSNE
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
iris = load_iris()
X_tsne = TSNE(            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-30 19:50:27
                            
                                103阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码。这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA、LDA、MDS、LLE、TSNE 等,并附有相关资料、展示效果;非常适合机器学习初学者和刚刚入坑数据挖掘的小伙伴。所谓降维,即用一组个数为 d 的向量 Zi 来代表个数为 D 的向量 Xi 所包含的有用信息,其中 d<            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-15 17:18:52
                            
                                128阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             作者:  郗晓琴  熊泽伟今天这篇文章是介绍目前前沿好用的一种降维可视化算法:t-SNE,并且附带python的实际例子加以讲解。t-SNE是什么技术我们直接开门见山好了,第一件事:什么是t-SNE?t-SNE的全称叫做t分布式随机邻居嵌入(t-SNE)。该算法是一种非监督的非线性技术,主要用于数据探索和可视化高维数据。简而言之,t-SNE为我们提供了数据            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-09 19:41:45
                            
                                198阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1 基于特征选择的降维特征选择是在数据建模过程最常用的特征降维手段,简单粗暴,即映射函数直接将不重要的特征删除,不过这样会造成特征信息的丢失,不利于模型的精度。由于数据的Fenix以抓住主要影响因素为主,变量越少越有利于分析,因此特征选择常用于统计分析模型中。1.1特征选择的方法过滤法(Filter):按照发散性或者相关性对各个特征进行评分,通过设定阈值或者待选择阈值的个数来选择特征。包装法(Wr            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-13 23:27:06
                            
                                86阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            降维算法简介很多算法可以回归也可以分类降维算法PCA降维(主成分分析)LDA降维(线性判别分析)MDS降维(多维标度法)流形学习Isomap 简介很多算法可以回归也可以分类把连续值变为离散值:1.回归模型可以做分类:可以依据阀值(二元分类或多元分类)来分类2.逻辑回归二元分类,一个阀值。3.连续值进行分箱,实现多元分类4.把离散值变为连续值:插值法(1~2,在离散值之间插入足够密集的值)降维算法            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-19 07:01:06
                            
                                165阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            注: 在《SVD(异值分解)小结 》中分享了SVD原理,但其中只是利用了numpy.linalg.svd函数应用了它,并没有提到如何自己编写代码实现它,在这里,我再分享一下如何自已写一个SVD函数。但是这里会利用到SVD的原理,如何大家还不明白它的原理,可以去看看《SVD(异值分解)小结 》,或者自行百度/google。1、SVD算法实现1.1 SVD原理简单回顾有一个\(m \times n\)            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-03 16:23:55
                            
                                131阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            主成分分析(Principal Component Analysis)Step 1:去相关(Decorrelation)Step 2: 降维(Reduce Dimension)数据是文本时Step 1:去相关(Decorrelation)        旋转数据样本,使它们与坐标轴对齐,并且样本均值变为0。##########################            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-21 21:04:08
                            
                                216阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            使用sklearn库初次尝试PCA和T-SNE,原理还不太理解,写错了请一定指出,或者等我自己发现hhhh1. PCA首先读入sklearn里自带的鸢尾花数据库,并调用相关的包,再查看一下这些数据都是些啥:import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets impor            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-15 13:40:53
                            
                                148阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            深度学习巨头之一的Hinton大神在数据降维领域有一篇经典论文Visualizing Data using t-SNE。该方法是流形(非线性)数据降维的经典,从发表至今鲜有新的降维方法能全面超越。该方法相比PCA等线性方法能有效将数据投影到低维空间并保持严格的分割界面;缺点是计算复杂度大,一般推荐先线性降维然后再用tSNE降维。python sklearn有相应的实现。我现在用Tensorflow            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-13 16:50:35
                            
                                41阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            写在前面:看完这篇文章,你会知道:    ①为什么要用PCA?②PCA的原理?③slearn中的PCA如何使用?资料来源于互联网及课堂讲义;欢迎讨论和补充~1 背景1.1 维数灾难在做数据挖掘的时候,经常会遇到数据体量过大的情况,这种大体量往往会在两方面:样本量过大(表现为行多);样本特征过多(表现为列多);从而在处理的时候会占用很多时间和空间,耗费大量的成本。维数灾难(Course            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-27 11:37:46
                            
                                52阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            为什么要对数据进行降维?实际应用中的数据一般是高维的,比如手写的数字,如果我们缩放到28×28的图片大小,那么它的维度就是28×28=784维。举个简单的例子:下图是手写的1及其对应的图像二维矩阵,数据已经被规范化到[0,1]范围内。 降维的目的有很多,个人觉得最主要的目的有二:1.为了对数据进行可视化,以便对数据进行观察和探索。2.另外一个目的是简化机器学习模型的训练和预测。我们很难对高维数据具            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-04 23:06:49
                            
                                141阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Python-深度学习-学习笔记(17):利用t-SNE对数据实现降维聚类一、引言由于现有的算法还不够智能,所以必须依靠人类的智慧介入分析。所以,需要通过可视化技术把高维空间中的数据以二维或三维的形式展现出来便于我们观看,展示的效果如何也就直接决定着我们分析的难度。二、降维降维的目的其实是将高维度下的特征能够通过某种方式降到低维度下,并且保留不同类的特征所体现出的不同规律,或者可以说是用低维度特征            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-04 14:27:14
                            
                                177阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            主成分分析(PCA)降维PCA 是一种基于从高维空间映射到低维空间的映射方法,也是最基础的无监督降维算法,其目标是向数据变化最大的方向投影,或者说向重构误差最小化的方向投影。它由 Karl Pearson 在 1901 年提出,属于线性降维方法。与 PCA 相关的原理通常被称为最大方差理论或最小误差理论。这两者目标一致,但过程侧重点则不同。 
  最大方差理论降维原理 
 将一组 N 维向量降为            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-11 12:13:44
                            
                                106阅读
                            
                                                                             
                 
                
                                
                    