特征构建是一种升操作,针对特征解释能力不足,可以通过特征构建的方法来增加特征解释力,从而提升模型效果。随着近几年大数据技术的普及,我们可以获取海量数据,但是这些海量数据带给我们更多信息的同时,也带来了更多的噪音和异常数据。如何去噪成为很多企业关注的焦点。什么是特征选择特征选择( Feature Selection )也称特征子集选择( FeatureSubset Selection , FS
使用sklearn库初次尝试PCA和T-SNE,原理还不太理解,写错了请一定指出,或者等我自己发现hhhh1. PCA首先读入sklearn里自带的鸢尾花数据库,并调用相关的包,再查看一下这些数据都是些啥:import matplotlib.pyplot as plt from sklearn.decomposition import PCA from sklearn.datasets impor
深度学习巨头之一的Hinton大神在数据领域有一篇经典论文Visualizing Data using t-SNE。该方法是流形(非线性)数据的经典,从发表至今鲜有新的方法能全面超越。该方法相比PCA等线性方法能有效将数据投影到低维空间并保持严格的分割界面;缺点是计算复杂度大,一般推荐先线性然后再用tSNE。python sklearn有相应的实现。我现在用Tensorflow
基本概念:数据变换的目的不仅仅是,还可以消除特征之间的相关性,并发现一些潜在的特征变量。PCA的目的:投影到一个小一点的子空间里去,并尽可能表达的很好(就是说损失信息最少)。常见的应用在于模式识别中,我们可以通过减少特征空间的维度,抽取子空间的数据来最好的表达我们的数据,从而减少参数估计的误差。注意,主成分分析通常会得到协方差矩阵和相关矩阵。这些矩阵可以通过原始数据计算出来。协方差矩阵包含平方
转载 2024-05-12 20:18:54
62阅读
# Lasso回归及其在R语言中的应用 ## 引言 Lasso回归是一种常用的线性回归方法,用于选择具有稀疏性的特征。它在特征选择方面比传统的岭回归具有更强的优势。本文将介绍Lasso回归的原理和在R语言中的应用。 ## Lasso回归原理 Lasso回归的目标是最小化以下损失函数: $$ \text{min}_{\beta} \left\{ \frac{1}{2n} \sum_{i=1}^{
原创 2023-12-26 05:51:54
123阅读
00.Machine Learning机器学习就是让机器找函式的能力。  01.Different types of Functions机器学习三大任务:regression:我们找的函式输出的是数值。classification:让机器做选择题,如侦测垃圾邮件structured learning:让机器学会创造,产生有结构的东西02.Case  Study (预测
  目录1 导入库2 数据准备3 模型构建4 模型评价5 模型预测 1 导入库import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline from sklearn.model_selection import train_test_split from sklearn.
# 如何实现lasso特征R语言教程 ## 概述 在本教程中,我们将介绍如何使用R语言实现lasso(Least Absolute Shrinkage and Selection Operator)特征。首先,我们将通过展示整个流程的步骤表格来帮助你理解。然后,我们将逐步解释每一步的具体操作和相应的代码。 ## 流程步骤表格 | 步骤 | 操作 | | ------ | ------
原创 2024-06-02 03:57:06
185阅读
目录前言Regression举例Classification举例总结 前言由于之前对于Regression(回归)和Classification(分类)认识并不准确,混淆了很长时间,那么现在就稍微总结一下。Regression回归,类比于数学中的回归直线,它在神经网络中作为输出往往是通过前者的运算而得出一个确定的值/向量。这个值/向量依赖于输入数据的整体分布,最终给出一个或因周期,或因总体趋势,
转载 2024-04-01 10:40:34
29阅读
PCA(Principal Component Analysis) 一、指导思想是实现数据优化的手段,主成分分析(PCA)是实现的手段;是在训练算法模型前对数据集进行处理,会丢失信息。后,如果丢失了过多的信息,在我们不能容忍的范围里,就不应该没有正确与否的标准,只有丢失信息的多少;的方式本质是有无穷多种的。我们期望在其中找到“最好”,或者说“丢失信息”最少的
1.主成分分析(Principal components analysis,以下简称PCA)是最重要的方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到最容易想到的算法就是PCA,目标是基于方差提取最有价值的信息,属于无监督问题。但是后的数据因为经过多次矩阵的变化我们不知道后的数据意义,但是更加注重后的数据结果。2.向量的表示及基的变换(基:数据的衡
1、岭回归(Ridge Regression)标准线性回归(简单线性回归)中:如果想用这个式子得到回归系数,就要保证(X^TX)是一个可逆矩阵。下面的情景:如果特征的数据比样本点还要多,数据特征n,样本个数m,如果n>m,则计算(XTX)−1会出错。因为(X^TX)不是满秩矩阵(行数小于列数),所有不可逆。为了解决这个问题,统计学家引入了岭回归的概
原创 2022-05-09 21:57:11
4308阅读
​glmnet是由斯坦福大学的统计学家们开发的一款R包,用于在传统的广义线性回归模型的基础上添加正则项,以有效解决过拟合的问题,支持线性回归,逻辑回归,泊松回归,cox回归等多种回归模型,链接如下​​https://cran.r-project.org/web/packages/glmnet/index.html​​对于正则化,提供了以下3种正则化的方式ridge regression,岭回归la
原创 2022-06-21 10:34:17
736阅读
特征方法包括:Lasso,PCA,小波分析,LDA(Linear Discriminant Analysis线性判别分析),LDA(Latent Dirichlet Allocation潜在狄利克雷分配),奇异值分解SVD,拉普拉斯特征映射,深度学习SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap,word2vec。1. LASSO通过参数缩减达到的目的。LAS
转载 2024-05-09 12:41:25
53阅读
前面写的PCA,LE,LDA,LLE都是以前就比较熟悉的东西,从这篇开始写的都是之前不熟悉的甚至都不知道名字的算法,然而都还很经典。疫情期间在家里看看原文,学习学习,既是算法总结又是读论文笔记。这篇来写LTSA局部切空间排列。本篇符号尽量与原文保持一致,与前面几篇有所不同。主要思路LTSA(Local Tangent Space Alignment)的基本思路是用样本点的近邻区域的切空间来表示局部
转载 2024-05-22 19:23:55
243阅读
本文包括两部分,使用python实现PCA代码及使用sklearn库实现PCA,不涉及原理。总的来说,对n的数据进行PCA维达到k就是:对原始数据减均值进行归一化处理;求协方差矩阵;求协方差矩阵的特征值和对应的特征向量;选取特征值最大的k个值对应的特征向量;经过预处理后的数据乘以选择的特征向量,获得结果。 实验数据数据data.txt使用[2]中编写的数据,以下是部分数据截
转载 2023-08-10 11:37:47
232阅读
目录例子LDA在前几篇的文章中,大管提到了PCA,有小伙伴私信说在实际情况中,效果不太好。那大管今天就和大家聊一聊另一种的方法线性判别分析 (LDA)。它目前也是机器学习领域中比较经典而且又热门的一种算法。     还记得在PCA中是怎样做的吗?简单来说,是将数据映射到方差比较大的方向上,最后用数学公式推导出矩阵的前TopN的特征向量,这里的方差可以理解为
转载 2024-02-21 16:20:43
85阅读
本周关于的学习主要分为五类:PCA、LDA、LLE、tSNE、ISOMAP 来进行学习 首先自己的任务是:tSNE的学习 (一)的基本知识点总结 1、方法分为线性和非线性,非线性又分为基于核函数和基于特征值的方法。 (1)线性:PCA、ICA、LDA、LFA、LPP (2)非线性方法:①基于核函数的方法:KPCA、KICA、KDA ②基于特征值的方法:IS
转载 2024-04-08 08:25:43
101阅读
单细胞RNA之UMAPUMAP首先,UMAP是一种非线性的算法,相对于t-SNE,UMAP算法更加快速 该方法的原理是利用流形学和投影技术,达到目的 首先计算高维空间中的点之间的距离,将它们投影到低维空间,并计算该低维空间中的点之间的距离。然后,它使用随机梯度下降来最小化这些距离之间的差异。比方说,图中两个黑点,若考虑直线距离,那么这两个黑点之间距离很相近 如果放到流形学上,那么这两个
LLE局部线性嵌入,Locally Linear Embedding(LLE)是另一个功能强大的非线性(nonlinear dimensional reduction,NLDR)技术。它是一个流形学习技术,并不基于投影。简单地说,LLE工作的方式是:首先衡量每个训练实例与它最近的邻居们(closest neighbors,c.n.)的线性相关程度,然后在这些局部关系可以得到最好地保存的情况下,
转载 2024-03-19 10:28:42
50阅读
  • 1
  • 2
  • 3
  • 4
  • 5