Python 做高维外积高维数据python

转载

编程小天才 2024-07-06 11:55:22

文章标签 Python 做高维外积 python高维数据的读取取值相似度视频教程 文章分类 Python 后端开发

1 什么是TSNE？TSNE是由T和SNE组成，T分布和随机近邻嵌入(Stochastic neighbor Embedding).

TSNE是一种可视化工具，将高位数据降到2-3维，然后画成图。

t-SNE是目前效果最好的数据降维和可视化方法

t-SNE的缺点是：占用内存大，运行时间长。

2 入门的原理介绍

举一个例子，这是一个将二维数据降成一维的任务。我们要怎么实现？

首先，我们想到的最简单的方法就是舍弃一个维度的特征，将所有点映射到x轴上：

很明显，结果来看，蓝色和黄色的点交叠在一起，可是他们在二维上明明不属于一类

TSNE就是计算某一个点到其他所有点的距离，然后映射到t分布上，效果就会好一些。

3 进阶的原理介绍

t-SNE的降维关键：把高纬度的数据点之间的距离转化为高斯分布概率。

高纬度相似度用高斯，低纬度用t分布，然后设置一个惩罚函数，就实现了x降低维度但是保留一定局部特征的方法。

3.1 高维距离表示

两个点在高维空间距离越近，那么这个概率值越大。

我们来看下面公式，两个公式的内容一致，只是写法不同。

这个形式的公式，只是明显的展示这是高斯分布概率

3.2 低维相似度表示

在低纬度中，我们使用t分布来表示相似性。这里不探究为什么使用t分布而不是其他分布，具体内容可以看论文

3.3 惩罚函数

现在我们有方法衡量高纬度和低纬度的点的相似性，我们如何保证高纬度相似度高的点在低纬度相似度也高？

t-SNE使用的是KL散度(Kullback-Leibler divergence)

3.4 为什么是局部相似性

为什么选择高斯和t分布

降维必然带来信息损失，TSNE保留局部信息必然牺牲全局信息，而因为t分布比高斯分布更加长尾，可以一定程度减少这种损失。

2 python实现

函数参数表：

parameters：描述n_components：嵌入空间的维度

perpexity混乱度，表示t-SNE优化过程中考虑邻近点的多少，默认为30，建议取值在5到50之间

early_exaggeration表示嵌入空间簇间距的大小，默认为12，该值越大，可视化后的簇间距越大

learning_rate学习率，表示梯度下降的快慢，默认为200，建议取值在10到1000之间

n_iter迭代次数，默认为1000，自定义设置时应保证大于250

min_grad_norm如果梯度小于该值，则停止优化。默认为1e-7

metric表示向量间距离度量的方式，默认是欧氏距离。如果是precomputed，则输入X是计算好的距离矩阵。也可以是自定义的距离度量函数。

init初始化，默认为random。取值为random为随机初始化，取值为pca为利用PCA进行初始化(常用)，取值为numpy数组时必须shape=(n_samples, n_components)

verbose是否打印优化信息，取值0或1，默认为0=>不打印信息。打印的信息为：近邻点数量、耗时、σ、KL散度、误差等

random_state随机数种子，整数或RandomState对象

method两种优化方法：barnets_hut和exact。第一种耗时O(NlogN)，第二种耗时O(N^2)但是误差小，同时第二种方法不能用于百万级样本

angle当method=barnets_hut时，该参数有用，用于均衡效率与误差，默认值为0.5，该值越大，效率越高&误差越大，否则反之。当该值在0.2-0.8之间时，无变化。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import manifold,datasets
'''X是特征，不包含target;X_tsne是已经降维之后的特征'''
tsne = manifold.TSNE(n_components=2, init='pca', random_state=501)
X_tsne = tsne.fit_transform(X)
print("Org data dimension is {}.
Embedded data dimension is {}".format(X.shape[-1], X_tsne.shape[-1]))
'''嵌入空间可视化'''
x_min, x_max = X_tsne.min(0), X_tsne.max(0)
X_norm = (X_tsne - x_min) / (x_max - x_min) # 归一化
plt.figure(figsize=(8, 8))
for i in range(X_norm.shape[0]):
plt.text(X_norm[i, 0], X_norm[i, 1], str(y[i]), color=plt.cm.Set1(y[i]),
fontdict={'weight': 'bold', 'size': 9})
plt.xticks([])
plt.yticks([])
plt.show()

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。