经典子空间学习——主成分分析(Principal Component Analysis,PCA)

原创

CMMKK 2024-07-15 15:53:30 ©著作权

文章标签 学习机器学习人工智能数据特征向量 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者CMMKK的原创作品，请联系作者获取转载授权，否则将追究法律责任

主成分分析（Principal Component Analysis, PCA）是一种常用的数据分析技术，主要用于数据降维和特征提取。

PCA通过线性变换将原始数据投影到新的坐标轴上，这些新的坐标轴（即主成分）是数据的线性组合，并且彼此正交（相互独立）。PCA的目标是找到数据的“主方向”，即数据分布的最大方差方向，从而保留数据的最多信息。

PCA是通过正交变换将存在相关性的变量转换为线性不相关变量，转换后的不相关变量称为主成分，目的是将存在密切相关性的变量间的重叠部分删去，建立尽可能少的新综合变量，且新变量能够尽可能多地保持原有的信息。

PCA的基本流程：

数据预处理：中心化数据（减去均值）。
计算协方差矩阵：衡量各特征之间的关系。
计算协方差矩阵的特征值和特征向量。
选择前k个最大特征值对应的特征向量，形成变换矩阵。
将原始数据乘以变换矩阵，得到降维后的数据。

PCA的数学公式：

假设我们有 m 个样本，每个样本有 n 个特征，数据矩阵记作 $经典子空间学习——主成分分析(Principal Component Analysis,PCA)_机器学习$ ，其中 $经典子空间学习——主成分分析(Principal Component Analysis,PCA)_人工智能_02$

1. 数据中心化

$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_机器学习_03$
其中， $经典子空间学习——主成分分析(Principal Component Analysis,PCA)_数据_04$ 是每列特征的平均值向量。

2. 协方差矩阵

$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_特征向量_05$

3. 特征值和特征向量

求解协方差矩阵 $经典子空间学习——主成分分析(Principal Component Analysis,PCA)_数据_06$ 的特征值 $经典子空间学习——主成分分析(Principal Component Analysis,PCA)_数据_07$ 和相应的特征向量 $经典子空间学习——主成分分析(Principal Component Analysis,PCA)_特征向量_08$ 。

4. 选择主成分

选择最大的k个特征值对应的特征向量，构成矩阵 $经典子空间学习——主成分分析(Principal Component Analysis,PCA)_数据_09$ 。

5. 数据投影

$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_人工智能_10$
其中， $经典子空间学习——主成分分析(Principal Component Analysis,PCA)_特征向量_11$ 是降维后的数据矩阵。

公式解释：

$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_人工智能_12$ ：原始数据矩阵。
$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_机器学习_13$ ：中心化后的数据矩阵。
$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_数据_14$ ：特征的平均值向量。
$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_特征向量_15$ ：协方差矩阵，用于衡量特征间的线性相关性。
$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_人工智能_16$ ：特征值，表示在对应特征向量方向上的数据方差。
$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_机器学习_17$ ：特征向量，表示数据的主要方向。
$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_数据_18$ ：由前k个特征向量组成的矩阵，用于数据投影。
$经典子空间学习——主成分分析(Principal Component Analysis,PCA)_学习_19$ ：降维后的数据矩阵。

PCA通过以上步骤，可以有效地降低数据的维度，同时尽可能地保留数据中的重要信息。

python代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import matplotlib
matplotlib.use('TkAgg')  # 或者尝试 'Agg'

# 加载Iris数据集
data = load_iris()
X = data.data
y = data.target

# 数据中心化
X_centered = X - np.mean(X, axis=0)

# 使用PCA降维至2维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_centered)

# 输出解释的方差比率
print("Explained variance ratio:", pca.explained_variance_ratio_)

# 可视化结果
plt.figure(figsize=(8, 6))
colors = ['navy', 'turquoise', 'darkorange']
target_names = data.target_names
lw = 2

for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X_pca[y == i, 0], X_pca[y == i, 1], color=color, alpha=.8, lw=lw,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('PCA of IRIS dataset')

plt.show()