机器学习实战(8)：降维技术——主成分分析（PCA）

创业
2025-08-27 18:24:02

第8集：降维技术——主成分分析（PCA）

在机器学习中，降维（Dimensionality Reduction）是一种重要的数据处理技术，用于减少特征维度、去除噪声并提高模型效率。主成分分析（Principal Component Analysis, PCA）是最经典的线性降维方法之一，广泛应用于数据可视化、特征提取和图像压缩等领域。今天我们将深入探讨 PCA 的数学原理，并通过实践部分使用 MNIST 手写数字数据集进行降维与可视化。

维度灾难问题什么是维度灾难？

随着特征维度的增加，数据的稀疏性会急剧上升，导致模型训练变得更加困难。这种现象被称为维度灾难（Curse of Dimensionality）。高维数据不仅增加了计算复杂度，还可能导致过拟合。因此，降维技术成为解决这一问题的重要工具。

图1：维度灾难示意图（图片描述：三维空间中展示了低维数据点的分布较为密集，而高维空间中数据点变得稀疏，难以捕捉模式。）

PCA 的数学原理 PCA 的核心思想

PCA 的目标是通过线性变换将原始高维数据投影到一个低维子空间，同时尽可能保留数据的主要信息。具体步骤如下：

标准化数据：对每个特征进行零均值化和单位方差缩放。计算协方差矩阵：衡量特征之间的相关性。特征分解：求解协方差矩阵的特征值和特征向量。选择主成分：按特征值大小排序，选择前 $ k $ 个特征向量作为主成分。投影数据：将原始数据投影到主成分构成的低维空间。

公式如下： Covariance Matrix: Σ = 1 n X T X \text{Covariance Matrix: } \Sigma = \frac{1}{n} X^T X Covariance Matrix: Σ=n1XTX Eigen Decomposition: Σ v = λ v \text{Eigen Decomposition: } \Sigma v = \lambda v Eigen Decomposition: Σv=λv 其中：

$ \Sigma $ 是协方差矩阵。$ \lambda $ 是特征值，表示主成分的重要性。$ v $ 是特征向量，表示主成分的方向。

如何解释主成分

主成分是数据变化方向的线性组合，每个主成分解释了数据总方差的一部分。我们可以通过以下指标评估主成分的重要性：

特征值占比：每个主成分对应的特征值占总特征值的比例。累计贡献率：前 k 个主成分解释的总方差比例。

图2：主成分累计贡献率图（图片描述：折线图展示了前 $ k $ 个主成分的累计贡献率，随着主成分数量增加，累计贡献率逐渐接近 100%。）

PCA 在图像压缩中的应用

PCA 可以用于图像压缩，通过保留最重要的主成分来减少存储空间。例如，对于一张灰度图像，可以将其像素矩阵展平为一维向量，然后使用 PCA 提取主要特征，从而实现压缩。

实践部分：使用 PCA 对 MNIST 手写数字数据集进行降维并可视化数据集简介

MNIST 数据集包含 70,000 张 28x28 像素的手写数字图像（0-9）。每张图像被展平为 784 维向量。我们将使用 PCA 将数据降维到二维空间，并对其进行可视化。

完整代码 import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import fetch_openml from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler # 加载 MNIST 数据集 mnist = fetch_openml('mnist_784', version=1) X, y = mnist['data'], mnist['target'] # 数据标准化 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 使用 PCA 降维到二维 pca = PCA(n_components=2, random_state=42) X_pca = pca.fit_transform(X_scaled) # 可视化降维结果 plt.figure(figsize=(12, 8)) for i in range(10): # 遍历 0-9 数字类别 plt.scatter(X_pca[y.astype(int) == i, 0], X_pca[y.astype(int) == i, 1], label=f'Digit {i}', alpha=0.6) plt.title('MNIST Data Visualization using PCA', fontsize=16) plt.xlabel('Principal Component 1', fontsize=12) plt.ylabel('Principal Component 2', fontsize=12) plt.legend() plt.grid() plt.show() # 输出主成分的累计贡献率 explained_variance_ratio = pca.explained_variance_ratio_ print(f"主成分1解释的方差比例: {explained_variance_ratio[0]:.2f}") print(f"主成分2解释的方差比例: {explained_variance_ratio[1]:.2f}") print(f"累计贡献率: {sum(explained_variance_ratio):.2f}")

运行结果降维结果可视化

图3：PCA 降维后的 MNIST 数据分布（图片描述：二维散点图展示了不同数字类别的分布情况，每个类别用不同颜色表示，清晰地展示了数字之间的聚类效果。）

输出结果主成分1解释的方差比例: 0.06 主成分2解释的方差比例: 0.04 累计贡献率: 0.10

总结

本文介绍了 PCA 的数学原理及其在降维和图像压缩中的应用，并通过实践部分展示了如何使用 PCA 对 MNIST 数据集进行降维和可视化。希望这篇文章能帮助你更好地理解 PCA！

参考资料 Scikit-learn 文档: scikit-learn.org/stable/documentation.htmlMNIST 数据集: .openml.org/d/554*

标签：

机器学习实战(8)：降维技术——主成分分析（PCA）由讯客互联创业栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“机器学习实战(8)：降维技术——主成分分析（PCA）”

上一篇
【练习】【二分】力扣热题10035.搜索插入位置]

下一篇
【MasteringVim2_04】第三章：追随最佳实践：插