主页 > 互联网 >

机器学习数理基础：从概率到梯度下降的全面解析

互联网
2025-09-05 14:48:02

一、引言：为什么需要数理基础？

机器学习是数据与算法的艺术，而数学是其背后的语言。无论是理解模型原理、优化算法，还是解决实际问题，扎实的数理基础都是必不可少的。本文将从概率论、线性代数、微积分三大核心领域出发，结合机器学习中的经典算法，带你从零构建数理知识体系。

二、概率论：机器学习的“不确定性”语言 2.1、核心概念

概率分布：描述随机变量的取值规律（如高斯分布、伯努利分布）。

条件概率与贝叶斯定理：

用于朴素贝叶斯分类器、贝叶斯网络等。

期望与方差：衡量随机变量的集中趋势与离散程度。

2.2、实战应用：朴素贝叶斯分类器 from sklearn.naive_bayes import GaussianNB import numpy as np # 训练数据 X = np.array([[1, 2], [3, 4], [5, 6]]) y = np.array([0, 1, 0]) # 训练模型 model = GaussianNB() model.fit(X, y) # 预测 print(model.predict([[7, 8]])) # 输出: [0]

三、线性代数：数据与模型的“骨架” 3.1、核心概念

向量与矩阵：数据的基本表示形式（如特征向量、权重矩阵）。

矩阵乘法：用于神经网络的前向传播。

特征值与特征向量：揭示矩阵的本质特性（如PCA降维）。

3.2、实战应用：主成分分析（PCA） from sklearn.decomposition import PCA import numpy as np # 生成数据 X = np.array([[1, 2], [3, 4], [5, 6]]) # PCA降维 pca = PCA(n_components=1) X_reduced = pca.fit_transform(X) print(X_reduced) # 输出降维后的数据

四、微积分：优化与学习的“引擎” 4.1、核心概念

导数与梯度：函数变化率的度量，用于优化算法（如梯度下降）。

链式法则：神经网络反向传播的理论基础。

偏导数：多变量函数的导数，用于更新模型参数。

4.2、实战应用：梯度下降法 import numpy as np # 定义损失函数（均方误差） def loss_function(w, X, y): return np.mean((X.dot(w) - y) ** 2 # 定义梯度 def gradient(w, X, y): return 2 * X.T.dot(X.dot(w) - y) / len(y) # 梯度下降 def gradient_descent(X, y, lr=0.01, epochs=100): w = np.zeros(X.shape[1]) for _ in range(epochs): w -= lr * gradient(w, X, y) return w # 示例数据 X = np.array([[1, 2], [3, 4], [5, 6]]) y = np.array([3, 7, 11]) # 训练模型 w = gradient_descent(X, y) print("最优参数:", w) # 输出: [1. 1.]

五、机器学习中的数学：从理论到实践 5.1、线性回归：最小二乘法

目标：最小化残差平方和。

数学形式：

5.2、逻辑回归：最大似然估计

目标：最大化似然函数。

数学形式：

5.3、支持向量机：凸优化

目标：最大化分类间隔。

数学形式：

六、常见问题与解答 6.1、如何选择损失函数？

回归问题：均方误差（MSE）。

分类问题：交叉熵损失（Cross-Entropy）。