主页 > 其他 >

跟着李沐老师学习深度学习（八）

其他
2025-09-10 01:03:01

数值稳定性 + 模型初始化和激活函数数值稳定性神经网络的梯度考虑如下d层的神经网络（t代表层）计算损失 l 关于参数 Wt 的梯度：

这样的矩阵乘法带来的问题：（1）梯度爆炸（2）梯度消失

例子：MLP 加入如下MLP（省略偏移）进行累乘：

(1) 梯度爆炸

使用ReLU 作为激活函数假设W中的值都大于1，那么会得到很大的值（梯度爆炸）

梯度爆炸的问题

值超出值域(infinity) 对于 16位浮点数尤为严重(数值区间 6e-5-6e4) 对学习率敏感如果学习率太大 ->大参数值 ->更大的梯度如果学习率太小->训练无进展我们可能需要在训练过程不断调整学习率

(2) 梯度消失

使用 sigmoid作为激活函数当输入相对较大的时候，激活函数的导数会变成0；

梯度消失的问题

梯度值变成 0 对 16 位浮点数尤为严重训练没有进展不管如何选择学习率对于底部层尤为严重仅仅顶部层训练的较好无法让神经网络更深（和一个很浅的神经网络没有区别）（反向传播，更新参数，w越来越小，最终趋于零，也失去了学习的必要）总结当数值过大或者过小时会导致数值问题常发生在深度模型中，因为其会对n个数累乘让训练更加稳定

目标:让梯度值在合理的范围内，例如[le-6,1e3]

将乘法变加法 ResNet, LSTM 归一化：将梯度变成均值为0，方差为1 梯度归一化，梯度裁剪合理的权重初始和激活函数模型初始化和激活函数让每层的方差是一个常数将每层的输出和梯度都看做随机变量让它们的均值和方差都保持一致

t: 第t层；i: 第i个变量

假设：我们想要的输出如下：所有的输出和梯度的均值、方差都在一个常数

权重初始化在合理值区间里随机初始参数训练开始的时候更容易有数值不稳定远离最优解的地方损失函数表面可能很复杂最优解附近表面会比较平使用 N(0,0.01)来初始可能对小网络没问题，但不能保证深度神经网络

如何保证之前的假设成立呢？

例子：MLP

假设： i.i.d：独立同分布；均值E为0，Var方差为一个常数；当前层的权重和当前层的输入是一个独立事件。

假设没有激活函数：

实现的目标中的正向方差：

【方差公式】方差等于平方的期望减去期望的平方：方差D(X)=E(X^ 2)-E(X)^2 对于和的平方等价于每一项的平方+不相等的交叉项的乘积和第二行的加号后面的累加为0的原因是：之前假设了wt_i,j是独立的同分布（即 i.i.d），那么w_t_i,j的均值就为0，即E（wti,j）=0，即 E（第二行第二项）=0 方差 = 平方的期望 - 期望的平方现在期望的平方等于0，所以方差 = 平方的期望，可得到第四行 n_t-1：当前第t层的输入的维度

接下来看反向的均值和方差注意： (AB)转置=B转置xA转置和正向类似，老师并没有细推： Xavier初始化：（常用的权重初始化的方法）基于该方式对某层权重初始化时，该层权重的初始化会根据该层的输入维度、输出维度来决定（如权重的方差），尤其是当输入输出维度不一定、或网络变化比较大时，可以根据输入输出维度来适配权重，使得输出的方差和梯度都在恒定（合理）的范围内满足正向和反向的条件很难，但可以取一个折中的方法：即给定当前第t层的输入维度nt-1和输出维度nt的大小，那么就可以由这俩得到当前第t层的权重的方差γt。

假设线性的激活函数（只是为了简单理论分析，实际上不可能用线性的激活函数））这就说明：为了使正向的输出为均值为0、方差为固定值，则要求线性激活函数的α=1、β=0，即为输入x本身；反向，与正向类似：也说明：激活函数必须是f(x)=x；

最后，检查真正的激活函数（因为激活函数都是非线性的，而上面是以线性激活函数举例的），如使用泰勒展开：可以发现下图中tanh和relu在原点处基本都是f(x)=x，虽然sigmoid不过原点，但经过调整后的sigmoid（如下图中蓝线，即乘四再减二后）也是过原点且在原点处近似为f(x)=x（即经过调整后的sigmoid函数也能解决以前原sigmoid存在的问题）为何只关注在0点附近的表现是否能满足f(x)=x的要求：因为一般神经网络的权重w的取值都是在0附近的。

问题：nan、inf如何产生，以及怎么解决？ inf：就是太大，即一般是lr太大或权重初始化时太大了 nan一般是除0了

解决：合理初始化权重（权重的初始一般均值为0，方差小一点，当能出现正确的值之后再慢慢调大权重（的方差）使得训练有进展）选择合适的激活函数、选择合适大小的lr（一般是把lr一直往小调直到inf、nan不出现）

问题：使用ReLU激活函数是如何做到拟合x平方或者三次方这种曲线的? 不是单独的relu来拟合，而是relu+学习到的权重w 共同作用（只是基于relu提供非线性的特性）

问题：梯度消失可以说是因为使用了sigmoid激活函数引起的对吗?所以我们可以用ReLU替换sigmoid解决梯度消失的问题? 梯度消失产生的原因有很多种，sigmoid只是其中的一种可能用ReLU替换可以降低产生梯度消失的概率，但不确保一定能完全解决

问题：梯度爆炸是由什么激活函数引起的吗? 爆炸的产生和激活函数无关，一般都是由每层的输出太大然后多个层累乘引起的

问题：resnet还是会出现数值稳定性? 各种技术都是在缓解、减轻问题，但不是完全解决，用ResNet只是会让数值稳定性更好一点（整个深度学习的进展都是在让数值更加稳定）

总结合理的权重初始值和激活函数的选取可以提升数值稳定性

标签：

跟着李沐老师学习深度学习（八）由讯客互联其他栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“跟着李沐老师学习深度学习（八）”

上一篇
理解WebGPU中的navigator.gpu和adapte

下一篇
Linux第107步_Linux之PCF8563实验