正则化

发布时间 2023-04-06 16:01:01作者: Abyss_J

一、正则化
1、正则化的理解
    当模型的复杂度>>数据的复杂度时,会出现过拟合现象,即模型过度拟合了训练数据,其泛化能力变差。为此,会通过数据增强、降维、正则化等方法防止模型过拟合。
  从数学角度理解,以线性回归为例,其损失函数为:

\[\mathcal{L}(\omega) = \sum^{N}_{i=1}||\omega^T -y_i||^2$$&ensp; &ensp;可以得到: $$W = (X^TX)^{-1}X^TY$$&ensp; &ensp;需要对$X^TX$求逆,才能得到解。 <font size=4>&ensp; &ensp;对于$X_{N \times P}$,$x_i \in \mathbb{R}^P$,其中$N$为样本数,$P$为样本维度。当$P>>N$时,在数学上的表现为$X^TX$不可逆,在现象上,即为模型过拟合。 &ensp; &ensp;若以前述的$L2$正则化方法进行约束,则有: $$\begin{aligned} J(\omega) &=\sum^{N}_{i=1}||\omega^T -y_i||^2 +\lambda W^TW \\ &=(W^TX^T-Y^T)(XW-Y) + \lambda W^TW \\ &=W^TX^TXW -W^TX^TY-Y^TXW+YY^T+\lambda W^TW \\ &=W^TX^TXW-2W^TX^TY+Y^TY+\lambda W^TW \\ &=W^T(X^TX+\lambda I)W - 2W^TX^TY+Y^TY \end{aligned}$$ &ensp; &ensp;求导: $$\begin{aligned} \frac{\partial J(\omega)}{\partial \omega} = 2(X^TX+\lambda I)W -2X^TY \end{aligned} $$&ensp; &ensp;解得: $$\begin{aligned} W = (X^TX+\lambda I)^{-1}X^TY \end{aligned}$$ &ensp; &ensp; $X^TX$为半正定矩阵,$\lambda I$为半角矩阵,故$(X^TX+\lambda I)$一定可逆,这从数学上解释了正则化的原因。 2、TODO ......\]