正则化-JZTXT

一、正则化
1、正则化的理解
当模型的复杂度>>数据的复杂度时，会出现过拟合现象，即模型过度拟合了训练数据，其泛化能力变差。为此，会通过数据增强、降维、正则化等方法防止模型过拟合。
从数学角度理解，以线性回归为例，其损失函数为：

\[\mathcal{L}(\omega) = \sum^{N}_{i=1}||\omega^T -y_i||^2$$&ensp; &ensp;可以得到： $$W = (X^TX)^{-1}X^TY$$&ensp; &ensp;需要对$X^TX$求逆，才能得到解。 <font size=4>&ensp; &ensp;对于$X_{N \times P}$，$x_i \in \mathbb{R}^P$，其中$N$为样本数，$P$为样本维度。当$P>>N$时，在数学上的表现为$X^TX$不可逆，在现象上，即为模型过拟合。 &ensp; &ensp;若以前述的$L2$正则化方法进行约束，则有： $$\begin{aligned} J(\omega) &=\sum^{N}_{i=1}||\omega^T -y_i||^2 +\lambda W^TW \\ &=(W^TX^T-Y^T)(XW-Y) + \lambda W^TW \\ &=W^TX^TXW -W^TX^TY-Y^TXW+YY^T+\lambda W^TW \\ &=W^TX^TXW-2W^TX^TY+Y^TY+\lambda W^TW \\ &=W^T(X^TX+\lambda I)W - 2W^TX^TY+Y^TY \end{aligned}$$ &ensp; &ensp;求导： $$\begin{aligned} \frac{\partial J(\omega)}{\partial \omega} = 2(X^TX+\lambda I)W -2X^TY \end{aligned} $$&ensp; &ensp;解得： $$\begin{aligned} W = (X^TX+\lambda I)^{-1}X^TY \end{aligned}$$ &ensp; &ensp; $X^TX$为半正定矩阵，$\lambda I$为半角矩阵，故$(X^TX+\lambda I)$一定可逆，这从数学上解释了正则化的原因。 2、TODO ......\]