- 从训练集和测试集的角度来讲就是:模型几乎完全符合符合训练集,甚至将噪声也作为拟合模型的数据,这就导致了在训练集上效果很好,在测试集上效果很差,也就是加入一个新数据的时候这个新数据就不符合这个模型了(这也是所谓的泛化能力很差)
- 从模型的复杂度来讲,就是模型过于复杂,那么这个模型过于复杂有两点含义:
- 模型的参数w过大
- 模型的参数w过多
过拟合的解决办法
- 获取更多的训练数据,增加它的泛化能力
- 降维,也就是减少模型的w,从而丢掉一些特征
- 正则化,也就是控制住参数w的大小
正则化
为了控制w不要太大(w1,w2,w3.....不要太大),同时使得损失函数达到最小,我们构建一个条件极值问题:

拉格朗日乘数法就是L(w,λ)对w,λ求偏导为零,联立解出w
而我们使用拉格朗日常数法构建的条件极值问题中的λC在对w,λ求偏导的过程中为0并不影响w的求解,也就是说
因此我们可以忽略λC构建正则化项
