背景
在推荐、广告中可能存在正负比例过于悬殊的情况,为了提高模型效果以及提升模型训练速度,往往会对样本进行采样,用采样后的数据流训练的模型学习的是一个有偏的分布,因此需要进行纠偏
纠偏方法
使用sigmmoid作为分类函数时,进入sigmoid函数前的输入其实就是对数几率:

可以得出:

其中假设了采样不改变特征分布
在推荐、广告中可能存在正负比例过于悬殊的情况,为了提高模型效果以及提升模型训练速度,往往会对样本进行采样,用采样后的数据流训练的模型学习的是一个有偏的分布,因此需要进行纠偏
使用sigmmoid作为分类函数时,进入sigmoid函数前的输入其实就是对数几率:

可以得出:

其中假设了采样不改变特征分布