torch.optim.SGD
常用参数列表:
params 需要学习的参数
lr 学习率
momentum 冲量 加入冲量后权重更新公式由v=−dx∗lr+v变成v=−dx∗lr+v∗momemtum
weight_decay 权重衰减 防止过拟合,原理见这里
常用参数列表:
params 需要学习的参数
lr 学习率
momentum 冲量 加入冲量后权重更新公式由v=−dx∗lr+v变成v=−dx∗lr+v∗momemtum
weight_decay 权重衰减 防止过拟合,原理见这里