torch.optim.SGD

常用参数列表：
params 需要学习的参数
lr 学习率
momentum 冲量加入冲量后权重更新公式由v=−dx∗lr+v变成v=−dx∗lr+v∗momemtum
weight_decay 权重衰减防止过拟合，原理见这里

pytorch优化器