mlp结构与学习率与batchsize探索

发布时间 2023-12-04 15:56:59作者: FrostyForest

batchsize与学习率

5x5x5,lr=0.001,batchsize=1 完美收敛

总权重数为 25+55+55+51=65
image

5x5x5,lr=0.03,batchsize=30 同样收敛

image

5x5x5,lr=0.01,batchsize=30,收敛的非常慢接近不收敛

结论,若在小batchsize下收敛,则到大batchsize下需要batchsize/lr接近一个常数,即增大学习率
image

5x5x5,lr=0.1,batchsize=30,收敛快但是收敛的不好

学习率过大,抖动厉害。
image