batchsize与学习率
5x5x5,lr=0.001,batchsize=1 完美收敛
总权重数为 25+55+55+51=65

5x5x5,lr=0.03,batchsize=30 同样收敛

5x5x5,lr=0.01,batchsize=30,收敛的非常慢接近不收敛
结论,若在小batchsize下收敛,则到大batchsize下需要batchsize/lr接近一个常数,即增大学习率

5x5x5,lr=0.1,batchsize=30,收敛快但是收敛的不好
学习率过大,抖动厉害。
