深度学习中, 模型的初始权重是在训练启动阶段随机生成的, 选择 Warmup 策略可以使模型在训练初期使用较小的学
习率进行训练, 经过设定的一定数量的迭代次数, 模型趋向稳定后, 再改为预先设定的学习率, 达到预热学习率的效果, 可以防止模型震荡, 加速网络收敛速度, 提升效果.
实验中使用 Warmup 策略中的 Gradual Warmup, 即在学习率预热阶段中学习率随着迭代次数增加也逐步提高, 直到预热阶段结束时学习率达到预设定值, 再进行后续训练, 这样能够避免学习率突然增大而导致训练误差激增的情况.
学习率是一个对模型权重更新具备极大影响力的超参数. 初始学习率设置合理才能使模型最优化, 过小会导致收敛慢, 过大则会导致不稳定或收敛失败. 学习率需要随着网络训练程度变化, 其变更策略很重要, 在深度学习中存在多种策略, 如 Fixed 策略、Poly 策略和 sigmoid策略. 本文实验的 SGD 优化策略中添加了 Poly 学习率衰减策略, 当前学习率为