凭什么要用余弦退火,不用正弦退火
先说结论余弦退火功能让学习率像余弦波一样平滑地先缓降、再快降最后在谷底温柔触底。为什么先看看公式看着烦不看了核心就是f(t)来看看对t求导其他的不用管 得到一个sin(t / T *Π)* 【一个数】(别管他不重要反正你硬要算还是这个数要学会像电脑一样节省计算资源当然你钻牛角尖当我没说或着说不对不对我就告诉你这是关于t的函数其他视作常数)那么t 在 0 处开始与t在 1处结束都是 0 这时候的学习率不会变动看到这里感到蒙你求导有啥用导数 0 又有啥用还记得导数定义公式吧条件有限网上随便找的你先把x看成t也就是说 在h --0 下导数值fx * 变化量 h f(x h) - f(x) [实际学习率的变化量]当导数为 0实际 学习率的变化量为 0 也就是说学习率在开始和结束都不变但 你 t 在 0呢 他是不是就大了一点 当他t 到 T/2时也就是变化中期这个变化巨快 等到你模型快训练完的时候 基本上学习率也固定了现在你回头看看那部分但如果把cos换成sin会发生什么事情相信你也能推断出来了sinx --》cosx他在开始和结束 的值都为 1 也就是说 学习率这时候变化巨快 开始还行 但模型训练到最后你还变那么快 这不胡闹嘛