Review: Gradient Descent Tip 1: Tuning your learning rates eta恰好,可以走到局部最小值点; eta太小,走得太慢,也可以走到局部最小值点; eta太大,很可能走不到局部最小值点,卡在某处上; eta太太大,很可能走出去. 可以自动调节eta, 大原则是eta随更新次数的增长而减小,---time dependent 同时也要针对不同的参数设置不同的eta.---parameter dependent 有很多这样的自动调节eta的梯度下…