本文讲梯度下降(Gradient Descent)前先看看利用梯度下降法进行监督学习(例如分类.回归等)的一般步骤: 1, 定义损失函数(Loss Function) 2, 信息流forward propagation,直到输出端 3, 误差信号back propagation.采用“链式法则”,求损失函数关于参数Θ的梯度 4, 利用最优化方法(比如梯度下降法),进行参数更新 5, 重复步骤2.3.4,直到收敛为止 所谓损失函数,就是一个描述实际输出值和期望输出值之间落差的函数.有多种损失函数的…