1.激活函数 1.tanh函数比sigmoid效果更好,它的区间是[-1,1],所以均值为0,有类似于让数据中心化的效果. //此时Ng说,tanh函数几乎在所有场合都更优越. 2.但是如果yhat是二分类,是{0,1},此时使用在[0,1]区间的激活函数更好,所以对于二分类在隐层中使用tanh,输出用sigmoid. 3.不同层的激活函数可以不同. 4.对于tanh和siogmoid最大的问题就是当z较大时,梯度变化非常小,斜率接近于0,所以就出现了ReLU线性修正单元a=max(0,z),…