今天太长姿势了,什么叫懂了也写不出代码说的不就是我吗,就那么几行代码居然叽叽歪歪写了一个小时. 首先exercise要实现的是softmax的cost function和gradient,如下图: (1) (2) (3) 下面就来仔细分析怎么不借助for循环高效的实现上面三个函数. 首先P是一个关键,因为在J和梯度中都出现了,所以现在实现P. 可以看到theta和X的乘积是一个十分重要的量,因为在分子分母中都出现了,所以首先计算假设h=exp(θTX),那么h(k,i)就是exp(θ(k)T*x…