http://colah.github.io/posts/2015-08-Backprop/ http://www.zhihu.com/question/27239198 待翻译 http://blog.csdn.net/woxincd/article/details/7040944 对于我们的函数J(θ)求偏导J: 下面是更新的过程,也就是θi会向着梯度最小的方向进行减少.θi表示更新之前的值,-后面的部分表示按梯度方向减少的量,α表示步长,也就是每次按照梯度减少的方向变化多少.  一个很重要…
SGD 讲解,梯度下降的做法,随机性.理解反向传播 待办 Stochastic Gradient Descent 随机梯度下降没有用Random这个词,因为它不是完全的随机,而是服从一定的分布的,只是具有随机性在里面. 其中的Stochastic的意思是从x到y的映射: x→yx\to y x→y 给定一个xxx并不能确定地知道输出yyy,而是服从一定的概率分布. 与之对应的是Deterministic这个词,它表示从xxx到yyy的映射是确定的: y=f(x)y=f(x) y=f(x) 具体地…
 100天搞定机器学习(Day1-34) 100天搞定机器学习|Day35 深度学习之神经网络的结构 100天搞定机器学习|Day36 深度学习之梯度下降算法 本篇为100天搞定机器学习之第37天,亦为3Blue1Brown<深度学习之反向传播算法>学习笔记. 上集提到我们要找到特定权重和偏置,从而使代价函数最小化,我们需要求得代价函数的负梯度,它告诉我们如何改变连线上的权重偏置,才能让代价下降的最快.反向传播算法是用来求这个复杂到爆的梯度的. 上一集中提到一点,13000维的梯度向量是难以想…
http://www.cnblogs.com/charlotte77/p/5629865.html http://www.cnblogs.com/daniel-D/archive/2013/06/03/3116278.html http://deeplearning.stanford.edu/wiki/index.php/%E5%8F%8D%E5%90%91%E4%BC%A0%E5%AF%BC%E7%AE%97%E6%B3%95 http://blog.csdn.net/zjccoder/art…
前向计算:没啥好说的,一层一层套着算就完事了 y = f( ... f( Wlayer2T f( Wlayer1Tx ) ) ) 反向求导:链式法则 单独看一个神经元的计算,z (就是logit)对 wi 的偏微分等于 xi : 再看多层的情况,z 经过 激活函数得到 a,而 a 在下一层和 w3 .w4 都进行了计算.所以 C 对 z 求偏微分的话,根据链式法则这两条参数的路径都要去找,且 z' 对 a 的偏微分等于w3,z'' 对 a 的偏微分等于w4 : 到这里重点来了,想象有一个不存在神…
代码来源:https://github.com/eriklindernoren/ML-From-Scratch 卷积神经网络中卷积层Conv2D(带stride.padding)的具体实现:https://www.cnblogs.com/xiximayou/p/12706576.html 激活函数的实现(sigmoid.softmax.tanh.relu.leakyrelu.elu.selu.softplus):https://www.cnblogs.com/xiximayou/p/127130…
(良心转载)原文地址:https://ken.io/note/dotnet-core-qucikstart-preface 一..NET Core的诞生 聊 .NET Core,就不得不说他的爸爸 .NET.当年Java刚刚兴起,如火如荼,微软也非常推崇Java,当时Windows平台的Java虚拟机就是微软按照JVM标准实现的,据说也是当时性能最好的Java虚拟机.但是微软也是有私心的,微软总想搞点Windows平台上的特性,有点想把Java绑定到Windows平台上的味道,另外Sun公司确实…
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-detail/263 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 本系列为 斯坦福CS231n <深度学习与计算机视觉(Deep Learning for Computer Vision)>的全套学习笔记,对应的课程视频可以在 这里 查看.更多资料获取方式见文末…
作者:寒小阳 时间:2015年12月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50321873 声明:版权所有,转载请联系作者并注明出处 1. 引言 其实一开始要讲这部分内容,我是拒绝的,原因是我觉得有一种写高数课总结的感觉.而一般直观上理解反向传播算法就是求导的一个链式法则而已.但是偏偏理解这部分和其中的细节对于神经网络的设计和调整优化又是有用的,所以硬着头皮写写吧. 问题描述与动机: 大家都知道的,其实我们就是在给定的图像像…
转自:http://www.zhihu.com/question/27239198/answer/89853077 机器学习可以看做是数理统计的一个应用,在数理统计中一个常见的任务就是拟合,也就是给定一些样本点,用合适的曲线揭示这些样本点随着自变量的变化关系. 深度学习同样也是为了这个目的,只不过此时,样本点不再限定为(x, y)点对,而可以是由向量.矩阵等等组成的广义点对(X,Y).而此时,(X,Y)之间的关系也变得十分复杂,不太可能用一个简单函数表示.然而,人们发现可以用多层神经网络来表示这…