前置知识

梯度下降法

\[
设损失函数为F(\vec{w})
\\
则F(\vec{w}+\Delta{\vec{w}})-F(\vec{w}) = \nabla{F(\vec{w})} \cdot \Delta{\vec{w}}\\
其中\nabla{F(\vec{w})} 是 F(\vec{w})的梯度\\
所以当\Delta{\vec{w}} = -\eta \nabla F(\vec{w}),(\eta>0)时,下降速率最快\\
即\Delta{w_i} = -\eta \frac{\partial{F}}{\partial{w_i}}
\]

激活函数

\[
设当前激活函数为f(x) = 1/(1+\exp(-x))\\
有f'(x) = \exp(-x)/(1+\exp(-x))^2=f(x)*(1-f(x))
\]

多元复合函数求偏导的相关知识

正向计算

符号定义

  1. 节点 \(i\)的输入为\(net_i\),输出为\(O_i\)
  2. \(v_{ij},w_{jk}是节点i到节点j,节点j到节点k的权值\)
  3. 误差为\(E\),是个多元函数

输入层

输入层不使用激活函数,\(O_i = x_i\)

隐含层

隐含层输入为 \(net_j = \Sigma_{i=0}^{I-1} v_{ij}*O_i\)
输出为 \(O_j = f(net_j)\)

输出层

输入为\(net_k = \Sigma_{j=0}^{J-1}w_{jk}*O_j\)
输出为 \(O_k = f(net_k)\)

误差函数

\(E=\frac{1}{2}\Sigma_{k=0}^{K-1}(d_k-O_k)^2, d_k为期望输出\)

反向传播

使用梯度下降法调整节点间连接的权值,使得E获得极小值

输出层与隐含层之间的权值调整

\[
把E视为是关于\vec{w}, \vec{v}的函数\\
由前置知识得,\Delta{w_{jk}} = -\eta\frac{\partial E }{\partial w_{jk} }=-\eta\frac{\partial E}{\partial net_k}\cdot \frac{\partial net_k}{\partial w_{jk}}\\
即 \Delta{w_{jk}} = \eta(-\frac{\partial{E}}{\partial{net_k}})O_j\\
设\delta_k = -\frac{\partial{E}}{\partial{net_k}} = -\frac{\partial{E}}{\partial{O_k}} \cdot \frac{dO_k}{dnet_k}\\
即 \delta_k = (d_k-O_k)f'(net_k), \Delta{w_{jk}} = \eta\delta_kO_j
\]

隐含层与输入层之间权值的调整

\[
同理\Delta{v_{ij}} = -\eta\frac{\partial E }{\partial v_{ij} }=\eta(-\frac{\partial E}{\partial net_j}) \frac{\partial net_j}{\partial w_{ij}}\\
即 \Delta{v_{ij}} = \eta(-\frac{\partial{E}}{\partial{net_j}})O_i\\
设\delta_j = -\frac{\partial{E}}{\partial{net_j}} = -\frac{\partial{E}}{\partial{O_j}} \cdot \frac{dO_j}{dnet_j}=-\frac{\partial E}{\partial net_j}f'(net_j)\\
-\frac{\partial E }{\partial O_j} = -\Sigma_{k=0}^{K-1}\frac{\partial E}{\partial net_k}\frac{\partial net_k}{\partial O_j}=\Sigma_{k=0}^{K-1}\delta_kw_{jk}\\
所以\Delta v_{ij} = \eta O_if'(net_j)\Sigma_{k=0}^{K-1}\delta_kw_{jk}
\]

计算步骤

  1. 假设经过正向计算得到\(O_i, O_j,O_k\),且已知\(v_{ij},w_{jk},d_k\)

  2. 计算\(f'(net_k), f'(net_j)\),对于我选用的激活函数来说,
    \[
    f'(net_k)=O_k(1-O_k)\\
    f'(net_j)=O_j(1-O_j)
    \]
    有可能选择其他激活函数,所以把此步骤单独分开

  3. 计算\(\delta_k=(d_k-O_k)f'(net_k)\)

  4. 计算\(\Delta w_{jk}=\eta\delta_kO_j\)

  5. 计算\(\Delta v_{ij}=\eta O_i f'(net_j)\Sigma_{i=0}^{K-1}\delta_k w_{jk}\)

  6. \(v_{ij}+=\Delta v_{ij}, w_{jk} += \Delta w_{jk}\)

BP神经网络算法推导的更多相关文章

  1. BP神经网络算法推导及代码实现笔记zz

    一. 前言: 作为AI入门小白,参考了一些文章,想记点笔记加深印象,发出来是给有需求的童鞋学习共勉,大神轻拍! [毒鸡汤]:算法这东西,读完之后的状态多半是 --> “我是谁,我在哪?” 没事的 ...

  2. 二、单层感知器和BP神经网络算法

    一.单层感知器 1958年[仅仅60年前]美国心理学家FrankRosenblant剔除一种具有单层计算单元的神经网络,称为Perceptron,即感知器.感知器研究中首次提出了自组织.自学习的思想, ...

  3. Andrew BP 神经网络详细推导

    Lec 4 BP神经网络详细推导 本篇博客主要记录一下Coursera上Andrew机器学习BP神经网络的前向传播算法和反向传播算法的具体过程及其详细推导.方便后面手撸一个BP神经网络. 目录 Lec ...

  4. bp神经网络算法

    对于BP神经网络算法,由于之前一直没有应用到项目中,今日偶然之时 进行了学习, 这个算法的基本思路是这样的:不断地迭代优化网络权值,使得输入与输出之间的映射关系与所期望的映射关系一致,利用梯度下降的方 ...

  5. BP神经网络算法预测销量高低

    理论以前写过:https://www.cnblogs.com/fangxiaoqi/p/11306545.html,这里根据天气.是否周末.有无促销的情况,来预测销量情况. function [ ma ...

  6. BP神经网络算法学习

    BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是眼下应用最广泛的神经网络模型之中的一个 ...

  7. 机器学习入门学习笔记:(一)BP神经网络原理推导及程序实现

    机器学习中,神经网络算法可以说是当下使用的最广泛的算法.神经网络的结构模仿自生物神经网络,生物神经网络中的每个神经元与其他神经元相连,当它“兴奋”时,想下一级相连的神经元发送化学物质,改变这些神经元的 ...

  8. JAVA实现BP神经网络算法

    工作中需要预测一个过程的时间,就想到了使用BP神经网络来进行预测. 简介 BP神经网络(Back Propagation Neural Network)是一种基于BP算法的人工神经网络,其使用BP算法 ...

  9. 数据挖掘系列(9)——BP神经网络算法与实践

    神经网络曾经很火,有过一段低迷期,现在因为深度学习的原因继续火起来了.神经网络有很多种:前向传输网络.反向传输网络.递归神经网络.卷积神经网络等.本文介绍基本的反向传输神经网络(Backpropaga ...

随机推荐

  1. h5py

    解决办法: sudo apt-get install libhdf5-dev sudo apt-get install python-h5py

  2. VC++中关于控件重绘函数/消息 OnPaint,OnDraw,OnDrawItem,DrawItem的区别

    而OnPaint()是CWnd的类成员,同时负责响应WM_PAINT消息. OnDraw()是CVIEW的成员函数,并且没有响应消息的功能.这就是为什么你用VC成的程序代码时,在视图类只有OnDraw ...

  3. vue-cli代理开发

    如何设置接口代理? 一.找到config文件下的index.js 二.找到dev里面的proxyTable他的值就是一个{},这里为了方便配置配置文件单独写成一个文件 dev: { env: requ ...

  4. P1776 宝物筛选_NOI导刊2010提高(02)

    题目描述 终于,破解了千年的难题.小FF找到了王室的宝物室,里面堆满了无数价值连城的宝物……这下小FF可发财了,嘎嘎.但是这里的宝物实在是太多了,小FF的采集车似乎装不下那么多宝物.看来小FF只能含泪 ...

  5. cloudstack-kvm-libvirtd

    2.4.libvirtd日志和VM的日志 在运行libvirtd的时候,我们需要获得lbivirtd的运行信息.所以我们需要找到他的日志文件.一般情况下,它是在/var/log/libvirt/lib ...

  6. K2 BPM介绍(2)

    K2 BPM介绍(2) 上一篇已经讲了一些K2 BPM基本特性,本遍讲K2 BPM大概的组件以及组件关系. K2 BPM组件 K2 BPM分别由以下组件构成: K2产品已经发展很多年,所以它有很多版本 ...

  7. 工程脚本插件方案 - c集成Python基础篇

    序: 为什么要集成脚本,怎么在工程中集成Python脚本. 在做比较大型的工程时,一般都会分核心层和业务层.核心层要求实现高效和稳定的基础功能,并提供调用接口供业务层调用的一种标准的框架划分.在实际中 ...

  8. overflow:hidden 影响inline-block元素周围元素下移

    前言: 最近在切页中,我想实现左边一个类似下拉选框,且不允许输入,右边有一段垂直居中的文字描述的效果.我对文字用的是p标签.其实可以用个i/b/em等其他行内标签,同时也具有一定语义,做为强调提示,( ...

  9. “C++动态绑定”相关问题探讨

    一.相关问题: 1. 基类.派生类的构造和析构顺序 2. 基类.派生类中virtual的取舍 二.测试代码: #include <iostream> class A { public: A ...

  10. SVG动画总结

    SVG可以在内部定义CSS动画样式,包括动画,如下面的格式: <svg> <defs> <style> </style> </defs>&l ...