大家好~我开设了“深度学习基础班”的线上课程，带领同学从0开始学习全连接和卷积神经网络，进行数学推导，并且实现可以运行的Demo程序

线上课程资料：

本节课录像回放1

本节课录像回放2

加QQ群，获得ppt等资料，与群主交流讨论：106047770

本系列文章为线上课程的复盘，每上完一节课就会同步发布对应的文章

本文为第二节课：“判断性别”Demo需求分析和初步设计（下2）的复盘文章

本课程系列文章可进入索引查看：

深度学习基础课系列文章索引

回顾相关课程内容
主问题：如何求梯度
任务：根据梯度下降算法实现训练
任务：改进训练，使其收敛
总结
参考资料

回顾相关课程内容

第二节课：“判断性别”Demo需求分析和初步设计（下1）
- 为什么引入损失函数？
- 损失函数的表达式是什么？
- 有了损失函数，如何具体判断得到一组权重、偏移是合适的呢？
- 什么是随机梯度下降？
- 更新权重、偏移的梯度下降公式是什么？

主问题：如何求梯度

对于“判断性别”的Demo，可以是什么函数？

答：
如何求$\frac{dE}{dw_{53}}$？

答：

参考上面的公式，可知：
如何求$\frac{dE}{db_{5}}$？

答：与上面类似
如何求$\frac{dE}{dw_{31}}$？

答：

任务：根据梯度下降算法实现训练

标签、特征是什么？

标签是我们要预测的事物，即男/女；

特征是输入变量，即身高和体重；
已知4个有标签样本（同时包含特征和标签）用于训练，2个无标签样本用于推理
请根据梯度下降算法，实现NeuralNetwork_train的train函数？
- 如何判断是否达到了希望的结果（即收敛）？
  
  答：打印损失函数返回的误差loss，如果小于0.1，则收敛
- 如何实现？
  
  答：答案：NeuralNetwork_train_answer
请运行程序
- 有什么问题？
  
  第一轮开始的loss就无限大

任务：改进训练，使其收敛

请找出loss无限大的原因？

答：输出(y5)太大
应该如何改进？

答：改进激活函数，使用sigmoid替代线性函数：

它的导数为：
修改代码，运行结果？

答：修改后的相关代码为：

let _activateFunc = x => {

  1. /. (1. +. Js.Math.exp(-.x))

}

let _deriv_Sigmoid = x => {

  let fx = _activateFunc(x)

  fx *. (1. -. fx)

}

修改后的完整代码为：NeuralNetwork_train_fix_activate_answer

运行结果：loss一直不变

（补充：完整代码有bug：Neural_forward_answer->_activateFunc应该使用sigmoid函数。修改后的完整代码为：NeuralNetwork_train_fix_activate_answer_fix。修改后的运行结果是loss会先下降到0.25然后就不变了，而不是一直不变）

为什么loss一直不变？

答：输入太大->隐藏层的激活函数的导数为0->梯度为0->loss不变
应该如何改进？

答：将样本零均值化
修改代码，运行结果？

答：修改后的相关代码为：

let _mean = values => {

  values->ArraySt.reduceOneParam((. sum, value) => {

    sum +. value

  }, 0.) /. ArraySt.length(values)->Obj.magic

}

let _zeroMean = features => {

  let weightMean = features->ArraySt.map(feature => feature.weight)->_mean->Js.Math.floor->Obj.magic

  let heightMean = features->ArraySt.map(feature => feature.height)->_mean->Js.Math.floor->Obj.magic

  features->ArraySt.map(feature => {

    weight: feature.weight -. weightMean,

    height: feature.height -. heightMean,

  })

}

let features = features->_zeroMean

let state = state->train(features, labels)

let featuresForInference = [

  {

    weight: 89.,

    height: 190.,

  },

  {

    weight: 60.,

    height: 155.,

  },

]

featuresForInference->_zeroMean->Js.Array.forEach(feature => {

  inference(state, feature)->Js.log

}, _)

这里的内容是错误的，可忽略

运行结果：loss可能会逐渐增大

为什么会出现loss逐渐增大的情况？

答：学习率太大

如下图所示：

因为步长过大，可能会跨过谷底
如何解决？

答：有两个方法：

减小学习率，增加轮数；

使用优化算法动态调整学习率。

这里使用前者
修改代码，运行结果？

答：修改后的相关代码为：

let train = (state: state, features: array<feature>, labels: array<label>): state => {

  //let learnRate = 0.1

  //let epochs = 1000

  let learnRate = 0.001

  let epochs = 100000

...

修改后的完整代码为：NeuralNetwork_train_fix_zeroMean_answer

运行结果：大部分情况下loss会收敛

（补充：完整代码仍然有同样的bug：Neural_forward_answer->_activateFunc应该使用sigmoid函数。修改后的完整代码为：NeuralNetwork_train_fix_zeroMean_answer_fix。修改后的运行结果是loss基本上都会收敛，所以基本上不会出现“loss可能会逐渐增大”的情况，所以就不需要“减小学习率，增加轮数；”）

总结

请回答所有主问题？
如何根据梯度下降算法实现训练代码？
会出现什么问题？如何解决？

参考资料

深度学习基础课：“判断性别”Demo需求分析和初步设计（下2）的更多相关文章

“判断性别”Demo需求分析和初步设计（中）
大家好~我开设了"深度学习基础班"的线上课程,带领同学从0开始学习全连接和卷积神经网络,进行数学推导,并且实现可以运行的Demo程序线上课程资料: 本节课录像回放加QQ群,获得 ...
基于深度学习的人脸性别识别系统（含UI界面，Python代码）
摘要:人脸性别识别是人脸识别领域的一个热门方向,本文详细介绍基于深度学习的人脸性别识别系统,在介绍算法原理的同时,给出Python的实现代码以及PyQt的UI界面.在界面中可以选择人脸图片.视频进行检 ...
【神经网络与深度学习】【CUDA开发】caffe-windows win32下的编译尝试
[神经网络与深度学习][CUDA开发]caffe-windows win32下的编译尝试标签:[神经网络与深度学习] [CUDA开发] 主要是在开发Qt的应用程序时,需要的是有一个使用的库文件也只是 ...
[OpenCV实战]1 基于深度学习识别人脸性别和年龄
目录 1基于CNN的性别分类建模原理 1.1 人脸识别 1.2 性别预测 1.3 年龄预测 1.4 结果 2 代码参考本教程中,我们将讨论应用于面部的深层学习的有趣应用.我们将估计年龄,并从单个图 ...
【课程学习】课程2：十行代码高效完成深度学习POC
本文用户记录黄埔学院学习的心得,并补充一些内容. 课程2:十行代码高效完成深度学习POC,主讲人为百度深度学习技术平台部:陈泽裕老师. 因为我是CV方向的,所以内容会往CV方向调整一下,有所筛检. 课 ...
深度学习与CV教程(2) | 图像分类与机器学习基础
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
深度学习与CV教程(8) | 常见深度学习框架介绍
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
深度学习与CV教程(12) | 目标检测 (两阶段,R-CNN系列)
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
paper 53 ：深度学习（转载）
转载来源:http://blog.csdn.net/fengbingchun/article/details/50087005 这篇文章主要是为了对深度学习(DeepLearning)有个初步了解,算 ...
深度学习与CV教程(4) | 神经网络与反向传播
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...

随机推荐

ES到底是个什么东西
概念:全文检索服务器(是基于Lucene开发的全文检索服务器),它可以近乎实时存储.检索数据,底层仍然是Lucene来实现的所以索引和搜索功能,他的目的是通过的简单的RESTFul API 来隐藏Lu ...
STM32外设：串行通信 USART、I2C、SPI
USART:Universal Synchronous Asynchronous Receiver Transmitter 通用同步异步接收发送器 UART:异步中断主要功能:接收指定长度的帧数据 ...
华企盾DSC由于proevhost.exe进程未添加导致rhino的文件无法预览
解决方法:用procmon监控文件目录,然后搜索readfile,查看除了explorer.dllhost.rentimebroker是否还有其它进程添加,查到proevhost进程也读取了文件添加加 ...
SQL优化三步曲
有一天开发同学反馈线上业务库中有一条SQL执行很满,每次几乎要跑1分钟才结束,希望我们帮忙优化一下,具体SQL如下: SQL优化第一步 - 查看执行计划对于一个SQL的优化,我们的第一步也是最重要的 ...
Android学习--ListView和Tab
产生一个ListView 其中包含很多items,第一个item启动另一个实现了Tab的Activity. 关于tab的使用方式,参见下面blog http://oldshark.blog.163.c ...
LeetCode 图篇
743. 网络延迟时间有 N 个网络节点,标记为 1 到 N. 给定一个列表 times,表示信号经过有向边的传递时间. times[i] = (u, v, w),其中 u 是源节点,v 是目标节点 ...
监控cpu高的进程shell
#!/bin/bash while [ 1 ]do ps aux|awk '{if($3>10){print $3" => "$0}}' sleep 0.5sdone
掌数科技携手华为云GaussDB，助力金融科技创新，联合打造行业标杆
本文分享自华为云社区<掌数科技携手华为云GaussDB,助力金融科技创新,联合打造行业标杆>,作者:GaussDB 数据库 . 近日,在华为开发者大会2023(Cloud)的"G ...
一种DWS迁移Oracle的CONNECT BY语法的方案
摘要:本文提供一种GaussDB DWS迁移CONNECT BY语法方案. 本文分享自华为云社区<GaussDB(DWS)迁移 - oracle兼容 -- CONNECT BY迁移>,作者 ...
垃圾回收你懂，Java垃圾回收你懂吗？
摘要:在用 C 之类的编程语言时,程序员需要自己手动分配和释放内存.而 Java 不一样,它有垃圾回收器,释放内存由回收器负责.本文接下来将介绍Java垃圾收集的知识原理. java内存区域 Q: J ...

深度学习基础课： “判断性别”Demo需求分析和初步设计（下2）