【深度学习】吴恩达网易公开课练习(class2 week1 task2 task3)

匡子语 2024-08-10 08:50:16 原文

正则化

定义：正则化就是在计算损失函数时，在损失函数后添加权重相关的正则项。
作用：减少过拟合现象
正则化有多种，有L1范式，L2范式等。一种常用的正则化公式
\[J_{regularized} = \small \underbrace{-\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} }_\text{cross-entropy cost} + \underbrace{\frac{1}{m} \frac{\lambda}{2} \sum\limits_l\sum\limits_k\sum\limits_j W_{k,j}^{[l]2} }_\text{L2 regularization cost}\]
使用正则化，需要分别在计算损失函数和反向传播计算导数时做相应的修改。
上述正则化对应的反向传播公式需添加一项：
\[\frac{d}{dW} ( \frac{1}{2}\frac{\lambda}{m} W^2) = \frac{\lambda}{m} W\]

dropout

定义：dropout是指在每次迭代训练时随机从网络结构中去掉部分节点
作用：减少过拟合
注意：只在训练时使用dropout，测试时不使用
实现方法：给每一层节点都设置一个保留概率keep_prob

前向传播：
- 定义一个和每一层输入相同结构的mask，随机初始化为0-1之间的小数
- mask中小于keep_prob的，置为1（节点保留），否则为0（节点丢弃）
- 该层输入 = 该层输入 * mask / keep_prob
反向传播：
- dA = dA * mask / keep_prob

梯度校验

定义：通过比较反向传播梯度值与双边近似梯度值校验反向传播过程是否正确
作用：深度神经网络的前向传播实现相对简单，而反向传播相对复杂，容易出现差错。故用前向传播的结果近似计算梯度值，并与梯度值做比较。如果误差足够小，则认为反向传播计算是正确的。
梯度近似公式：
\[ \frac{\partial J}{\partial \theta} = \lim_{\varepsilon \to 0} \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon}\]
梯度差异公式：
\[ difference = \frac {\| grad - gradapprox \|_2}{\| grad \|_2 + \| gradapprox \|_2 }\]

\(\varepsilon\)一般取1e-7，如果最终差异小于1e-7认为是正确，大于1e-3认为错误，介于之间需要仔细确认。
梯度校验非常耗时，训练时不进行校验，只在需要验证时运行。
如果使用drop_out想进行梯度校验，先将keep_prob置为1，即关闭drop_out，校验无误后再打开drop_out

【深度学习】吴恩达网易公开课练习(class2 week1 task2 task3)的更多相关文章

【深度学习】吴恩达网易公开课练习(class2 week1)
权重初始化参考资料: 知乎 CSDN 权重初始化不能全部为0,不能都是同一个值.原因是,如果所有的初始权重是相同的,那么根据前向和反向传播公式,之后每一个权重的迭代过程也是完全相同的.结果就是,无论 ...
【深度学习】吴恩达网易公开课练习(class1 week4)
概要 class1 week3的任务是实现单隐层的神经网络代码,而本次任务是实现有L层的多层深度全连接神经网络.关键点跟class3的基本相同,算清各个参数的维度即可. 关键变量: m: 训练样本数量 ...
【深度学习】吴恩达网易公开课练习(class1 week2)
知识点汇总作业内容:用logistic回归对猫进行分类 numpy知识点: 查看矩阵维度: x.shape 初始化0矩阵: np.zeros((dim1, dim2)) 去掉矩阵中大小是1的维度: ...
【深度学习】吴恩达网易公开课练习(class1 week3)
知识点梳理 python工具使用: sklearn: 数据挖掘,数据分析工具,内置logistic回归 matplotlib: 做图工具,可绘制等高线等绘制散点图: plt.scatter(X[0, ...
深度学习吴恩达深度学习课程2第三周 tensorflow实践参数初始化的影响
博主撸的该节代码地址 :https://github.com/LemonTree1994/machine-learning/blob/master/%E5%90%B4%E6%81%A9%E8 ...
cousera 深度学习吴恩达第一课第二周学习率对优化结果的影响
本文代码实验地址: https://github.com/guojun007/logistic_regression_learning_rate cousera 上的作业是编写一个 logistic ...
2017年度好视频，吴恩达、李飞飞、Hinton、OpenAI、NIPS、CVPR、CS231n全都在
我们经常被问:机器翻译迭代了好几轮,专业翻译的饭碗都端不稳了,字幕组到底还能做什么? 对于这个问题,我们自己感受最深,却又来不及解释,就已经边感受边做地冲出去了很远,摸爬滚打了一整年. 其实,现在看来 ...
第19月第8天斯坦福大学公开课机器学习（吴恩达 Andrew Ng）
1.斯坦福大学公开课机器学习 (吴恩达 Andrew Ng) http://open.163.com/special/opencourse/machinelearning.html 笔记 http:/ ...
吴恩达深度学习第4课第3周编程作业 + PIL + Python3 + Anaconda环境 + Ubuntu + 导入PIL报错的解决
问题描述: 做吴恩达深度学习第4课第3周编程作业时导入PIL包报错．我的环境: 已经安装了Tensorflow GPU 版本 Python3 Anaconda 解决办法: 安装pillow模块,而不 ...

随机推荐

Kubernetes — 为什么我们需要Pod？
不过,我相信你在学习和使用 Kubernetes 项目的过程中,已经不止一次地想要问这样一个问题:为什么我们会需要 Pod? 是啊,我们在前面已经花了很多精力去解读 Linux 容器的原理.分析了 D ...
golang介绍
一.golang介绍 golang是Google开发的一种静态强类型.编译型,并发型,并具有垃圾回收功能的编程语言. 二.语言特性 1..自动垃圾回收 2.支持函数多返回值 3.并发强三.gol ...
JAVA多线程-初体验
一.线程和进程每个正在系统上运行的程序都是一个进程.每个进程包含一到多个线程. 进程是所有线程的集合,每一个线程是进程中的一条执行路径. 二.为什么使用多线程,哪些场景下使用多线程的好处是提高程序 ...
json内存级非关系数据库
介绍 `jsonDB2`是一个基于内存的键值对数据库(非关系型数据库) 开发初衷:实现个人tornado项目中内存session存储功能(不想引入redis等非关系型数据库) 项目地址: https: ...
JPA 连表查询
A表和B表 @Entity @Table(name = "A", schema = "kps", catalog = "kps") @Dyn ...
MYSQL IN 出现的慢查询问题
IN = https://blog.csdn.net/solmyr_biti/article/details/54293492 https://www.cnblogs.com/wxw16/p/6105 ...
Java【初识篇】语言概述
什么是计算机语言语言:是人与人之间用于沟通的一种方式.例如:中国人与中国人用普通话沟通.而中国人要和英国人交流,就要学习英语.计算机语言(编程语言):人与计算机交流的方式.如果人要与计算机交流,那么 ...
vue实战记录（三）- vue实现购物车功能之渲染商品列表
vue实战,一步步实现vue购物车功能的过程记录,课程与素材来自慕课网,自己搭建了express本地服务器来请求数据作者:狐狸家的鱼本文链接:vue实战-实现购物车功能(三) GitHub:sue ...
洛谷P4719 动态dp
动态DP其实挺简单一个东西. 把DP值的定义改成去掉重儿子之后的DP值. 重链上的答案就用线段树/lct维护,维护子段/矩阵都可以.其实本质上差不多... 修改的时候在log个线段树上修改.轻儿子所在 ...
测试框架httpclent 3.获取cookie的信息,然后带cookies去发送请求
在properties文件里面: startupWithCookies.json [ { "description":"这是一个会返回cookies信息的get请求&qu ...