Deep Learning 用逻辑回归训练图片的典型步骤.

笔记摘自：https://xienaoban.github.io/posts/59595.html

1. 处理数据

1.1 向量化(Vectorization)

将每张图片的高和宽和RGB展为向量，最终X的shape为 (height*width*3, m) .

1.2 特征归一化(Normalization)

对于一般数据，使用标准化(Standardization)

$X_{scale} = \frac{(X(axis=0) - X.mean(axis=0))}{X.std(axis=0)}$
z_i = (x_i - mean) / delta , mean 与 delta 代表X的均值和标准差. 最终特征处于[-1, 1]区间.

对于图片, 可直接使用Min-Max Scaling

即将每个特征除以255(每个像素分为R, G, B, 范围在0~255)使得值处于[0, 1].

2. 初始化参数

一般将 w 和 b 随机选择.

3. 梯度下降(Gradient descent)

根据 w , b 和训练集，来训练数据.

需要设定迭代次数与学习率 .

以下为大循环(迭代次数)中内容：

3.1 计算代价函数

对于$x^{(i)} \in X$，有

\[z^{(i)} = w^Tx^{(i)} + b
\]

\[ a^{(i)} = \hat{y}^{(i)} = sigmod(z^{(i)}) = \sigma(z^{(i)}) = \frac{1}{1 + e^{-z^{(i)}}}
\]

\[损失函数: {L}(a^{(i)}, y^{(i)}) = {L}(\hat{y}^{(i)}, y^{(i)}) = - y^{(i)} \log(a^{(i)}) - (1-y^{(i)} ) \log(1-a^{(i)})
\]

\[A = (a^{(1)}, a^{(2)}, ... , a^{(m-1)}, a^{(m)})
= \sigma(w^TX+b)
= \frac{1}{1+e^{-(w^TX+b)}}
\]

\[代价函数: J(w,b) = -\frac{1}{m} \sum^{m}_{i=1} \mathcal{L}(\hat{y}^{(i)}, y^{(i)})
= -\frac{1}{m} \sum^{m}_{i=1} (y^{(i)} log(\hat{y}^{(i)}) + (1-y^{(i)}) log(1-\hat{y}^{(i)}))
\]

# 激活函数

A = sigmoid(w.T.dot(X) + b)

# 代价函数

cost = -np.sum(Y * np.log(A) + (1-Y) * np.log(1 - A)) / m

3.2 计算反向传播的梯度

即：对 $J = -\dfrac{1}{m} \sum L(a, y)$ 计算导数，即对${L}(a, y)$ 计算导数，以下求导，均省略上标。

求：$\dfrac{\partial J}{\partial w}$ 和 $\dfrac{\partial J}{\partial b} $ (dw 和 db)

\[\dfrac{\partial L}{\partial a}
= \dfrac{\partial L(a, y)}{\partial a}
= -\frac{y}{a} + \frac{1-y}{1-a}
\]

\[\dfrac{da}{dz}
= (\frac{1}{1 + e^{-z}})'
= \dfrac{e^{-z}}{(1+e^{-z})^2}
= \dfrac{1}{1+e^{-z}} - \dfrac{1}{(1+e^{-z})^2}
= a-a^2
= a · (1-a)
\]

\[\dfrac{\partial L}{\partial z}
= \dfrac{\partial L}{\partial a} \dfrac{da}{dz}
= (-\dfrac{y}{a} + \dfrac{1-y}{1-a}) · a · (1-a)
= a - y
\]

\[\dfrac{\partial L}{\partial w}
= \dfrac{\partial L}{\partial z} \dfrac{\partial z}{\partial w}
= (a-y) · x
\]

\[\dfrac{\partial L}{\partial b}
= \dfrac{\partial L}{\partial z} \dfrac{\partial z}{\partial b}
= a-y
\]

根据 $J = -\dfrac{1}{m} \sum L(a, y)$ 最终可得：

\[\dfrac{\partial J}{\partial w}
= \dfrac{\partial J}{\partial a} \dfrac{\partial a}{\partial w}
= \dfrac{1}{m} X(A-Y)^T
\]

\[\dfrac{\partial J}{\partial b} = \dfrac{1}{m} \sum^{m}_{i=1} (a^{(i)} - y^{(i)})
\]

dw = X.dot((A - Y).T) / m

db = np.sum(A - Y) / m

3.3 更新 `w` , `b`

w = w - learning_rate * dw

b = b - learning_rate * db

4. 预测测试集

使用训练出来的 w , b , 对测试集使用 y_pred = sigmoid(wx+b) , 计算得预测的概率
对其取整, 例如大于0.7则判定为 '是', 否则为'否'.

5. 实例：实现一个图像识别算法

https://www.cnblogs.com/douzujun/p/10267165.html

Coursera Deep Learning笔记逻辑回归典型的训练过程的更多相关文章

Coursera Deep Learning笔记改善深层神经网络：超参数调试正则化以及梯度相关
笔记:Andrew Ng's Deeping Learning视频参考:https://xienaoban.github.io/posts/41302.html 参考:https://blog.cs ...
Coursera Deep Learning笔记改善深层神经网络：超参数调试 Batch归一化 Softmax
摘抄:https://xienaoban.github.io/posts/2106.html 1. 调试(Tuning) 超参数取值 #学习速率:$\alpha$ Momentum:\(\bet ...
Coursera Deep Learning笔记改善深层神经网络：优化算法
笔记:Andrew Ng's Deeping Learning视频摘抄:https://xienaoban.github.io/posts/58457.html 本章介绍了优化算法,让神经网络运行的 ...
Coursera Deep Learning笔记深度卷积网络
参考 1. Why look at case studies 介绍几个典型的CNN案例: LeNet-5 AlexNet VGG Residual Network(ResNet): 特点是可以构建很深 ...
Coursera Deep Learning笔记序列模型（二）NLP & Word Embeddings(自然语言处理与词嵌入)
参考 1. Word Representation 之前介绍用词汇表表示单词,使用one-hot 向量表示词,缺点:它使每个词孤立起来,使得算法对相关词的泛化能力不强. 从上图可以看出相似的单词分布距 ...
Coursera Deep Learning笔记结构化机器学习项目（下）
参考:https://blog.csdn.net/red_stone1/article/details/78600255https://blog.csdn.net/red_stone1/article ...
Coursera Deep Learning笔记序列模型（一）循环序列模型[RNN GRU LSTM]
参考1 参考2 参考3 1. 为什么选择序列模型序列模型能够应用在许多领域,例如: 语音识别音乐发生器情感分类 DNA序列分析机器翻译视频动作识别命名实体识别这些序列模型都可以称作使用标 ...
Coursera Deep Learning笔记结构化机器学习项目（上）
参考:https://blog.csdn.net/red_stone1/article/details/78519599 1. 正交化(Orthogonalization) 机器学习中有许多参数.超参 ...
Coursera Deep Learning笔记卷积神经网络基础
参考1 参考2 1. 计算机视觉使用传统神经网络处理机器视觉的一个主要问题是输入层维度很大.例如一张64x64x3的图片,神经网络输入层的维度为12288. 如果图片尺寸较大,例如一张1000x10 ...

随机推荐

NRF52832空中升级DFU
Secure DFU环境搭建升级原理,加密原理在此不做描述,详情参考http://www.cnblogs.com/iini/p/9314246.html 1.工具一览 gcc-arm-none-ea ...
【机器学习｜数学基础】Mathematics for Machine Learning系列之线性代数（1）：二阶与三阶行列式、全排列及其逆序数
@ 目录前言二阶与三阶行列式二阶行列式三阶行列式全排列及其逆序数全排列逆序数结语前言 Hello!小伙伴! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出- 自我介绍 ...
JS020. Array map()函数查到需要的元素时跳出遍历循环，不再执行到数组边界
Array.prototype.map() map( ) 方法创建一个新数组 *,其结果是该数组中的每个元素是调用一次提供的函数后的返回值 *.[ MDN / RUNOOB ] * map 添加 ...
VUE006. 前端跨域代理服务器ProxyTable概述与配置
概述使用 vue-cli 工具生成一个 vue 项目: vue init webpack my-project-vue 在生成的项目结构里,会有一个 index.js 文件.在这个文件里 ...
CSS滤镜让图片模糊（毛玻璃效果）
CSS代码: .blur { filter: url(blur.svg#blur); /* FireFox, Chrome, Opera */ -webkit-filter: blur(10px); ...
JS获取DOM元素的八种方法
JS获取DOM元素的方法(8种) 通过ID获取(getElementById) 通过name属性(getElementsByName) 通过标签名(getElementsByTagName) 通过类名 ...
leetcode-螺旋矩阵(指针）
给你一个 m 行 n 列的矩阵 matrix ,请按照顺时针螺旋顺序 ,返回矩阵中的所有元素. 示例 1: 输入:matrix = [[1,2,3],[4,5,6],[7,8,9]] 输出:[1,2 ...
CodeForce-807C Success Rate(二分数学)
Success Rate CodeForces - 807C 给你4个数字 x y p q ,要求让你求最小的非负整数b,使得 (x+a)/(y+b)==p/q,同时a为一个整数且0<=a< ...
彻底搞明白PHP中的include和require
在PHP中,有两种包含外部文件的方式,分别是include和require.他们之间有什么不同呢? 如果文件不存在或发生了错误,require产生E_COMPILE_ERROR级别的错误,程序停止运行 ...
安装配置环境 CUDA以及CUDNN tensorflow pytorch pip安装虚拟环境
1. 在win10中利用Anaconda直接安装tensorflow-gpu 不需要另行安装cuda cudnn 但是不知道电脑会自动适配所需的版本吗,不过把电脑显卡驱动更新一下,就都也可以了吧. ...

Coursera Deep Learning笔记 逻辑回归典型的训练过程