本周的主题是对象检测(object detection):不但需要检测出物体(image classification),还要能定位出在图片的具体位置(classification with localization),而且要能处理图片中的多个物体(detection). 1. 例子:无人驾驶中确定图片是否有1)行人:2)小汽车:3)摩托车,并用矩形标记出物体在图像中的位置(bx.by.bh.bw),如果三类目标都没有,则标记为4)背景.使用softmax分类这四种情况.这里只考虑每张图片最多有…
本周的主题是对象检测(object detection):不但需要检测出物体(image classification),还要能定位出在图片的具体位置(classification with localization),而且要能处理图片中的多个物体(detection). 1. 例子:无人驾驶中确定图片是否有1)行人:2)小汽车:3)摩托车,并用矩形标记出物体在图像中的位置(bx.by.bh.bw),如果三类目标都没有,则标记为4)背景.使用softmax分类这四种情况.这里只考虑每张图片最多有…
本周课程的主题是两大应用:人脸检测和风格迁移. 1. Face verification vs. face recognition Verification: 一对一的问题. 1) 输入:image, name/ID. 2) 输出:image是否对应这个name/ID. Recognition: 一对多的问题. 1) 数据库存了K个人. 2)输入:图片. 3)输出:如果图片中的人属于数据库,则输出ID:否则显示"not recognized". Verification是基础组建,正确…
1. 传统的边缘检测(比如Sobel)手工设计了3*3的filter(或者叫kernel)的9个权重,在深度学习中,这9个权重都是学习出来的参数,会比手工设计的filter更好,不但可以提取90度.0度的边缘,也可以提取出任意朝向的边缘(比如73度).把这9个权重当成参数的思想已经成为计算机视觉中最为有效的思想之一. 2. Padding 对于原始的卷积操作,原图分辨率为n*n,filter分辨率为f*f,则卷积后的结果是 (n-f+1)*(n-f+1).有两个缺点:1)每次卷积操作都会把图像缩…
1. 传统的边缘检测(比如Sobel)手工设计了3*3的filter(或者叫kernel)的9个权重,在深度学习中,这9个权重都是学习出来的参数,会比手工设计的filter更好,不但可以提取90度.0度的边缘,也可以提取出任意朝向的边缘(比如73度).把这9个权重当成参数的思想已经成为计算机视觉中最为有效的思想之一. 2. Padding 对于原始的卷积操作,原图分辨率为n*n,filter分辨率为f*f,则卷积后的结果是 (n-f+1)*(n-f+1).有两个缺点:1)每次卷积操作都会把图像缩…
1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中. 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based learning applied to document recognition,NG建议重点读II部分,泛读III部分):这个网络大概60k个参数.那个时期习惯于用average pooling(现在是max pooling),sigmoid/tanh(现在是ReLU),最后的分类函数现在已经不常用了(…
1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中. 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based learning applied to document recognition,NG建议重点读II部分,泛读III部分):这个网络大概60k个参数.那个时期习惯于用average pooling(现在是max pooling),sigmoid/tanh(现在是ReLU),最后的分类函数现在已经不常用了(…
1 引言 深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理.本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析. 目标检测可以理解为是物体识别和物体定位的综合,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置. 为了完成这两个任务,目标检测模型分为两类.一类是two-stage,将物体识别和物体定位分为两个步骤,分别完成,这一类的典型代表是R-CNN, fast R-CNN, faster-RCNN家族.他们识别…
来源 | Towards Data Science 整理 | 磐石 就在几天前,Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛.当今计算机视觉社区已经很长一段时间没有进行如此新的大规模竞赛,这对视觉研究者来说绝对是一个令人振奋的消息. 连续多年ImageNet一直是计算机视觉领域的"黄金标准型"竞赛,并且吸引了大量团队每年都参与竞争,以获得在ImageNet数据集上最低的错误率.同时,深度学习技术的突破更是使得图像识别任务…
前言 目录: RNN提出的背景 - 一个问题 - 为什么不用标准神经网络 - RNN模型怎么解决这个问题 - RNN模型适用的数据特征 - RNN几种类型 RNN模型结构 - RNN block - 简化符号表示 - stacked RNN - 双向RNN - 梯度消失爆炸问题 GRU模型结构 LSTM模型结构 - LSTM背后的关键思想 - Step by Step理解LSTM 本文可以解答: RNN用来解决什么问题,什么样的数据特征适合用它来解决 ​RNN的缺陷是什么,LSTM,GRU是如何…