本周的主题是对象检测(object detection):不但需要检测出物体(image classification),还要能定位出在图片的具体位置(classification with localization),而且要能处理图片中的多个物体(detection). 1. 例子:无人驾驶中确定图片是否有1)行人:2)小汽车:3)摩托车,并用矩形标记出物体在图像中的位置(bx.by.bh.bw),如果三类目标都没有,则标记为4)背景.使用softmax分类这四种情况.这里只考虑每张图片最多有…
本周的主题是对象检测(object detection):不但需要检测出物体(image classification),还要能定位出在图片的具体位置(classification with localization),而且要能处理图片中的多个物体(detection). 1. 例子:无人驾驶中确定图片是否有1)行人:2)小汽车:3)摩托车,并用矩形标记出物体在图像中的位置(bx.by.bh.bw),如果三类目标都没有,则标记为4)背景.使用softmax分类这四种情况.这里只考虑每张图片最多有…
本周课程的主题是两大应用:人脸检测和风格迁移. 1. Face verification vs. face recognition Verification: 一对一的问题. 1) 输入:image, name/ID. 2) 输出:image是否对应这个name/ID. Recognition: 一对多的问题. 1) 数据库存了K个人. 2)输入:图片. 3)输出:如果图片中的人属于数据库,则输出ID:否则显示"not recognized". Verification是基础组建,正确…
1. 传统的边缘检测(比如Sobel)手工设计了3*3的filter(或者叫kernel)的9个权重,在深度学习中,这9个权重都是学习出来的参数,会比手工设计的filter更好,不但可以提取90度.0度的边缘,也可以提取出任意朝向的边缘(比如73度).把这9个权重当成参数的思想已经成为计算机视觉中最为有效的思想之一. 2. Padding 对于原始的卷积操作,原图分辨率为n*n,filter分辨率为f*f,则卷积后的结果是 (n-f+1)*(n-f+1).有两个缺点:1)每次卷积操作都会把图像缩…
1. 传统的边缘检测(比如Sobel)手工设计了3*3的filter(或者叫kernel)的9个权重,在深度学习中,这9个权重都是学习出来的参数,会比手工设计的filter更好,不但可以提取90度.0度的边缘,也可以提取出任意朝向的边缘(比如73度).把这9个权重当成参数的思想已经成为计算机视觉中最为有效的思想之一. 2. Padding 对于原始的卷积操作,原图分辨率为n*n,filter分辨率为f*f,则卷积后的结果是 (n-f+1)*(n-f+1).有两个缺点:1)每次卷积操作都会把图像缩…
1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中. 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based learning applied to document recognition,NG建议重点读II部分,泛读III部分):这个网络大概60k个参数.那个时期习惯于用average pooling(现在是max pooling),sigmoid/tanh(现在是ReLU),最后的分类函数现在已经不常用了(…
1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中. 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based learning applied to document recognition,NG建议重点读II部分,泛读III部分):这个网络大概60k个参数.那个时期习惯于用average pooling(现在是max pooling),sigmoid/tanh(现在是ReLU),最后的分类函数现在已经不常用了(…
1. 本科的时候在多伦多大学上Geoffrey Hinton的课,在MNIST数字数据集上训练受限玻尔兹曼机,觉得很有趣.后来在UBC读硕士,上了另一门机器学习的课,那是他第一次深入了解神经网络的相关知识.他对人工智能很感兴趣,上了很多相关的课,但是对那些知识听不太懂,不是非常满意.他觉得神经网络才是AI,才是真正有趣的东西.于是他走上了这条路. 2. Karpathy认为神经网络是一种新的编程方式,我们定义好输入和输出,喂给程序很多例子,然后它会自动写程序. 3. NG觉得Karpathy对于…
1. 怀揣着对大脑如何存储记忆的好奇,Hinton本科最开始学习生物学和物理学,然后放弃,转而学习哲学:然后觉得哲学也不靠谱,转而学习心理学:然后觉得心理学在解释大脑运作方面也不给力,转而做了一段时间木匠(木匠?!木匠是什么鬼...要不要这么洒脱!),然后决定去试一试人工智能,跑去爱丁堡和Longuet Higgins学人工智能. (感觉Hinton一直带着兴趣和使命感,这是最终目的,而具体学科都只是手段,这个不行就换下一个,市面上找不到就自己造一个.想到现实中很多人因为本科填报了一个专业,就把…
1. 如何走上人工智能的研究的?Bengio说他小时候读了很多科幻小说,1985年(64年出生,21岁)研究生阶段开始阅读神经网络方面的论文,对这个领域产生了热情. 2. 如何看深度学习这些年的发展?Bengio说他们从实验.直觉入手,然后才提出理论,比如为什么反向传播有效,为什么深度这么重要.2000年开始研究深度神经网络的时候,他们只是很直觉的认为神经网络更深才会更强大,并不清楚怎么论证,最初的实验也没有成功. 3. 和30年前相比,有哪些东西是很重要的,它们后来被证明是以正确的,又有哪些最…
1. Ian Goodfellow之前是做神经科学研究,在斯坦福上了Andrew NG的课之后,Ian决定投身AI.在寒假他和小伙伴读了Hinton的论文,然后搭了一台用CUDA跑Boltzmann machine的电脑,然后他意识到深度学习是未来,因为他看了很多算法比如支持向量机,觉得它们不是那么靠谱. 2. Ian提出了生成对抗网络(GAN).他研究生成模型很久,非常了解其他框架的优缺点,像找一个可以同时避免所有现存算法缺点的算法.GAN是在有很多数据的基础上制造更多类似的数据. 3. 关于…
1. Pieter Abbeel小时候想做一个篮球运动员 - -!上学的时候喜欢数学和物理,上大学之后很自然的学工程.Pieter定义工程问题是"解决实际中应用物理和数学的问题".pieter电子工程系毕业的时候不知道该干嘛,因为所有的工程学科都很有趣.最后选择AI是因为他感觉AI是一切东西的核心,可以帮助所有学科. 2. Pieter Abbeel主要的贡献是在深度增强学习.在此之前,他研究了很多增强学习.他觉得传统增强学习的问题在于不但需要机器学习的知识,还需要特定领域的知识.20…
Ruslan Salakhutdinov一方面是苹果的研究主管,另一方面是CMU的教授. 1. Ruslan说自己进入深度学习完全是运气,他在多伦多大学读硕士,然后休学了一年,他在金融领域工作,那时候他不确定是否要去读个博士.有一天早晨,他在路上遇到了Geoffrey Hinton.Geoffrey Hinton跟他说他有个好点子,然后两个人一起散步讨论,Geoffrey介绍了玻尔兹曼机之类的东西,Ruslan说自己当时没听懂Geoffrey在说什么,但他听了觉得很激动...于是就跟着Geoff…
1 引言 深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理.本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析. 目标检测可以理解为是物体识别和物体定位的综合,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置. 为了完成这两个任务,目标检测模型分为两类.一类是two-stage,将物体识别和物体定位分为两个步骤,分别完成,这一类的典型代表是R-CNN, fast R-CNN, faster-RCNN家族.他们识别…
来源 | Towards Data Science 整理 | 磐石 就在几天前,Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛.当今计算机视觉社区已经很长一段时间没有进行如此新的大规模竞赛,这对视觉研究者来说绝对是一个令人振奋的消息. 连续多年ImageNet一直是计算机视觉领域的"黄金标准型"竞赛,并且吸引了大量团队每年都参与竞争,以获得在ImageNet数据集上最低的错误率.同时,深度学习技术的突破更是使得图像识别任务…
前言 目录: RNN提出的背景 - 一个问题 - 为什么不用标准神经网络 - RNN模型怎么解决这个问题 - RNN模型适用的数据特征 - RNN几种类型 RNN模型结构 - RNN block - 简化符号表示 - stacked RNN - 双向RNN - 梯度消失爆炸问题 GRU模型结构 LSTM模型结构 - LSTM背后的关键思想 - Step by Step理解LSTM 本文可以解答: RNN用来解决什么问题,什么样的数据特征适合用它来解决 ​RNN的缺陷是什么,LSTM,GRU是如何…
本篇文章被Google中国社区组织人转发,评价: 条理清晰,写的很详细! 被阿里算法工程师点在看! 所以很值得一看! 前言 目录: RNN提出的背景 - 一个问题 - 为什么不用标准神经网络 - RNN模型怎么解决这个问题 - RNN模型适用的数据特征 - RNN几种类型 RNN模型结构 - RNN block - 简化符号表示 - stacked RNN - 双向RNN - 梯度消失爆炸问题 GRU模型结构 LSTM模型结构 - LSTM背后的关键思想 - Step by Step理解LSTM…
卷积神经网络(Convolutional Neural Network,简称CNN),顾名思义,使用了卷积.不过,这里用到的卷积和数学中的不完全一致. 1.连续卷积 2.离散卷积 3.二维离散卷积 4.卷积的可交换性 5.卷积的互相关函数 参考链接: https://www.zhihu.com/question/22298352…
本文并不是详细介绍yolo工作原理以及改进发展的文章,只用做作者本人回想与提纲. 1.yolo是什么 输入一张图片,输出图片中检测到的目标和位置(目标的边框) yolo名字含义:you only look once 对于yolo这个神经网络: (Assume  s*s栅格, n类可能对象, anchor box数量为B) Input       448*448*3 Output     s*s*(5 * B +n)的tensor 2.CNN目标检测之yolo 在目标检测领域,DPM方法采用滑动窗…
目标检测--之RCNN 前言,最近接触到的一个项目要用到目标检测,还有我的科研方向caption,都用到这个,最近电脑在windows下下载数据集,估计要一两天,也不能切换到ubuntu下撸代码~.所以早上没事,我就把卷积神经网络用在目标检测的开山之作介绍下,后续他的孩子算法(fast-rcnn, faster-rcnn)我也会陆续介绍. RCNN 论文地址:Rich feature hierarchies for accurate object detection and semantic s…
一.目标定位 这一小节视频主要介绍了我们在实现目标定位时标签该如何定义. 上图左下角给出了损失函数的计算公式(这里使用的是平方差) 如图示,加入我们需要定位出图像中是否有pedestrian,car,motorcycles.注意在这里我们假设图像中只肯呢个存在这三者中的一种或者都不存在,所以共有四种可能. \(P_c=1\)表示有三者中的一种 \(C_1=1\)表示有pedestrian,反之没有 \(C_2=1\)表示有car \(C_3=1\)表示有motorcycles \(b_*\)用于…
作者:szx_spark 1. Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十分方便,便于指出过滤器的位置. 在没有padding的情况下,经过卷积操作,输出的数据维度会减少.以二维卷积为例,输入大小 \(n\times n\),过滤器大小\(f\times f\),卷积后输出的大小为\((n-f+1)\times(n-f+1)\). 为了避免这种情况发生,可以采取paddi…
神经网络和深度学习目前为处理图像识别的许多问题提供了最佳解决方案,而基于MTCNN(多任务级联卷积神经网络)的人脸检测算法也解决了传统算法对环境要求高.人脸要求高.检测耗时高的弊端. 基于MTCNN多任务级联卷积神经网络进行的人脸识别—— MTCNN主要包括三个部分,PNet,RNet,ONet 测试阶段大概过程 首先图像经过金字塔,生成多个尺度的图像,然后输入PNet. PNet由于尺寸很小,所以可以很快的选出候选区域,但是准确率不高,然后采用NMS算法,合并候选框,然后根据候选框提取图像.…
Google TensorFlow程序员点赞的文章!   前言 目录: - 向量表示以及它的维度 - rnn cell - rnn 向前传播 重点关注: - 如何把数据向量化的,它们的维度是怎么来的 - 一共其实就是两步: 单个单元的rnn计算,拉通来的rnn计算 ​ 在看本文前,可以先看看这篇文章回忆一下: 吴恩达deepLearning.ai循环神经网络RNN学习笔记(理论篇) 我们将实现以下结构的RNN,在这个例子中 Tx = Ty. 向量表示以及它的维度 Input with  nx …
这是一篇关于CNN入门知识的博客,基本手法是抄.删.改.查,就算是自己的一个笔记吧,以后忘了多看看.   1.边界检测示例假如你有一张如下的图像,你想让计算机搞清楚图像上有什么物体,你可以做的事情是检测图像的垂直边缘和水平边缘. 卷积计算可以得到图像的边缘,下图0表示图像暗色区域,10为图像比较亮的区域,同样用一个3*3过滤器,对图像进行卷积,得到的图像中间亮,两边暗,亮色区域就对应图像边缘.     通过以下的水平过滤器和垂直过滤器,可以实现图像水平和垂直边缘检测:   在卷积神经网络中把这些…
SSD: Single Shot MultiBox Detector 作者: Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg 引用: Liu, Wei, et al. "SSD: Single Shot MultiBox Detector." arXiv preprint arXiv:1512.02325 (2015).…
4.3目标检测 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.1目标定位 对象定位localization和目标检测detection 判断图像中的对象是不是汽车--Image classification 图像分类 不仅要判断图片中的物体还要在图片中标记出它的位置--Classification with localization定位分类 当图片中有 多个 对象时,检测出它们并确定出其位置,其相对于图像分类和定位分类来说强调一张图片中有 多个 对象--Detection目标检测…
一.计算机视觉 如图示,之前课程中介绍的都是64* 64 3的图像,而一旦图像质量增加,例如变成1000 1000 * 3的时候那么此时的神经网络的计算量会巨大,显然这不现实.所以需要引入其他的方法来解决这个问题. 二.边缘检测示例 边缘检测可以是垂直边缘检测,也可以是水平边缘检测,如上图所示. 至于算法如何实现,下面举一个比较直观的例子: 可以很明显的看出原来6 * 6的矩阵有明显的垂直边缘,通过3 * 3的过滤器(也叫做 "核")卷积之后,仍然保留了原来的垂直边缘特征,虽然这个边缘…
一.为什么要进行实例探究? 通过他人的实例可以更好的理解如何构建卷积神经网络,本周课程主要会介绍如下网络 LeNet-5 AlexNet VGG ResNet (有152层) Inception 二.经典网络 1.LeNet-5 该网络主要针对灰度图像训练的,用于识别手写数字. 该网络是在1980s提出的,当时很少用到Padding,所以可以看到随着网络层次增加,图像的高度和宽度都是逐渐减小的,深度则不断增加. 另外当时人们会更倾向于使用Average Pooling,但是现在则更推荐使用Max…
Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十分方便,便于指出过滤器的位置. 在没有padding的情况下,经过卷积操作,输出的数据维度会减少.以二维卷积为例,输入大小 \(n\times n\),过滤器大小\(f\times f\),卷积后输出的大小为\((n-f+1)\times(n-f+1)\). 为了避免这种情况发生,可以采取padding操作,padding的长度为…