CNN如何识别一幅图像中的物体

让我们对卷积神经网络如何工作形成更好直观感受。我们先看下人怎样识别图片，然后再看 CNNs 如何用一个近似的方法来识别图片。

比如说，我们想把下面这张图片识别为金毛巡回犬。

一个需要被识别为金毛巡回犬的图片

人类是怎么做的呢？

一种做法是我们识别狗的特定部位，例如鼻子，眼睛，毛发。我们把图片分成小片，识别小片，然后把这些结合在一起，得到一个狗的概念。

这种情况下，我们可以把图片分成下列组合：

一个鼻子
两只眼睛
金色毛发

如下图所示：

狗的眼睛

狗的鼻子

狗的毛发

再进一步

再进一步来说，我们如何确定鼻子在哪呢？一个金毛巡回犬的鼻子可以看出是一个椭圆形，有两个黑洞在里面。因此，一种辨别巡回犬鼻子的方法是把它分割更小的区域，寻找黑洞（鼻孔）和椭圆的曲线。如下所示：

一个可以用来确定鼻子的曲线

用来分类狗鼻子的鼻孔

广义上来说，这就是 CNN 的学习方式。它学习识别基本的直线，曲线，然后是形状，点块，然后是图片中更复杂的物体。最终 CNN 分类器把这些大的，复杂的物体综合起来识别图片。

在我们的例子中，层级关系是：

简单的形状，如椭圆，暗色圆圈
复杂的物体（简单形状的组合），例如眼睛，鼻子，毛发
狗的整体（复杂物体的组合）

有了深度学习，我们不需要设定 CNN 来识别特定的特征。相反，CNN 通过正向和反向传播，自己学习识别上述物体。

尽管我们从来没有让 CNN 寻找特定的特征信息，但是它识别图片的能力却好的惊人！

对狗图片每一层 CNN 可能识别物体的示意图

CNN 可能有几层网络，每个层可能捕获对象抽象层次中的不同级别。第一层是抽象层次的最底级，CNN 一般把图片中的较小的部分识别成简单的形状，例如水平、竖直的直线，简单的色块。下一层将会上升到更高的抽象层次，一般会识别更复杂的概念，例如形状（线的组合），以此类推直至最终识别整个物体，例如狗。

再次强调，CNN 是自主学习。我们不需要告诉 CNN 去寻找任何直线、曲线、鼻子、毛发等等。CNN 从训练集中学习并发现金毛巡回犬值得寻找的特征。

CNN如何识别一幅图像中的物体的更多相关文章

使用 Python 识别并提取图像中的文字
1. 介绍介绍使用 python 进行图像的文字识别,将图像中的文字提取出来,可以帮助我们完成很多有趣的事情. 2. 必备工具 tesseract-ocr 下载地址: https://github. ...
（转）使用Python和OpenCV检测图像中的物体并将物体裁剪下来
原文链接:https://blog.csdn.net/liqiancao/article/details/55670749 介绍硕士阶段的毕设是关于昆虫图像分类的,代码写到一半,上周五导师又给我新的 ...
OpenCV，计算两幅图像的单应矩阵
平面射影变换是关于其次3维矢量的一种线性变换,可以使用一个非奇异的$3 \times 3$矩阵H表示,$X' = HX$,射影变换也叫做单应(Homography).计算出两幅图像之间的单应矩阵H,那 ...
Zybo智能小车识别图像中的文字
智能小车识别图像中的文字 [TOC] 运行平台这次的内容是基于Xilinx公司的Zybo开发板以及其配套的Zrobot套件开发 Zybo上面的sd卡搭载了Ubuntu12.04LTS的linux版本 ...
利用百度文字识别API识别图像中的文字
本文将会介绍如何使用百度AI开放平台中的文字识别服务来识别图片中的文字.百度AI开放平台的访问网址为:http://ai.baidu.com/ ,为了能够使用该平台提供的AI服务,你需要事先注册一 ...
OpenCV_contrib里的Text(自然场景图像中的文本检测与识别)
平台:win10 x64 +VS 2015专业版 +opencv-3.x.+CMake 待解决!!!Issue说明:最近做一些字符识别的事情,想试一下opencv_contrib里的Text(自然场景 ...
从单一图像中提取文档图像：ICCV2019论文解读
从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...
用python简单处理图片（4）：图像中的像素访问
前面的一些例子中,我们都是利用Image.open()来打开一幅图像,然后直接对这个PIL对象进行操作.如果只是简单的操作还可以,但是如果操作稍微复杂一些,就比较吃力了.因此,通常我们加载完图片后,都 ...
从视频文件中读入数据-->将数据转换为灰度图-->对图像做canny边缘检测-->将这三个结构显示在一个图像中
//从视频文件中读入数据-->将数据转换为灰度图-->对图像做canny边缘检测-->将这三个结构显示在一个图像中 //作者:sandy //时间:2015-10-10 #inclu ...

随机推荐

学习JDK1.8集合源码之--TreeMap
1. TreeMap简介 TreeMap继承自AbstractMap,实现了NavigableMap.Cloneable.java.io.Serializable接口.所以TreeMap也是一个key ...
python基础--模块的查找顺序以及相对导入和绝对导入
模块:模块是一系列功能的结合体模块的来源: 内置的模块(python解释器自带的) 第三方(开发者编写的模块) 自定义的模块(自己编写的模块) 模块的四种表现形式: 1.使用python编写的py文 ...
go语言：获取字符串长度
go语言字符串底层由字节数组实现,使用UTF-8编码,初始化以后不能被修改获取字符串长度一.当字符串中所有字符都是单字节字符时,使用 len 函数获取字符串的长度 package main imp ...
【CODEVS】2833 奇怪的梦境
2833 奇怪的梦境时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题目描述 Description Aiden陷入了一个奇怪的梦境:他被困在一个小房子中,墙上有很 ...
VMware ESXi 6.7服务器设置开机自动启动虚拟机
VMware ESXi 6.7服务器设置开机自动启动虚拟机,具体操作步骤如下 1.登陆到VMware ESXi 6.7 web 界面 2.导航器-->主机-->管理将自动启动修改为 ...
复习解析嵌套json
在网络上找的一些经典的例子复习使用一,解析嵌套json字符串,一个json字符串中嵌套另一个json字符串 { "msg": { "resCode": &qu ...
【JZOJ5093】【GDSOI2017第四轮模拟day3】字符串匹配哈希
题面对于一个字符集大小为C的字符串P,我们可以将任意两种字符在P中的位置进行互换,例如P=abcba,我们交换a,b就变为bacab,交换a,d就变为dbcbd,交换可以进行任意次.若交换后P变为了 ...
Linux下安装配置maven
参考博客: http://www.blogjava.net/caojianhua/archive/2011/04/02/347559.html 注意事项: 1.解压目录我的maven解压目录为: / ...
[LeetCode] Evaluate Reverse Polish Notation [2]
题目 Evaluate the value of an arithmetic expression in Reverse Polish Notation. Valid operators are +, ...
算法复杂度表示（大O表示法）
- 概念: 大O表示法:称一个函数g(n)是O(f(n)),当且仅当存在常数c>0和n0>=1,对一切n>n0均有|g(n)|<=c|f(n)|成立,也称函数g(n)以 ...

CNN如何识别一幅图像中的物体

再进一步

CNN如何识别一幅图像中的物体的更多相关文章

随机推荐

热门专题