使用TensorFlow进行训练识别视频图像中物体

本教程针对Windows10实现谷歌公布的TensorFlow Object Detection API视频物体识别系统，其他平台也可借鉴。

本教程将网络上相关资料筛选整合（文末附上参考资料链接），旨在为快速搭建环境以及实现视频物体识别功能提供参考，关于此API的更多相关信息请自行搜索。

注意： windows用户名不能出现中文！！！

安装Python

注意： Windows平台的TensorFlow仅支持3.5.X版本的Python

进入Python3.5.2下载页，选择 Files 中Windows平台的Python安装包，下载并安装。

安装TensorFlow

进入TensorFlow on Windows下载页，本教程使用最简便的组合 CPU support only + Native pip。

打开cmd，输入以下指令即进行TensorFlow的下载安装，下载位置为python\Lib\site-packages\tensorflow：

打开 IDLE，输入以下指令：

如果出现如下结果则安装成功：

若出现问题，请参考TensorFlow on Windows下载页底端的常见问题。

安装Protoc

Protoc用于编译相关程序运行文件，进入Protoc下载页，下载类似下图中带win32的压缩包。

解压后将bin文件夹内的protoc.exe拷贝到c:\windows\system32目录下（用于将protoc.exe所在的目录配置到环境变量当中）。

安装git

进入git官网下载Windows平台的git，详细安装及配置注意事项可参考此文。

安装其余组件

在cmd内输入如下指令下载并安装相关API运行支持组件：

注意： Native pip会受电脑中另外Python应用的影响，博主因为之前做仿真安装了Anaconda，导致下载的jupyter等相关组件安装到了Anaconda内的site-packages文件夹，后期调用失败。

下载代码并编译

在cmd中输入如下代码：

从github下载谷歌tensorflow/models的代码，一般默认下载到C盘。

同样在cmd进入到models文件夹，编译Object Detection API的代码：

运行notebook demo

继续在models文件夹下运行如下命令：

浏览器自动开启，显示如下界面：

进入object_detection文件夹中的object_detection_tutorial.ipynb：

点击Cell内的Run All，等待三分钟左右（博主电脑接近报废），即可显示如下结果：

修改文件路径，即可检测自己的图片：

注意：要将图片名称设置的和代码描述相符合，如image1.jpg

TensorFlow Object Detection API中提供了五种可直接调用的识别模型，默认的是最简单的ssd + mobilenet模型。

可直接将MODEL_NAME修改为如下值调用其他模型：

MODEL_NAME = 'ssd_inception_v2_coco_11_06_2017'

MODEL_NAME = 'rfcn_resnet101_coco_11_06_2017'

MODEL_NAME = 'faster_rcnn_resnet101_coco_11_06_2017'

MODEL_NAME = 'faster_rcnn_inception_resnet_v2_atrous_coco_11_06_2017'

将模型换为faster_rcnn_inception_resnet，结果如下：

准确率确实获得了极大提高，但是速度却下降了，在博主的老爷机上需要五分钟才能跑出结果。

视频物体识别

谷歌在github上公布了此项目的完整代码，接下来我们将在现有代码基础上添加相应模块实现对于视频中物体的识别。

第一步：下载opencv的cv2包

在Python官网即可下载opencv相关库，点击此处直接进入。

博主安装的版本如下：

下载完成后，在cmd中执行安装命令

pip install opencv_python-3.2.0.8-cp35-cp35m-win_amd64.whl

安装完成后，进入IDLE输入命令

import cv2

若未报错，则opencv-python库成功导入，环境搭配成功。

第二步：在原代码中引入cv2包

第三步：添加视频识别代码

主要步骤如下：

1.使用 VideoFileClip 函数从视频中抓取图片。

2.用fl_image函数将原图片替换为修改后的图片，用于传递物体识别的每张抓取图片。

3.所有修改的剪辑图像被组合成为一个新的视频。

在原版代码基础上，在最后面依次添加如下代码（可从完整代码处复制，但需要作出一些改变，当然也可以直接从下文复制修改后的代码）：

# Import everything needed to edit/save/watch video clips

import imageio

imageio.plugins.ffmpeg.download()

from moviepy.editor import VideoFileClip

from IPython.display import HTML

此处会下载一个剪辑必备的程序ffmpeg.win32.exe，内网下载过程中容易断线，可以使用下载工具下载完然后放入如下路径：

C:\Users\ 用户名 \AppData\Local\imageio\ffmpeg\ffmpeg.win32.exe

def detect_objects(image_np, sess, detection_graph):

    # Expand dimensions since the model expects images to have shape: [1, None, None, 3]

    image_np_expanded = np.expand_dims(image_np, axis=0)

    image_tensor = detection_graph.get_tensor_by_name('image_tensor:0')

    # Each box represents a part of the image where a particular object was detected.

    boxes = detection_graph.get_tensor_by_name('detection_boxes:0')

    # Each score represent how level of confidence for each of the objects.

    # Score is shown on the result image, together with the class label.

    scores = detection_graph.get_tensor_by_name('detection_scores:0')

    classes = detection_graph.get_tensor_by_name('detection_classes:0')

    num_detections = detection_graph.get_tensor_by_name('num_detections:0')

    # Actual detection.

    (boxes, scores, classes, num_detections) = sess.run(

        [boxes, scores, classes, num_detections],

        feed_dict={image_tensor: image_np_expanded})

    # Visualization of the results of a detection.

    vis_util.visualize_boxes_and_labels_on_image_array(

        image_np,

        np.squeeze(boxes),

        np.squeeze(classes).astype(np.int32),

        np.squeeze(scores),

        category_index,

        use_normalized_coordinates=True,

        line_thickness=8)

    return image_np

处理图像

def process_image(image):

    # NOTE: The output you return should be a color image (3 channel) for processing video below

    # you should return the final output (image with lines are drawn on lanes)

    with detection_graph.as_default():

        with tf.Session(graph=detection_graph) as sess:

            image_process = detect_objects(image, sess, detection_graph)

            return image_process

输入视频文件

white_output = 'video1_out.mp4'

clip1 = VideoFileClip("video1.mp4").subclip(25,30)

white_clip = clip1.fl_image(process_image) #NOTE: this function expects color images!!s

%time white_clip.write_videofile(white_output, audio=False)

其中video1.mp4已经从电脑中上传至object_detection文件夹，subclip（25,30）代表识别视频中25-30s这一时间段。

原版视频：

展示识别完毕的视频：

from moviepy.editor import *

clip1 = VideoFileClip("video1_out.mp4")

clip1.write_gif("final.gif")

将识别完毕的视频导为gif格式，并保存至object_detection文件夹。

至此，快速教程结束。各位应该都能使用谷歌开放的API实现了视频物体识别。

相关参考资料

知乎：何之源对于“谷歌开放的TensorFlow Object Detection API 效果如何？”的回答
林俊宇的博客：导入opencv-python库
myboyliu2007的专栏：ffmpeg安装方法
陈强：安装protocolbuffer详解
机器之心：如何使用TensorFlow API构建视频物体识别系统
windows安装git和环境变量配置

原创作者:withzheng，原文链接：https://blog.csdn.net/xiaoxiao123jun/article/details/76605928

欢迎关注我的微信公众号「码农突围」，分享Python、Java、大数据、机器学习、人工智能等技术，关注码农技术提升•职场突围•思维跃迁，20万+码农成长充电第一站，陪有梦想的你一起成长。

使用TensorFlow进行训练识别视频图像中物体的更多相关文章

Tensorflow Mask-RCNN训练识别箱子的模型运行结果（练习）
Tensorflow Mask-RCNN训练识别箱子的模型
AMAP-TECH算法大赛开赛！基于车载视频图像的动态路况分析
阿里巴巴高德地图AMAP-TECH算法大赛于7月8日开启初赛,赛题为「基于车载视频图像的动态路况分析」,活动邀请了业界权威专家担任评委,优秀选手不仅可以瓜分丰厚的奖金,领取荣誉证书,还有机会进入高德地 ...
Python使用tesserocr识别文字过程中遇到的一个问题
最近在使用Python识别PNG图像中包含的文字时遇到一个问题.解决过程记录如下. (Python使用tesserocr的安装过程不再描述.) 在使用tesserocr识别PNG图像中的文字时,如果P ...
谷歌开源的TensorFlow Object Detection API视频物体识别系统实现教程
视频中的物体识别摘要物体识别(Object Recognition)在计算机视觉领域里指的是在一张图像或一组视频序列中找到给定的物体.本文主要是利用谷歌开源TensorFlow Object De ...
对于谷歌开源的TensorFlow Object Detection API视频物体识别系统实现教程
本教程针对Windows10实现谷歌近期公布的TensorFlow Object Detection API视频物体识别系统,其他平台也可借鉴. 本教程将网络上相关资料筛选整合(文末附上参考资料链接) ...
使用 Python 识别并提取图像中的文字
1. 介绍介绍使用 python 进行图像的文字识别,将图像中的文字提取出来,可以帮助我们完成很多有趣的事情. 2. 必备工具 tesseract-ocr 下载地址: https://github. ...
从视频文件中读入数据-->将数据转换为灰度图-->对图像做canny边缘检测-->将这三个结构显示在一个图像中
//从视频文件中读入数据-->将数据转换为灰度图-->对图像做canny边缘检测-->将这三个结构显示在一个图像中 //作者:sandy //时间:2015-10-10 #inclu ...
Zybo智能小车识别图像中的文字
智能小车识别图像中的文字 [TOC] 运行平台这次的内容是基于Xilinx公司的Zybo开发板以及其配套的Zrobot套件开发 Zybo上面的sd卡搭载了Ubuntu12.04LTS的linux版本 ...
[SimplePlayer] 1. 从视频文件中提取图像
在开始之前,我们需要了解视频文件的格式.视频文件的格式众多,无法三言两语就能详细分析其结构,尽管如此,ffmpeg却很好地提取了各类视频文件的共同特性,并对其进行了抽象描述. 视频文件格式,统称为co ...

随机推荐

__filename意思
__filename 表示当前正在执行的脚本的文件名.它将输出文件所在位置的绝对路径,且和命令行参数所指定的文件名不一定相同. 如果在模块中,返回的值是模块文件的路径.
Dungeon Master （三维ＢＦＳ）
题目: You are trapped in a 3D dungeon and need to find the quickest way out! The dungeon is composed o ...
Python不使用元类创建缓存实例
问题当创建类实例时我们想返回一个缓存引用,让其指向上一个用同样参数(如果有的话)创建出来的类实例. 这个问题常常出现在当我们想确保针对一组输入参数只会有一个类实例存在时. 解决方法: 使用一个与类本 ...
Android--MediaPlayer(实现列表选歌，上一首，下一首，清空播放列表，搜索本地音乐文件)
Android--MediaPlayer(实现列表选歌,上一首,下一首,清空播放列表,搜索本地音乐文件) 下载链接:http://download.csdn.net/detail/zlqqhs/507 ...
mongodb游标快照
示例代码 1. 初始数据 > db.snapshot_test.find() { "_id" : ObjectId("560ba37c694895b2de42254 ...
一个很粗糙的XXXX
改dnsrecon的代码改来改去都获取不到想要的结果,也不知道是不是py中的正则和PHP的有神马不一样的地方,但是用RegexBuddy测的时候是正确的,想不通啊想不通.果断不改了,自己动手PHP ...
VMWare vCenter 4.x 数据库由SQL Express 迁移至SQL Server 2008 R2
默认安装下的 VMware vCenter 4.x 会在本地安装 SQL Express 2005 版本,如果你有需要迁移至 Full SQL Server版本比如 SQL Server 2008 R ...
PHP manual-mysqli-connections-翻译
PHP manual-mysqli-connections MySQL服务器支持使用不同的传输层进行连接. 连接可以使用TCP / IP,Unix域套接字或Windows命名管道. 主机名localh ...
Docker实战之Redis-Cluster集群
概述接上一篇Docker实战之MySQL主从复制, 这里是Docker实战系列的第二篇,主要进行Redis-Cluster集群环境的快速搭建.Redis作为基于键值对的NoSQL数据库,具有高性能. ...
使用Taiko + Gauge进行自动化测试（一）
目录初识Taiko 环境安装尝试Taiko taiko 执行过程结合Gauge编写用例使用Gauge 总结初识Taiko 先来了解一下什么是Taiko:"Taiko是一个免费的开源 ...

使用TensorFlow进行训练识别视频图像中物体

使用TensorFlow进行训练识别视频图像中物体的更多相关文章

随机推荐

热门专题