嵌入式设备上卷积神经网络推理时memory的优化

以前的神经网络几乎都是部署在云端(服务器上),设备端采集到数据通过网络发送给服务器做inference(推理),结果再通过网络返回给设备端.如今越来越多的神经网络部署在嵌入式设备端上,即inference在设备端上做.嵌入式设备的特点是算力不强.memory小.可以通过对神经网络做量化来降load和省memory,但有时可能memory还吃紧,就需要对神经网络在memory使用上做进一步优化.本文就以一维卷积神经网络为例谈谈怎么来进一步优化卷积神经网络使用的memory. 文章(卷积神经网络中一…

Local Binary Convolutional Neural Networks ---卷积深度网络移植到嵌入式设备上？

前言:今天他给大家带来一篇发表在CVPR 2017上的文章. 原文:LBCNN 原文代码:https://github.com/juefeix/lbcnn.torch 本文主要内容:把局部二值与卷积神经网路结合,以削减参数,从而实现深度卷积神经网络端到端的训练,也就是未来嵌入式设备上跑卷积效果将会越来越好. 主要贡献: 提出一种局部二值卷积(LBC)可以用来替代传统的卷积神经网络的卷积层,这样设计的灵感来自于局部二值模式(LBP).LBC主要由一个预先定义好的稀疏二值卷积滤波器,这个滤波器在整个…

嵌入式设备上的 Linux 系统开发

转载:http://www.ibm.com/developerworks/cn/linux/embed/embdev/index.html 如果您刚接触嵌入式开发,那么大量可用的引导装载程序(bootloader).规模缩小的分发版(distribution).文件系统和 GUI 看起来可能太多了.但是这些丰富的选项实际上是一种恩赐,允许您调整开发或用户环境以完全符合您的需要.对 Linux 嵌入式开发的概述将帮助您理解所有这些选项. 3 评论: Anand K Santhanam, 软件工…

MNIST数据集上卷积神经网络的简单实现（使用PyTorch)

设计的CNN模型包括一个输入层,输入的是MNIST数据集中28*28*1的灰度图两个卷积层, 第一层卷积层使用6个3*3的kernel进行filter,步长为1,填充1.这样得到的尺寸是(28+1*2-3)/1+1=28,即6个28*28的feature map 在后面进行池化,尺寸变为14*14 第二层卷积层使用16个5*5的kernel,步长为1,无填充,得到(14-5)/1+1=10,即16个10*10的feature map 池化后尺寸为5*5 后面加两层全连接层,第一层将16*5*5…

用Qemu模拟vexpress-a9 （七） --- 嵌入式设备上安装telnet服务

转载: http://blog.csdn.net/liuqz2009/article/details/6921789 Telnet协议是登陆远程网络主机最简单的方法之一,只是安全性非常低.对target board来说,必须执行telnet监控程序,这样才可以远程登陆到target board.同时,如果想从开发板通过telnet远程登陆其他host,就需要具备telent client. 在嵌入式Linux系统上的telnet的工具有: ·telnet client busy…

嵌入式设备上运行AllJoyn注意事项

1. 交叉编译AllJoyn库.编译成功后的文件位于:alljoyn-3.3.0-src\build\linux\arm\debug\dist\目录下: 2. 程序要使用AllJoyn,必须要启动alljoyn-daemon程序,位于:alljoyn-3.3.0-src\build\linux\arm\debug\dist\bin\alljoyn-daemon.使用如下命令启动: #./alljoyn-daemon --no-bt --no-ice & 注意: (1) 必须使用“--no-bt…

嵌入式Linux设备驱动程序：在运行时读取驱动程序状态

嵌入式Linux设备驱动程序:在运行时读取驱动程序状态 Embedded Linux device drivers: Reading driver state at runtime 在运行时了解驱动程序一旦有了一个正在运行的Linux系统,了解哪些设备驱动程序被加载以及它们处于什么状态是很有用的.通过阅读/proc和/sys中的文件可以发现很多信息. 首先,您可以通过读取/proc/devices列出当前加载和激活的字符和块设备驱动程序: # cat /proc/devices Chara…

轻量级卷积神经网络——MobileNet

谷歌论文题目: MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 其他参考: CNN模型之MobileNet Mobilenet网络的理解轻量化网络:MobileNet-V2 Tensorflow实现参考: https://github.com/Zehaos/MobileNet 前言: 目前,CNN以及其他神经网络正在飞速发展与应用,为了追求高准确率,网络模型的深度和复杂度越来越…

FFMPEG在嵌入式硬件上应用之 —— 基本环境搭建及编译

前段时间在翻看电脑里面资料时,发现了以前做的在嵌入式硬件上面运行以ffmepg为基础,以嵌入式硬件解码的多媒体播放工作,发现都快忘记完了.今日得闲整理温习了一下ffmpeg在嵌入式上的运用,这里给大家分享一下,顺便做了一下记录以备以后使用时参考. 本文(记录)与目前网上很多关于ffmpeg的文章相比有两个特点: 一.重点不在于ffmpeg的解码部分(这个本来是ffmpeg最大的亮点),为什么?前面说了,这是我以前工作的一个整理.况且关于ffmpeg的解码相关文章非常多了,如果大家感兴趣的话,可以…

在嵌入式设备中使用 JavaScript 的前景

by Conmajia PC上的JavaScript已经发展到ECMAScript 6(ES6),马上ES10都快出来了(虽然还是草案),但是硬件上的JS却很少听说.这几年手持设备/可穿戴设备的发展非常快,可以说快到令人发指.以ARM为主的嵌入式CPU几年前运行gingerbread都还卡的不行,现在已经845.855,3GHz主频起步,轻松秒杀一票PC了.既然硬件这么强,那么我就有了在嵌入式设备里玩JavaScript的可能,并且我坚信它一定是可行的,于是我找权威人士咨询了一下. ▲ 仙人指路…

嵌入式Linux上通过boa服务器实现cgi/html的web上网【转】

转自:http://blog.csdn.net/tianmohust/article/details/6595996 版权声明:本文为博主原创文章,未经博主允许不得转载. 嵌入式Linux上通过boa服务器实现cgi/html的web上网简介: 第一步 Boa程序的移植 1．下载Boa源码 2.生成Makefile文件 3.修改Makefile文件 4.编译第二步 Boa的配置第三步boa的执行 1．将根文系统ramdisk在电脑主机上mount &nda 嵌入式linux上通过boa服务…

CNN学习笔记：卷积神经网络

CNN学习笔记:卷积神经网络卷积神经网络基本结构卷积神经网络是一种层次模型,其输入是原始数据,如RGB图像.音频等.卷积神经网络通过卷积(convolution)操作.汇合(pooling)操作和非线性激活函数的映射等一系列操作的层层堆叠,将高层语义信息逐层由原始信息中抽取出来,逐层抽象. 将信息逐渐抽象出来的过程称为前馈运算(Feed-Forward).通过计算预测值与真实值之间的误差和损失,凭借反向传播算法(Back-Propagation algorithm)将误差或损失由最后一层逐…

在嵌入式设备中实现webrtc的第三种方式①

最近两年,我对于网络知识,包括底层协议学习比较多,webrtc这种几乎是使用到了所有层面网络协议的技术也逐渐进入我的视野. 之前我提出了两种在嵌入式设备上实现webrtc的方式,一是用官方代码,然后改编译链,但是这条路是留给c++高玩的,因为它的代码是用最新的c++17写的,你必须重写adm(Audio Device Manager),我其实根本不会c++,平时只是改改同事的代码,所以路是断的:第二种是使用janus(实际上用到的就一两百行代码,我是直接参考webrtcgateway)和rtcd…

动手实现CNN卷积神经网络

数据集采用的是手写数据集(http://yann.lecun.com/exdb/mnist/): 本文构建的CNN网络图如下: 像素点:28*28 = 784,55000张手写数字图片. # -*- coding: UTF-8 -*- import numpy as np import tensorflow as tf # 下载并载入 MNIST 手写数字库(55000 * 28 * 28)55000 张训练图像 from tensorflow.examples.tutorials.mnist…

『TensorFlow』读书笔记_进阶卷积神经网络_分类cifar10_上

完整项目见:Github 完整项目中最终使用了ResNet进行分类,而卷积版本较本篇中结构为了提升训练效果也略有改动本节主要介绍进阶的卷积神经网络设计相关,数据读入以及增强在下一节再与介绍网络相关参数输入24*24的图片卷积->relu激活->最大池化->标准化卷积->relu激活->标准化->最大池化全连接:reshape尺寸->384 全连接:192->10 SoftMax 网络实现 git clone https://github.com/…

跟我学算法-图像识别之图像分类（上）(基础神经网络，卷积神经网络（CNN)， AlexNet，NIN, VGG）

1.基础神经网络: 输入向量x,权重向量w, 偏置标量b, 激活函数sigmoid(增加非线性度) 优化手段: 梯度下降优化, BP向后传播(链式规则) 梯度下降优化: 1. 使用得目标函数是交叉熵 c = 1/nΣΣ[yj*lnaj^2 + (1-yj)*ln(1-aj^2)] yj表示得是样本标签, aj表示的是输出值 2.批量梯度下降:每次迭代一部分样本,进行参数跟新. 3. 随机梯度下降:每次迭代只选择单个样本 4. 梯度更新的方…

深度学习笔记 (二) 在TensorFlow上训练一个多层卷积神经网络

上一篇笔记主要介绍了卷积神经网络相关的基础知识.在本篇笔记中,将参考TensorFlow官方文档使用mnist数据集,在TensorFlow上训练一个多层卷积神经网络. 下载并导入mnist数据集首先,利用input_data.py来下载并导入mnist数据集.在这个过程中,数据集会被下载并存储到名为"MNIST_data"的目录中. import input_data mnist = input_data.read_data_sets('MNIST_data', one_hot=T…

C++卷积神经网络实例：tiny_cnn代码具体解释（8）——partial_connected_layer层结构类分析（上）

在之前的博文中我们已经将顶层的网络结构都介绍完毕,包括卷积层.下採样层.全连接层,在这篇博文中主要有两个任务.一是总体贯通一下卷积神经网络在对图像进行卷积处理的整个流程,二是继续我们的类分析.这次须要进行分析的是卷积层和下採样层的公共基类:partial_connected_layer. 一.卷积神经网络的工作流程首先给出经典的5层模式的卷积神经网络LeNet-5结构模型: 这是一个典型的卷积层-下採样层-卷积层-下採样层-卷积层-全连接层模式的CNN结构.接下里观察在我们的程序实例中对网络的…

在集群上运行caffe程序时如何避免Out of Memory

不少同学抱怨,在集群的GPU节点上运行caffe程序时,经常出现"Out of Memory"的情况.实际上,如果我们在提交caffe程序到某个GPU节点的同时,指定该节点某个比较空闲的gpu id,便可以避免"Out of Memory"的情况.步骤如下: 1. 在提交任务前,制作一个带有“nvidia-smi”命令的run_gpu.sh文件 #!/bin/bash #$ -V #$ -cwd #$ -j y #$ -S /bin/bash nvidia-smi…

jquery keyup 在IOS设备上输入中文时不触发

今天做一个异步查询功能的时候发现在IOS设备上查询中文时keyup没有触发,在其他设备上时可以的,后来在stackoverflow上找到下面这种解决方法,贴出来算是抛砖引玉了. $h_input.on('input paste', function() { /*省略*/ });…

吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（CNN）（上）

作者:szx_spark 1. Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十分方便,便于指出过滤器的位置. 在没有padding的情况下,经过卷积操作,输出的数据维度会减少.以二维卷积为例,输入大小 $n\times n$,过滤器大小$f\times f$,卷积后输出的大小为$(n-f+1)\times(n-f+1)$. 为了避免这种情况发生,可以采取paddi…

【Qt开发】【Linux开发】Qt程序在嵌入式设备（arm）上运行，鼠标擦除界面的解决方案

笔者最近想在arm开发板上,开发一个应用程序,经过网上查询发现qt作为跨平台开发软件很不错,于是便选择了qt开发,笔者的qt版本是4.8.6的.由于arm的主频太低,在arm上进行开发编译,效率会大大下降,因此选择了交叉编译.那么问题就来了: 在PC上编译好arm程序后,在arm上运行,运行参数为-qws,但是笔者郁闷的发现,界面上出现了两个鼠标.一个是qt自身的鼠标,另一个是系统的鼠标.当点击移动鼠标时,系统鼠标会擦除其他界面,而qt鼠标会擦除系统桌面. 笔者经过一系列的试验,发现出现,对于移…

Stanford CS231n实践笔记（课时14卷积神经网络详解上）

本课我们主要来研究一个"浏览器中的卷积神经网络" 这只是一个展示项目,但是能够帮助直观地看到一些东西地址:https://cs.stanford.edu/people/karpathy/convnetjs/demo/cifar10.html layer_defs = [];layer_defs.push({type:'input', out_sx:32, out_sy:32, out_depth:3});layer_defs.push({type:'conv', sx:5, filt…

【python实现卷积神经网络】上采样层upSampling2D实现

代码来源:https://github.com/eriklindernoren/ML-From-Scratch 卷积神经网络中卷积层Conv2D(带stride.padding)的具体实现:https://www.cnblogs.com/xiximayou/p/12706576.html 激活函数的实现(sigmoid.softmax.tanh.relu.leakyrelu.elu.selu.softplus):https://www.cnblogs.com/xiximayou/p/127130…

Caffe（卷积神经网络框架）介绍

Caffe(卷积神经网络框架)Caffe,全称Convolution Architecture For Feature Extraction caffe是一个清晰,可读性高,快速的深度学习框架.作者是贾扬清,加州大学伯克利的ph.D,现就职于FaceBook.caffe的官网是http://caffe.berkeleyvision.org/. Caffe是一个清晰而高效的深度学习框架,其作者是博士毕业于UC Berkeley的贾扬清,目前在Google工作. Caffe是纯粹的C++/CUDA…

经典卷积神经网络（LeNet、AlexNet、VGG、GoogleNet、ResNet）的实现（MXNet版本）

卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现. 其中文章详解卷积神经网络(CNN)已经对卷积神经网络进行了详细的描述,这里为了学习MXNet的库,所以对经典的神经网络进行实现~加深学习印象,并且为以后的使用打下基础.其中参考的为Gluon社区提供的学习资料~ 1.简单LeNet的实现 def LeNet(): """ 较早的卷积神经网络 :…

卷积神经网络学习笔记——轻量化网络MobileNet系列（V1，V2，V3）

完整代码及其数据,请移步小编的GitHub地址传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/DeepLearningNote 这里结合网络的资料和MobileNet论文,捋一遍MobileNet,基本代码和图片都是来自网络,这里表示感谢,参考链接均在后文.下面开始. MobileNet论文写的很好,有想法的可以去看一下,我这里提供翻译地址: 深度学习论文翻译解析(十七):MobileNets: Efficient Convolutional Ne…

嵌入式设备web服务器比较

目录(?)[-] Boa Thttpd Mini_httpd Shttpd Lighttpd Goahead AppWeb Apache 开发语言和开发工具结论备注现在在嵌入式设备中所使用的web服务器主要有:boa.thttpd.mini_httpd.shttpd.lighttpd.goaheand.appweb和apache等. Boa 1.介绍 Boa诞生于1991年,作者Paul Philips.是开源的,应用很广泛,特别适合于嵌入式设备,网上流行程度很广.它的官方网站说boa…

TensorFlow构建卷积神经网络／模型保存与加载／正则化

TensorFlow 官方文档:https://www.tensorflow.org/api_guides/python/math_ops # Arithmetic Operators import tensorflow as tf # 用 tf.session.run() 里 feed_dict 参数设置占位 tensor, 如果传入 feed_dict的数据与 tensor 类型不符,就无法被正确处理 x = tf.placeholder(tf.string) y = tf.placehol…

深度学习之卷积神经网络(CNN)详解与代码实现（一）

卷积神经网络(CNN)详解与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10430073.html 目录 1.应用场景 2.卷积神经网络结构 2.1 卷积(convelution) 2.2 Relu激活函数 2.3 池化(pool) 2.4 全连接(full connection) 2.5 损失函数(softmax_loss) 2.6 前向传播(forward propagation) 2.7 反向…

【嵌入式设备上卷积神经网络推理时memory的优化】的更多相关文章