http://www1.inf.tu-dresden.de/~ds24/lehre/ml_ws_2013/ml_11_hinge.pdf Two extremes: • Big…
在该文章的两大创新点:一个是PReLU,一个是权值初始化的方法.下面我们分别一一来看. PReLU(paramter ReLU) 所谓的PRelu,即在 ReLU激活函数的基础上加入了一个参数,看一个图就明白了: 右边的图上多了一个参数吧,在负半轴上不再为0,而是一个可以学习的斜率.  很容易明白.实验结果显示该方法可以提高识别率. 权值初始化的方法: 对于文中的权值初始化问题:主要思想是跟随了"Xavier"的初始化的思想,研究了第一层layer的响应的 variance.下面的推导…
Python的开源人脸识别库:离线识别率高达99.38%   github源码:https://github.com/ageitgey/face_recognition#face-recognition 以往的人脸识别主要是包括人脸图像采集.人脸识别预处理.身份确认.身份查找等技术和系统.现在人脸识别已经慢慢延伸到了ADAS中的驾驶员检测.行人跟踪.甚至到了动态物体的跟踪.由此可以看出,人脸识别系统已经由简单的图像处理发展到了视频实时处理.而且算法已经由以前的Adaboots.PCA等传统的统计…
Python的开源人脸识别库:离线识别率高达99.38%(附源码) 转https://cloud.tencent.com/developer/article/1359073   11.11 智慧上云 云服务器企业新用户优先购,享双11同等价格 立即抢购 在这篇文章中: 人脸识别的过程 人脸识别分类 DeepFace 1.DeepFace的基本框架 2. 验证 3. 实验评估 以往的人脸识别主要是包括人脸图像采集.人脸识别预处理.身份确认.身份查找等技术和系统.现在人脸识别已经慢慢延伸到了ADAS…
 OCR(Optical character recognition) —— 光学字符识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向.可惜国内的科研院所,基本没有几个高识别率的训练集——笔者联系过北京语言大学研究生一篇论文的作者,他们论文说有%90的正确识别率,结果只做了20个笔画简单的汉字(20/6753 = %0.3 常用简体汉字的千分之三),然后找了20个学生,各自手写了一遍.真的是为了论文而论文,而且很会选择样本(小而简单)…
前言 无论是在工作还是日常生活中,我们都会经常遇到,需要将一些纸质资料上的文字内容变成电子文档进行编辑.这个时候就需要拥有一款好用的手机扫描+OCR文字识别功能的应用了. 随着人工智能的兴起,我们都在追求让工作更简单化,而OCR识别技术的广泛应用也让从事文字工作的人更加轻松. 众所周知,OCR识别是扫描软件最核心的技术,那什么是OCR?引用维基百科的概念,OCR即是光学字符识别(Optical Character Recognition),是指对文本资料的图像文件进行分析识别处理,获取文字及版面…
本文是对tesseract-ocr 使用的进一步技术升级说明,使用默认的识别库识别率比较低怎么办? 不用着急,tesseract-ocr本身的工具中提供了使用你提供的素材进行人工修正以提高识别率的方法.下面我们就来看一下. 参考: http://my.oschina.net/lixinspace/blog/60124 1    下载并安装3.02版本的tesseract 2     如果你的训练素材是很多张非tiff格式的图片,首先要做的事情就是将这么图片合并(个人觉得素材越多,基本每个字母和数…
最近项目中用到二维码图片识别,在python下二维码识别,目前主要有三个模块:zbar .zbarlight.zxing. 1.三个模块的用法: #-*-coding=utf-8-*- import os import logging import zbar from PIL import Image import zxing import random import zbarlight logger=logging.getLogger(__name__) if not logger.handl…
最近的一个Android需要用到扫码功能,用的是Zxing开源库.Zxing的集成就不说了,但是Zxing默认的是横屏扫码,在实际生产中并不适用,需要改为竖屏扫描. 转竖屏步骤: 1>. AndroidManifest.xml中把activity标签CaptureActivity部分的screenOrientation改为portrait. android:screenOrientation="portrait" 2>. CameraManager类中的getFraming…
java文字识别程序的关键是寻找一个可以调用的OCR引擎.tesseract-ocr就是一个这样的OCR引擎,在1985年到1995年由HP实验室开发,现在在Google.tesseract-ocr 3.0发布,支持中文.不过tesseract-ocr 3.0不是图形化界面的客户端,别人写的FreeOCR图形化客户端还不支持导入新的 3.0 traineddata.但这标志着,现在有自由的中文OCR软件了. java中使用tesseract-ocr3.01的步骤如下: 1.下载安装tessera…
1.背景 前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语言库,来提高验证码识别率. 2.准备工具 tesseract样本训练有一个官方流程说明,https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract#run-tesseract-for-training,不过都是英文的,个人认为这…
大家都说gabor做人脸识别是传统方法中效果最好的,这几天就折腾实现了下,网上的python实现实在太少,github上的某个版本还误导了我好几天,后来采用将C++代码封装成dll供python调用的方式,成功解决. 图像经多尺度多方向的gabor变换后,gabor系数的数目成倍上升,所以对gabor系数必须进行降维才能送至后续的SVM分类器.测试图像使用att_faces数据集(40种类型,每种随机选5张训练,5张识别),降维方式我测试了DCT.PCA两种变换方式,说实话,dct不怎么靠谱,居…
Python3.x:pytesseract识别率提高(样本训练) 1,下载并安装3.05版本的tesseract 地址:https://sourceforge.net/projects/tesseract-ocr/ 2,如果你的训练素材是很多张非tif格式的图片,首先要做的事情就是将这么图片合并(个人觉得素材越多,基本每个字母和数字都覆盖了训练出来的识别率比较好) 下载这个工具:VietOCR.NET-3.3.zip 地址:http://sourceforge.net/projects/viet…
0.目标 很多特殊场景,原生的字库识别率不高,这时候就需要根据需求自己训练字库生成traineddata文件. 一.前期准备工作 1.安装jdk   用于运行jTessBoxEditor 2.安装jTessBoxEditor   用于调整图片上文字的内容和位置 3. 安装tesseract5.0 jdk下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html jTessBox…
基于Python的开源人脸识别库:离线识别率高达99.38%——新开源的用了一下感受一下 原创 2017年07月28日 21:25:28 标签: 人脸识别 / 人脸自动定位 / 人脸识别开源库 / face-recog   该项目是要构建一款免费.开源.实时.离线的网络 app,支持组织者使用人脸识别技术或二维码识别所有受邀人员. 有了世界上最简单的人脸识别库,使用 Python 或命令行,即可识别和控制人脸. 该库使用 dlib 顶尖的深度学习人脸识别技术构建,在户外脸部检测数据库基准(Lab…
pytesseract 识别率低提升方法 一.跟换识别语言包 下载地址https://github.com/tesseract-ocr/tessdata 二.修改图片的灰度 from PIL import Image from PIL import ImageEnhance import pytesseract img = Image.open('sanyecao.jpg') img = img.convert('RGB') #这里也可以尝试使用L enhancer = ImageEnhance…
一.Face Recognition软件包 我们的人脸识别基于face_recognition库.face_recognition基于dlib实现,用深度学习训练数据,模型准确率高达99.38%. 人脸数字化 人脸识别的第一步是检测照片中的人脸区域,然后将人脸的图像数据转换成一个长度为128的向量,这128个数据代表了人脸的128个特征指标,如下所示 1.安装Face Recognition软件包 使用python虚拟环境进行安装.现有一个mysuperset的python3.6虚拟环境,进入虚…
项目地址:https://github.com/ageitgey/face_recognition#face-recognition 本文的模型使用了C++工具箱dlib基于深度学习的最新人脸识别方法,基于户外脸部数据测试库Labeled Faces in the Wild 的基准水平来说,达到了99.38%的准确率. dlib:http://dlib.net/ 数据测试库Labeled Faces in the Wild:http://vis-www.cs.umass.edu/lfw/ 模型提…
import cv2from PIL import Imagefrom pytesseract import pytesseractfrom PIL import ImageEnhanceimport reimport string def createFile(filePath,newFilePath): img = Image.open(filePath) # 模式L”为灰色图像,它的每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度. Img = img.conver…
这里采用循环resize的方式,对二维码图像进行放缩. 识别到name(二维码结果)不为空,则立即退出循环 //循环识别 for (int i = 1;name.empty(); i++){ resize(mat, mat, Size(mat.cols*1.5, mat.rows*1.5)); name = QRCodeScanner::scanQRCode(0, mat); if (i >= 5 && name.empty()) name = "二维码识别失败"…
一.准备工作 需要的文件 tif文件和box文件. 如果你打标打好了,但是是分批次打标的,那么可以合并字库,我们最初只需要 tif 和 box 文件,如下: 二.生成对应的 .tr 训练文件 根据不同的tif文件依次使用下面这个命令 tesseract qyc.word.exp4.tif qyc.word.exp4 nobatch box.train 完成后效果是这样的,每个组合都会有一个对应的 .tr 文件 三.从所有文件中提取字符 unicharset_extractor fst.word.…
这里翻译下<Deep face recognition: a survey v4>. 1 引言 由于它的非侵入性和自然特征,人脸识别已经成为身份识别中重要的生物认证技术,也已经应用到许多领域,如军事,进入,公共安全和日常生活.FR自然在CVPR会议中也占据了十分长的时间.早在1990年代,随着特征脸的提出[157],FR就成为了一个比较热门的研究领域.过去基于特征进行FR的里程碑方法在图1中有所展示 如图1所示,其中介绍了4个主流技术的发展过程: holistic 方法:通过某种分布假设去直接…
一.WHAT 论文下载地址:License Plate Detection and Recognition in Unconstrained Scenarios [pdf] github 的项目地址:alpr-unconstrained 数据集: http://www.inf.ufrgs.br/~crjung/alpr-datasets. 工程主页:alpr-datasets 视频效果: Demi Lovato Rock in Riio Lisboa 2018 本文选自ECCV2018的论文<L…
论文标题: 来源/作者机构情况: Northwestern University Thirty-Second AAAI Conference on Artificial Intelligence, 2018, (2018) 作者链接: https://www.mccormick.northwestern.edu/research-faculty/directory/profiles/forbus-ken.html 解决问题/主要思想贡献: 使用骨架模型来做动作识别,提高可解释性 成果/优点: 1…
Motivation: 步态可被当作一种可用于识别的生物特征在刑侦或者安全场景发挥重要作用.但是现有的方法要么是使用步态模板(能量图与能量熵图等)导致时序信息丢失,要么是要求步态序列连续,导致灵活性差.这篇文章是将步态当成包含独立帧的集合,不要求帧的排列顺序甚至可以把不同场景下的视频帧整合在一起. Method:  问题定义:给定一个有N个人的数据集$y_{i}, i \in 1,2,...,N$, 我们假定某个人的步态遮罩属于分布$\mathcal{P}_{i}$,这是个只与行人身份有关的量.…
由Andrew Zisserman 教授主导的 VGG 的 ILSVRC 的大赛中的卷积神经网络取得了很好的成绩,这篇文章详细说明了网络相关事宜. 文章主要干了点什么事呢?它就是在在用卷积神经网络下,在采用小的卷积核与小的移动步长的情况下,探索一下网络的深度对目标识别率的影响. 网络的大体结构 网络的输入为224*224的RGB图片,后面跟卷积层,卷积核的大小基本都为3*3有最小的可以保留图片空间分瓣率的卷积核,步长为1个像素,偶尔会有1*1的卷积核,这就相当于加入了一个非线性变换而已.再往后接…
Author: Yu-Gang Jiang, Shih-Fu Chang 事件检测的目标就是自动识别给定视频序列中的感兴趣事件.进行视频事件检测通常很困难,特别是在网络中非限制的视频.在非限制情况下,视频质量可能很差,包括严重的相机移动,弱光,背景干扰和遮挡等.但是,随着视频数量的急剧增长,人们急需寻找一个有效的方法对视频事件进行检测识别.我们将探讨视频事件检测中常用的特征,模型,数据集以及评价标准.最后,给出视频事件检测中未来仍需探索的方向. #@author: gr #@date: 2015…
HResults计算字错率(WER).句错率(SER) 前言 好久没发文,看到仍有这么多关注的小伙伴,觉得不发篇文对不住.确实好久没有输出经验总结相关的文档,抽了个时间,整理了下笔记,发一篇关于ASR常用测试指标.比如字错率.句错率指标,以及计算工具HResults的使用篇,后续慢慢找时间输出一些人工智能领域,小白可理解可用的基础知识,或者整理一些其他笔记发一发. 转载说明 本文为原创文章,如需转载,请在开篇显著位置注明作者Findyou和出处 一.基础概念 1.1.语音识别(ASR) 语音识别…
人工智能这个词可谓是耳熟能详,近几年人工智能热潮再次席卷而来,引起轰动的要数google的AlphaGo,相继打败了围棋界的韩国选手李世石以及世界冠军柯洁,见证了人工智能发展的里程碑式的变革,人工智能再度引起了众人的关注. (此图来自网页http://mini.eastday.com/mobile/171107214414785.html里面,如有侵权,请联系小编及时清除) 人工智能当然不止会下棋这么简单,其实在20年前,智能家居的开发就有不少团队在进行,只是切入点不对,所以一直没有什么起色,现…
目标检测---搬砖一个ALPR自动车牌识别的环境 参考License Plate Detection and Recognition in Unconstrained Scenarios@https://www.cnblogs.com/greentomlee/p/10863363.html@https://github.com/sergiomsilva/alpr-unconstrained 环境The current version was tested in an Ubuntu 16.04 m…