1、同文章中建议的使用ubuntu-python隔离环境,真的很好用

参照:http://blog.topspeedsnail.com/archives/5618
启动虚拟环境:
source env/bin/activate
退出虚拟环境:
deactivate
注意:下面的操作全部都要在隔离环境中完成
2、搭建虚拟环境
pip install -r(requests)应该是安装request中所有的包
pip install Cython == 0.26
sudo apt-get install python3-dev
editdistance == 0.3.13、

3、

参照,编译百度warpctc
http://blog.csdn.net/amds123/article/details/73433926
git clone
https://github.com/baidu-research/warp-ctc.git

cd warp-ctc
mkdir build
cd build
cmake ..
make
sudo make install

执行文章中snt-orc
mxnet/metrics/ctc` and run `python setup.py build_ext --inplace`

4、
编译MXNET:
git clonr --recursive mxnet
cd mxnet
git tag
git checkout v0.9.3
按照论文中的方法编译失败,只能下载新版本编译
新版本编译步骤参考:https://www.bbsmax.com/A/A7zgqGk54n/
安装依赖:
$ sudo apt-get install -y build-essential git

$ sudo apt-get install -y libopenblas-dev

$ sudo apt-get install -y libopencv-dev

git clone --recursive https://github.com/dmlc/mxnet.git
cd mxnet
cp make/*.ck ./(编译选项文件)
vim *(按需修改编译文件)文章要求加入warpctc
https://mxnet.incubator.apache.org/tutorials/speech_recognition/baidu_warp_ctc.html
make -j4

5、
编译python接口参照
http://blog.csdn.net/zziahgf/article/details/72729883
编译 MXNet的Python API:
安装所需包
sudo apt-get install -y python-dev python-setuptools python-numpy
cd python
sudo python setup.py install

6、
下载stn-orc网络:https://github.com/Bartzi/stn-ocr
这个网络感觉跟FCN使用差不多,应该不需要什么格外操作

7、
下载model
https://bartzi.de/research/stn-ocr
中的文本识别:会有model文件夹,测试数据集
model文件夹中有两个文件
*.params是模型文件,*.json应该是网络描述文件
测试数据集中有图片文件夹,gt文件,还有一个不知道是什么用
还需要一个文件stn-orc网络中data文件对应‘文本’中应有个char_map文件,后面需要
模型预测代码就是stn-orc文件下的eva的py代码,看名字就知道,不过由于之前下载的是新版本,跟文中不同,所以使用这里的py文件没有运行成功,仿照文件自己写了一个简单的测试文件:

import matplotlib.pyplot as plt

import argparse
import csv
import json
import os
from collections import namedtuple from PIL import Image import editdistance
import mxnet as mx
import numpy as np from callbacks.save_bboxes import BBOXPlotter
from metrics.ctc_metrics import strip_prediction
from networks.text_rec import SVHNMultiLineCTCNetwork
from operations.disable_shearing import *
from utils.datatypes import Size Batch = namedtuple('Batch', ['data']) #后缀都不能加的,程序自己添加,似乎同时加载两个文件
sym,arg_params,aux_params = mx.model.load_checkpoint('./testxt/model/model',2)
#这里面应该是训练的参数
#print(arg_params)
net, loc, transformed_output, size_params = SVHNMultiLineCTCNetwork.get_network((1,1,64,200),Size(50,50),46,2,23)
output = mx.sym.Group([loc, transformed_output, net]) #靠 在这里预定义的话,TMD,soft 层怎么办?
mod = mx.mod.Module(output,context=mx.cpu(),data_names=['data',
'softmax_label',
'l0_forward_init_h_state',
'l0_forward_init_c_state_cell',
'l1_forward_init_h_state',
'l1_forward_init_c_state_cell' ],label_names=[])
mod.bind(for_training=False,grad_req='null',data_shapes=[
('data',(1,1,64,200)),
('softmax_label', (1,23)),
('l0_forward_init_h_state', (1, 1, 256)),
('l0_forward_init_c_state_cell', (1, 1, 256)),
('l1_forward_init_h_state', (1, 1, 256)),
('l1_forward_init_c_state_cell', (1, 1, 256))
])
arg_params['l0_forward_init_h_state'] = mx.nd.zeros((1, 1, 256))
arg_params['l0_forward_init_c_state_cell'] = mx.nd.zeros((1, 1, 256))
arg_params['l1_forward_init_h_state'] = mx.nd.zeros((1, 1, 256))
arg_params['l1_forward_init_c_state_cell'] = mx.nd.zeros((1, 1, 256))
mod.set_params(arg_params, aux_params) #看看怎么加载label
#一个映射文件,类似caffe中的label,在下面循环中用到
with open('/home/lbk/python-env/stn-ocr/mxnet/testxt/ctc_char_map.json') as char_map_file:
char_map = json.load(char_map_file)
reverse_char_map = {v: k for k, v in char_map.items()}
print(len(reverse_char_map)) with open('/home/lbk/python-env/stn-ocr/mxnet/testxt/icdar2013_eval/one_gt.txt') as eval_gt:
reader = csv.reader(eval_gt,delimiter=';')
for idx,line in enumerate(reader):
file_name = line[0]
label = line[1].strip()
gt_word = label.lower()
print(gt_word)
#这一步又是干什么的
#dict.get(key,default)查找,不存在返回default
label = [reverse_char_map.get(ord(char.lower()),reverse_char_map[9250]) for char in gt_word]
label+=[reverse_char_map[9250]]*(23-len(label))
#print(label)
the_image = Image.open(file_name)
the_image = the_image.convert('L')
the_image = the_image.resize((200,64), Image.ANTIALIAS)
image = np.asarray(the_image, dtype=np.float32)[np.newaxis, np.newaxis, ...]
image/=255
temp = mx.nd.zeros((1,1,256))
label = mx.nd.array([label])
image = mx.nd.array(image)
print(type(temp),type(label))
input_batch = Batch(data=[image,label,temp,temp,temp,temp]) mod.forward(input_batch,is_train=False)
print(len(mod.get_outputs()))
print('0000',mod.get_outputs()[2])
predictions = mod.get_outputs()[2].asnumpy()
predicted_classes = np.argmax(predictions,axis=1)
print(len(predicted_classes))
print(predicted_classes) predicted_classes = strip_prediction(predicted_classes, int(reverse_char_map[9250]))
predicted_word = ''.join([chr(char_map[str(p)]) for p in predicted_classes]).replace(' ', '')
print(predicted_word) distance = editdistance.eval(gt_word, predicted_word)
print("{} - {}\t\t{}: {}".format(idx, gt_word, predicted_word, distance)) results = [prediction == label for prediction, label in zip(predicted_word, gt_word)]
print(results)

  

补充:
学习MXNET:
http://www.infoq.com/cn/articles/an-introduction-to-the-mxnet-api-part04
http://blog.csdn.net/yiweibian/article/details/72678020
http://ysfalo.github.io/2016/04/01/mxnet%E4%B9%8Bfine-tune/
http://shuokay.com/2016/01/01/mxnet-memo/

OCR光学字符识别--STN-OCR 测试的更多相关文章

  1. Ocrad.js – JS 实现 OCR 光学字符识别

    Ocrad.js 相当于是 Ocrad 项目的纯 JavaScript 版本,使用 Emscripten 自动转换.这是一个简单的 OCR (光学字符识别)程序,可以扫描图像中的文字回文本. 不像 G ...

  2. 非黑即白--谷歌OCR光学字符识别

    # coding=utf-8 #非黑即白--谷歌OCR光学字符识别 # 颜色的世界里,非黑即白.computer表示深信不疑. # 今天研究一下OCR光学识别庞大领域中的众多分支里的一个开源项目的一个 ...

  3. [Xcode 实际操作]七、文件与数据-(22)使用OCR光学字符识别技术识别银行卡号码

    目录:[Swift]Xcode实际操作 本文将演示如何使用光学字符识别技术,识别信用卡上的卡号. OCR技术是光学字符识别的缩写(Optical Character Recognition), 是通过 ...

  4. 6 个优秀的开源 OCR 光学字符识别工具

    转自:http://sigvc.org/bbs/thread-870-1-1.html 纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显 ...

  5. 开源OCR光学字符识别

    纸张在 许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形 ...

  6. IT行业新名词--透明手机/OCR(光学字符识别)/夹背电池

    透明手机 机身设计的一大关键部分是可替换玻璃的使用,利用导电技术,在看不到线路的环境下,让LED发光. 这样的玻璃内含液晶分子,对于内容的显示则是通过电流对分子的刺激来实现.当手机断电后,分子位置会随 ...

  7. 【OCR技术系列一】光学字符识别技术介绍

    注:此篇内容主要是综合整理了光学字符识别 和OCR技术系列之一]字符识别技术总览,详情见文末参考文献 什么是 OCR? OCR(Optical Character Recognition,光学字符识别 ...

  8. Tesseract:简单的Java光学字符识别

    1.1 介绍 开发具有一定价值的符号是人类特有的特征.对于人们来说识别这些符号和理解图片上的文字是非常正常的事情.与计算机那样去抓取文字不同,我们完全是基于视觉的本能去阅读它们. 另一方面,计算机的工 ...

  9. 光学字符识别OCR

    1.功能: 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程 2.典型应用: 名片扫描 3 ...

随机推荐

  1. SQL Server的WAITFOR DELAY注入

    SQL Server的WAITFOR DELAY注入   WAITFOR是SQL Server中Transact-SQL提供的一个流程控制语句.它的作用就是等待特定时间,然后继续执行后续的语句.它包含 ...

  2. Topcoder SRM 663 DIV 1

    ABBADiv1 题意: 规定两种操作,一种是在字符串的末尾添加A,另一种是在末尾添加B然后反转字符串.现在给你一个起始串,一个终点串,然后问你是否能够通过以上两种操作,从起始串变为终点串. 题解: ...

  3. [UR #3] 核聚变反应强度

    次大公约数就是gcd再除以其最小质因子(如果有的话).可以发现要求的sgcd 的前身gcd都是a1的约数,所以把a1质因数分解直接做就行了. #include<bits/stdc++.h> ...

  4. NOI模拟题6 Problem C: Circle

    Solution 首先这个矩阵, 很明显的就是Vandermonde矩阵. 我们有公式: \[ |F_n| = \prod_{1 \le j < i \le n} (a_i - a_j) \] ...

  5. 安卓Webview缓存网页数据(无网络正常显示)

    热度 1已有 52 次阅读2016-8-26 17:53 |个人分类:常见问题|系统分类:移动开发 一.需求经历 最近的项目是一个原生 +webview 显示的 APP,一开始的时候,网站那边要求我们 ...

  6. TOYS-POJ2318

    本题主要是确定给定的点在那块区域.原题给出n条直线,将长方形分为n+1快区域.我们可以对每个给定的点来判断它在那块区域,判段方法可以根据点与直线的位置关系,具体如下,对于点(x0,y0)和直线ax+b ...

  7. EasyMvc入门教程-基本控件说明(8)提醒导航

    提醒导航顾名思义就是提醒大家注意某些文字了..请看下面的例子: 实现代码如下: @Html.Q().BlockRemind().Text("我可以作为提醒使用") 有的同学会说:这 ...

  8. 2017.3.27 集成modeler后的一些主要路径(持续更新)

    1.设计器访问路径 项目名:wfs_web edtor-app和modeler.html的存放位置:webapp/designer/editor-app app-cfg.js中根路径设置:'conte ...

  9. GTD实用指南

    以前通过余弦大牛博客接触到了GTD, 后来我自己接触之后呢, 我是非常讨厌GTD的, 因为太功利化了 反人类 我还是比较懒得··· 可是最近事情真的比较多,不得不做GTD了 = =  郁闷! 时间管理 ...

  10. 5.2 calendar--通用日期的相关函数(3)

    prmonth(theyear, themonth, w=0, l=0) 打印指定年和月的日历.格式与formatmonth()函数一样. 样例: #python 3.4 import calenda ...