光学字符识别OCR-8 综合评估

数据验证

尽管在测试环境下模型工作良好，但是实践是检验真理的唯一标准。在本节中，我们通过自己的模型，与京东的测试数据进行比较验证。
        衡量OCR系统的好坏有两部分内容：(1)是否成功地圈出了文字；(2)对于圈出来的文字，有没有成功识别。我们采用评分的方法，对每一张图片的识别效果进行评分。
       评分规则：如果圈出的文字区域能够跟京东提供的检测样本的box文件中匹配，那么加1分，如果正确识别出文字来，另外加1分，最后每张图片的分数是前面总分除以文字总数。
        按照这个规则，每张图片的评分最多是2分，最少是0分。如果评分超过1，说明识别效果比较好了。经过京东的测试数据比较，我们的模型平均评分大约是0.84，效果差强人意。

模型综述

在本文中，我们的目标是建立一个完整的OCR系统，经过一系列的工作，我们也基本完成了这一目标。
在设计算法时，我们紧密地结合基本假设，从模拟人肉眼的识别思路出发，希望能够以最少的步骤来实现目标，这种想法在特征提取和文字定位这两部分得到充分体现。同样地，由于崇尚简洁和模拟人工，在光学字符识别方面，我们选择了卷积神经网络模型，得到了较高的正确率；最后结合语言模型，通过动态规划用较简单的思路提升了效果。
经过测试，我们的系统对印刷文字的识别有着不错的效果，可以作为电商、微信等平台的图片文字识别工具。其中明显的特点是，我们的系统可以将整张文字图片输入，并且在分辨率不高的情况下能够获得较好的效果。

结果反思

在本文所涉及到的算法中，一个很大的不足之处就是有很多的“经验参数”，比如聚类时h参数的选择、低密度区定义中密度的阈值、卷积神经网络中的卷积核数据、隐藏层节点数目等。由于并没有足够多的标签样本进行研究，因此，这些参数都只能是凭借着经验和少量的样本推算得出。我们期待会有更多的标签数据来得到这些参数的最优值。
        还有，在识别文字区域方面，还有很多值得改进的地方。虽然我们仅仅是经过几个步骤就去掉了大部分的文字区域，但是这些步骤还是欠直观，亟待简化。我们认为，一个良好的模型应该是基于简单的假设和步骤就能得到不错的效果，因此，值得努力的工作之一就是简化假设，缩减流程。
         此外，在文本切割方面，事实上不存在一种能够应对任何情况的自动切割算法，因此这一步还有很大的提升空间。据相关文献，可以通过CNN+LSTM模型，直接对单行文本进行识别，但这需要大量的训练样本和高性能的训练机器，估计只有大型企业才能做到这一点。
        显然，还有很多工作都需要更深入地研究。

光学字符识别OCR-8 综合评估的更多相关文章

光学字符识别OCR
1.功能: 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程 2.典型应用: 名片扫描 3 ...
6 个优秀的开源 OCR 光学字符识别工具
转自:http://sigvc.org/bbs/thread-870-1-1.html 纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显 ...
开源OCR光学字符识别
纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计算机软件的帮助下,包含大量重要管理数据和资讯的文档可以更方便的以电子形 ...
字符识别OCR研究一（模板匹配&BP神经网络训练）
摘要在MATLAB环境下利用USB摄像头採集字符图像.读取一帧保存为图像.然后对读取保存的字符图像,灰度化.二值化,在此基础上做倾斜矫正.对矫正的图像进行滤波平滑处理,然后对字符区域进行提取切割出 ...
OCR技术浅探：语言模型和综合评估（4）
语言模型由于图像质量等原因,性能再好的识别模型,都会有识别错误的可能性,为了减少识别错误率,可以将识别问题跟统计语言模型结合起来,通过动态规划的方法给出最优的识别结果.这是改进OCR识别效果的重要方 ...
【OCR技术系列一】光学字符识别技术介绍
注:此篇内容主要是综合整理了光学字符识别和OCR技术系列之一]字符识别技术总览,详情见文末参考文献什么是 OCR? OCR(Optical Character Recognition,光学字符识别 ...
Ocrad.js – JS 实现 OCR 光学字符识别
Ocrad.js 相当于是 Ocrad 项目的纯 JavaScript 版本,使用 Emscripten 自动转换.这是一个简单的 OCR (光学字符识别)程序,可以扫描图像中的文字回文本. 不像 G ...
IT行业新名词--透明手机/OCR(光学字符识别)/夹背电池
透明手机机身设计的一大关键部分是可替换玻璃的使用,利用导电技术,在看不到线路的环境下,让LED发光. 这样的玻璃内含液晶分子,对于内容的显示则是通过电流对分子的刺激来实现.当手机断电后,分子位置会随 ...
非黑即白--谷歌OCR光学字符识别
# coding=utf-8 #非黑即白--谷歌OCR光学字符识别 # 颜色的世界里,非黑即白.computer表示深信不疑. # 今天研究一下OCR光学识别庞大领域中的众多分支里的一个开源项目的一个 ...

随机推荐

第一课：K线
1 K线是根据价格走势中形成的四个价位(开盘价.收盘价.最高价.最低价)绘制而成的.K线是最基本的描述股价涨跌的表现符号(记录某种股票一天的价格变动情况). K线构造的四个价格因素:开盘价 ...
FAST FW150R软件版本升级解决一些网页无法加载问题
家里用的移动宽带,通过无线路由器无线上网.上taobao.天猫都很快,但是一上京东.苏宁易购界面加载很慢,界面无法显示,怀疑是无线路由问题,然后直接通过网线相连接,发现问题消失,决定对无线路由软件版本 ...
Android 读取excel 文件
在面对选择国家地区,选择手机号码区号等信息的时候,常常我们是读取已存好的数据,我现在读取的就是excel里面的数据,所以在此记录下读取的方法以及注意点. 下面就是读取国际地区手机区号的数据效果图: e ...
android studio项目提交Git@OSC
转载地址:http://www.bubuko.com/infodetail-977061.html 先到git.oscchina.net网站上申请个账号,然后创建一个项目.过程不再说了. 新建工程后, ...
java面试题(杨晓峰)---以面试题为切入点,有效提升你的java内功
java是一门历史悠久的编程语言,可以毫无争议的说,java是最主流的编程语言之一.全球有1200万以上的java程序猿以及海量的设备,还有无所不能的java生态圈. 我所知道的诸如阿里,京东,百度, ...
CodeForces 66C Petya and File System （实现）
模拟题,map搞一搞.要想清楚一个结点应该是要通过一个字符串找到下一个结点,题目保证所以文件夹非空,所以只要判断一个结点是不是叶子结点就可以判断它是不是文件,用了点c11的特性. #include&l ...
UVA439 knightMoves (A*启发搜索)
第一个A*,纪念下. A*要保证最短路一定要估价函数小于等于实际值,越接近越好估价函数取Manhattan距离除以二. //Rey #include<cstdio> #include&l ...
[C++讨论课] 课堂记录（一）
今天第一次参加c++讨论课,记录下了各组同学的展示的问题或者解决方法,也有一些知识点上的内容,供以后复习参考. 1.常量指针和指针常量问题常量指针:指向常量的指针,例如const int *p = ...
Aho-Corasick自动机
在模式匹配问题中,如果模板有很多个,KMP算法就不太适合了.因为每次查找一个模板.都要遍历整个文本串.可不可以只遍历一次文本串呢?可以,方法是把所有模板组成一个大的状态转移图(称为$Aho-Coras ...
2018.2.14 Java中的哈夫曼编码
概念哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种.Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造 ...

光学字符识别OCR-8 综合评估

光学字符识别OCR-8 综合评估的更多相关文章

随机推荐

热门专题