基于CNN网络的汉字图像字体识别及其原理

　　现代办公要将纸质文档转换为电子文档的需求越来越多，目前针对这种应用场景的系统为OCR系统，也就是光学字符识别系统，例如对于古老出版物的数字化。但是目前OCR系统主要针对文字的识别上，对于出版物的版面以及版面文字的格式的恢复，并没有给出相应的解决方案。对于版面恢复中主要遇到的困难是文字字体的恢复。对于汉字字体识别问题，目前主要有几种方法，但是都是基于人工特征提取的方法。以往的方法主要分为两大类，第一种为整体分析法，将一整片数据看做采用小波纹理分析抽取字体特征用于分类；使用滤波器提取文字的全局文字特征作为分类特征；使用小波包做多级分解，提取字体纹理特征的方法了；使用人工经验方式提取特征。可以看到这些方法都有一个重要的缺陷，如果一个文字整个版面含有不同的字体信息，这种场景就不能采用整体分析法。第二种为个体分析法，个体分析法对象为单个字符图像，依然采用小波分解提取特征。这种方法需要知道单个汉字的图像，对于现代出版物的识别系统中，可以很容易得到单个汉字的图像。很显然这种方法可以解决整体法不能解决文字中夹杂其他字符比如英文的情况。另外有人提出特征点的方法来处理汉字字体识别，但是特征点的提取也是有问题，因为定义提取的特征需要人为干预。
　　由此可见，在考察完整体法和个体法来看，个体法明显更灵活并适用于多种情况。但是应该看到传统方法基本上都是采用图像处理的方法，计算复杂度都很高。另外不同汉字的外形差异是不一样的，而采用图像处理的方法往往不能有效解决这个问题。
　　综上所述，我们可以看到传统汉字字体识别方法的不足，因为汉字字符的复杂性，特征提取方法不能处理多变的汉字外形，特征点提取方法需要人工专家定义重要的特征点位置。而且，对于哪些特征点重要也不能给出统一的标准。故而基于CNN网络的字体识别方法可以靠卷积核以及池化层，自动生成特征，这就避免人为特征提取上的不稳定性以及盲点。我们通过计算机内嵌的字体生成实验数据，然后训练CNN深度学习网络。最终实现结果显示出了良好的稳定性，较高的正确率，一次训练多次使用等通用性好的优点。
　　与传统特征提取方法不同，卷积神经网络通过卷积核提取特征，每一个神经元和前一层的局部感受区域相连，通过卷积核计算局部特征。以卷积窗口的移动生成特征平面，每一个特征平面共享一个卷积核，做到权值共享，降低了权值的数量的优点。CNN网络主要用于识别二维图像，由于共享权值采用监督学习的方式得到。所以避免了人为提取特征，故而CNN具备从训练数据中学习共享权值的优点。通常CNN网络分为多层，其中一种叫卷基层，一种叫池化层，卷基层和池化层可以有多个。分别用于特征的提取和特征参数的处理。

基于CNN网络的汉字图像字体识别及其原理的更多相关文章

[Python]基于CNN的MNIST手写数字识别
目录一.背景介绍 1.1 卷积神经网络 1.2 深度学习框架 1.3 MNIST 数据集二.方法和原理 2.1 部署网络模型 (1)权重初始化 (2)卷积和池化 (3)搭建卷积层1 (4)搭建卷积 ...
【python / mxnet / gluoncv / jupyter notebook】基于mxnet和gluoncv的图像内容识别
程序环境为高性能集群:CPU:Intel Xeon Gold 6140 Processor * 2(共36核心)内存:512GB RAMGPU:Tesla P100-PCIE-16GB * 2 In ...
卷积神经网络（CNN）学习算法之----基于LeNet网络的中文验证码识别
由于公司需要进行了中文验证码的图片识别开发,最近一段时间刚忙完上线,好不容易闲下来就继上篇<基于Windows10 x64+visual Studio2013+Python2.7.12环境下的C ...
基于LeNet网络的中文验证码识别
基于LeNet网络的中文验证码识别由于公司需要进行了中文验证码的图片识别开发,最近一段时间刚忙完上线,好不容易闲下来就继上篇<基于Windows10 x64+visual Studio2013 ...
MINIST深度学习识别：python全连接神经网络和pytorch LeNet CNN网络训练实现及比较（三）
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 在前两篇文章MINIST深度学习识别:python全连接神经网络和pytorch LeNet CNN网 ...
OverFeat：基于卷积网络的集成识别、定位与检测
摘要:我们提出了一个使用卷积网络进行分类.定位和检测的集成框架.我们展示了如何在ConvNet中有效地实现多尺度和滑动窗口方法.我们还介绍了一种新的深度学习方法,通过学习预测对象边界来定位.然后通过边 ...
数据挖掘入门系列教程（十二）之使用keras构建CNN网络识别CIFAR10
简介在上一篇博客:数据挖掘入门系列教程(十一点五)之CNN网络介绍中,介绍了CNN的工作原理和工作流程,在这一篇博客,将具体的使用代码来说明如何使用keras构建一个CNN网络来对CIFAR-10数 ...
Java基于opencv实现图像数字识别(五)—投影法分割字符
Java基于opencv实现图像数字识别(五)-投影法分割字符水平投影法 1.水平投影法就是先用一个数组统计出图像每行黑色像素点的个数(二值化的图像): 2.选出一个最优的阀值,根据比这个阀值大或小 ...
Java基于opencv实现图像数字识别(四)—图像降噪
Java基于opencv实现图像数字识别(四)-图像降噪我们每一步的工作都是基于前一步的,我们先把我们前面的几个函数封装成一个工具类,以后我们所有的函数都基于这个工具类这个工具类呢,就一个成员变量 ...

随机推荐

ffplay源码分析3-代码框架
ffplay是FFmpeg工程自带的简单播放器,使用FFmpeg提供的解码器和SDL库进行视频播放.本文基于FFmpeg工程4.1版本进行分析,其中ffplay源码清单如下: https://gith ...
Linux入门练习2
export命令用来设置环境变量. 使用单引号时,变量不会被扩展,将依照原样显示.示例: 如果变量未定义过,则什么都不打印: 获得变量值长度识别当前所使用得shell: 检查是否为超级用户: UID ...
JavaScript实现二叉树算法
二叉树的遍历方式分别为中序遍历(左子树->当前节点->右子树).前序遍历(当前节点->左子树->右子树).后序遍历(左子树->右子树->当前节点).下面使用Jav ...
jQuery.Ajax()执行WCF Service的方法
Insus.NET有在上一篇<ASP.NET MVC呼叫WCF Service的方法>http://www.cnblogs.com/insus/p/3720547.html 直接呼叫WCF ...
Linux安装redis和部署
第一步:下载安装包访问https://redis.io/download 到官网进行下载.这里下载最新的4.0版本. 第二步:安装 1.通过远程管理工具,将压缩包拷贝到Linux服务器中,执行解压 ...
@ModelAttribute注解详解
@ModelAttribute注解详解 1.@ModelAttribute定义: 被该注解定义的方法,会在该方法所在的controller的任何目标方法执行之前执行 2.@ModelAttribute ...
python-备忘录模式
源码地址:https://github.com/weilanhanf/PythonDesignPatterns 说明: 一个成熟的软件应当允许用户取消不确定的操作或者从错误的状态中恢复过来.复制,粘体 ...
python实现贪婪算法解决01背包问题
一.背包问题 01背包是在M件物品取出若干件放在空间为W的背包里,每件物品的体积为W1,W2至Wn,与之相对应的价值为P1,P2至Pn.01背包是背包问题中最简单的问题.01背包的约束条件是给定几种物 ...
js-权威指南学习笔记19.2
1.jQuery动画是异步的,会立刻返回,但动画会在后台执行,可传入函数作为动画完成的回调函数. 2.jQuery动画默认是队列化的. 3.stop()方法接受两个可选的布尔值参数,如果第一个参数是t ...
KeyPress 和KeyDown 、KeUp之间的区别
前几天,在写完一个功能模块上线测试的时候,出现了一个诡异的问题.input 框在输入查询内容之后,按回车键居然有两种不同的表现形式(input 框没有绑定键盘事件),谷歌和火狐功能正常,但IE在按了回 ...

基于CNN网络的汉字图像字体识别及其原理

基于CNN网络的汉字图像字体识别及其原理的更多相关文章

随机推荐

热门专题