使用Tesseract-OCR 做验证码识别浅析

使用工具jTessBoxEditor-0.7(这个是在java平台下开发的,所以它只支持java平台 ,在使用前应该先配置好java环境) tesseract

程序集(因为该程序集是在.net 2.0平台下开发的,所以只能支持到2.0 在使用时请注意(也可以自己去网上找别人用更高的版本编译好的)) tesseract-ocr-setup-3.01-1 使用开发语言.net 辅助工具 Visual Studio 至少能支持.net 2.0即可

首先,我们要找到自己需要做验证识别的验证码图片(因为只有图片才需要做些操作识别!!!!)或是别的需要识别的图片, 因为在要它能识别之前我们需要做一个用于识别时用的资料库(后面叫训练集),所以我们要收集大量的图片(尺寸大小尽量一致,有共同的特征才方便处理) 然后找出,图片中除了要用的内容之外的一些共同特征因为后面我们要把它干掉!

准备好图片之后 , 我们打开vs 来对这些图片做初步去噪处理(除我们需要的内容外的东西都认为是噪点),我以这种类型的验证码为例,先创建一个应用窗体或都可以,因为这里只是对图片做一个初步的处理,我们先使用

得到这个数组后,我们再使用循环遍历来处理,我们得到ma之后再对它来做处理首先我们如果放大的话可以看到这个图片边上的都是白色的,而中间组成文字的是黑色, 这是我们需要的, 而其它的杂色就有好几种为了偷下懒呢,我就先只去这三种主要的好了,这里之所以标出了RGB值是因为我们要用这些值来比较颜色再做替换的,这个我是用一个小工具来做的

另外我们一般是对一个新的图来作操作而不是改原图所以我们做以下操作因为上面三个去不尽所以我又多找了几个,并把边上的也干成白色了代码如下,这里是写的一个单独的方法

    private static Bitmap cor(Bitmap ma)

         {

             Bitmap bi = new Bitmap(ma.Width,ma.Height);

             for (int i = ; i < ma.Width; i++)

             {

                 for (int j = ; j < ma.Height; j++)

                 {

                     if (i==||j==||i==ma.Width-||j==ma.Height-)

                     {

                         bi.SetPixel(i,j,Color.White);

                         continue;

                     }

                     Color cl = ma.GetPixel(i,j);

                     if (cl.Equals(Color.FromArgb(, , )) ||

                        cl.Equals(Color.FromArgb(, , )) ||

                         cl.Equals(Color.FromArgb(, , )) ||

                         cl.Equals(Color.FromArgb(, , ))||

                         cl.Equals(Color.FromArgb(, , ))||

                         cl.Equals(Color.FromArgb(, , )))

                     {

                         bi.SetPixel(i, j, Color.White);

                     }

                     else

                     {

                         bi.SetPixel(i,j,cl);

                     }

                 }

             }

             return bi;

         }

   String [] files = Directory.GetFiles(@"E:\img\yb","*.gif");

           for (int i = ; i < files.Length; i++)

           {

               Bitmap bi = Image.FromFile(files[i]) as Bitmap;

               cor(bi).Save(@"E:\img\OK\" + i + ".tiff", ImageFormat.Tiff);

           }

           MessageBox.Show("OK");

//通过这个去掉用图片处理的方法

之后我们把新的图片保存在一个文件夹里,处理完好我们第一步的工作就做好了

那么我们开始第二步, (先确保已经搞定了java的运行环境)打开jTessBoxEditor-0.7这个工具jTessBoxEditor.jar这个文件! 然后选择我画起来那里

然后出现这个界面打开刚刚生成的图的文件夹,把图片全选打开,然后再保存到一个文件夹里去, (可以是同一个),然后就会生成一个包含了所有图片的tiff文件

我这里是做了100个样品图来做训练集的,然后我们再打这个文件导入到该软件中做校验(都要检验完哦!!!,如果没校验后面会出错的.出现找不到tr文件的错的时候你就回来看看),当我们做到这里的时候就完成一半了接下来需要先安装好tesseract-ocr-setup-3.01-1然后打开命令行也就是cmd

–tesseract.exe XX(刚刚合并的tif文件名) YY（新生成文件名）batch.nochop makebox // 下面的XX YY无论大写小的,都是和这里的一样,这里是YY那么下面也是YY要注意我做的时候用的YES

–xxYY 这两个文件名要保持一致此两处前后有空格注意这两文件要同名并在同一文件夹下

•然后打开jTessBoxEditor软件打开刚刚编辑好的tif文件，开始校正刚刚识别的box文件校正完后，保存再回到命令行执行

–tesseract.exe xx.tif yy nobatch box.train 如无报错继续执行

–unicharset_extractor.exe yy.box

–然后在同目录下新建一个名字为font_properties的文件（文本文件不保留后缀）然后在里面输入

–n 0 0 0 0 0

–命令行执行cntraining.exe yy.tr

–mftraining.exe -F font_properties -U unicharset YY.tr

为了时间我就只上一个图,因为我这不知道什么情况上图特慢

当上面的都执行完后如果没有报错那么在•把该目录下的unicharset， inttemp ，normproto， pfftable 这四个文件加上训练名前缀(就是你刚刚写的YY的那个)

•命令执行 combine_tessdata 训练名. 生成的训练名.traineddata就可以用来进行识别了

            OpenFileDialog fi = new OpenFileDialog();

            if (fi.ShowDialog()==DialogResult.OK)

            {

                Bitmap bi = cor((Bitmap) Image.FromFile(fi.FileName));

                TesseractProcessor p = new TesseractProcessor();

                p.SetPageSegMode(ePageSegMode.PSM_SINGLE_LINE);

                p.Init(@"E:\img\OK\","n",(int)eOcrEngineMode.OEM_DEFAULT);

             String s=   p.Recognize(bi);

             MessageBox.Show(s);

            }

上面是做识别块的代码Tesseractpocessor这是前面说要用到的那个程序集的在使用使要先导入,..

欢迎大家能共同探讨交流 QQ 315695792

使用Tesseract-OCR 做验证码识别浅析的更多相关文章

ubuntu 安装(install) pwntcha[一个做"验证码识别"的开源程序]
一.安装 1. sudo apt-get install libsdl1.2-dev libsdl1.2debian sudo apt-get install libsdl1.2-dev(比较大,10 ...
Mac python Tesseract 验证码识别
Tesseract 简介 Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体".不过这里要讲 ...
利用开源程序（ImageMagick+tesseract-ocr）实现图像验证码识别
--------------------------------------------------低调的分割线-------------------------------------------- ...
Pyhthon爬虫其之验证码识别
背景现在的登录系统几乎都是带验证手段的,至于验证的手段也是五花八门,当然用的最多的还是验证码.不过纯粹验证码识已经是很落后的东西了,现在比较多见的是滑动验证,滑动拼图验证(这个还能往里面加广告).点 ...
python3.7验证码识别MuggleOCR，为什么总是报错
先来看看MuggleOCR简介(白嫖)这是一个为麻瓜设计的本地OCR模块只需要简单几步操作即可拥有两大通用识别模块,让你在工作中畅通无阻. 这套模型是基于 https://github.com/ker ...
零OCR基础6行代码实现C#验证码识别
这两天因为工作需要,要到某个网站采集信息,一是要模拟登陆,二是要破解验证码,本想用第三方付费打码,但是想想网上免费的代码也挺多的,于是乎准备从网上撸点代码下来,谁知道,撸了好多个都不行,本人以前也没接 ...
ocr智能图文识别 tess4j 图文，验证码识别分享及所遇到的问题
自己对tess4j的使用总结 1,tess4j 封装了 tesseract-ocr 的操作可以用很简洁的几行代码就实现原本tesseract-ocr 复杂的实现逻辑如果你也想了解tesseract ...
ocr智能图文识别 tess4j 图文，验证码识别
最近写爬虫采集数据,遇到网站登录需要验证码校验,想了想有两种解决办法 1,利用htmlunit,将验证码输入到swing中,并弹出一个输入框,手动输入验证码,这种实现方式,如果网站需要登录一次可以使用 ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...

随机推荐

I/O：DataInput
DataInput: boolean readBoolean() :读取一个输入字节,如果该字节不是零,则返回 true,如果是零,则返回 false. byte readByte() :读取并返回一 ...
samrt210开发板ping-系列问题（开发板ping通主机，主机ping通虚拟机，唯独~开发板ping不通虚拟机）
硬件:PC机.虚拟机(Linux).开发板(smart210) 常用模型: 注:1).有线网卡与无线网不可同连一个路由器,不可在同网段: 2).vmware选择桥接模式,虚拟网络适配器选定具体的网卡名 ...
TensorFlow高效读取数据的方法——TFRecord的学习
关于TensorFlow读取数据,官网给出了三种方法: 供给数据(Feeding):在TensorFlow程序运行的每一步,让python代码来供给数据. 从文件读取数据:在TensorFlow图的起 ...
SpringBoot | 第三十八章：基于RabbitMQ实现消息延迟队列方案
前言前段时间在编写通用的消息通知服务时,由于需要实现类似通知失败时,需要延后几分钟再次进行发送,进行多次尝试后,进入定时发送机制.此机制,在原先对接银联支付时,银联的异步通知也是类似的,在第一次通知 ...
c语言进阶11-算法设计思想
一. 算法设计的要求: 为什么要学算法? /* 输出Hello word! */ #include "stdio.h" void main() { printf("He ...
Socket 连接问题之大量 TIME_WAIT
简评:最近项目就出现了大量短连接导致建立新连接超时问题,最后是通过维护长连接解决的. 代理或者服务器设备都有端口限制,如果使用 TCP 连接,连接数量达到端口限制,在这种情况下,将不能创建新的连接. ...
DAX 第三篇：过滤器函数
过滤器函数允许你操纵筛选上下文以创建动态的计算. 一,筛选上下文的构成 DAX中的筛选上下文由三部分构成:交叉过滤构成的过滤,查询上下文中每行的列值构成的过滤,外部切片器构成的显式过滤. 1,交叉过滤 ...
redis的下载与安装（linux版）
redis的下载与安装(linux版) 1.下载路径 https://redis.io/download 2.上传到linux并且解压 3.进入解压之后的redis,并且make && ...
【Python-Django模型迁移】用户数据库模型的迁移（对其他数据库迁移同样适用）！！！
迁移用户模型类 1. 指定用户模型类文档思考:为什么Django默认用户模型类是User? 阅读源代码:'django.conf.global_settings’ AUTH_USER_MODEL ...
集合（Collection解析 Set List Map三大集合运用）
集合的概念: 集合是包含多个对象的简单对象,所包含的对象称为元素.集合里面可以包含任意多个对象,数量可以变化:同时对对象的类型也没有限制,也就是说集合里面的所有对象的类型可以相同,也 ...

使用Tesseract-OCR 做验证码识别浅析

使用Tesseract-OCR 做验证码识别浅析的更多相关文章

随机推荐

热门专题