==========================================================================================================

写在前面:

这两天比较头疼这个验证码识别功能,本来查看相关的资料时候,tesseract已经能够完成基本的识别,识别效果差,加上还有其他其他exe,后来

在网上看到Tess4J的文字,然后就想着该用这种依赖jar包融合的方式进行识别,下来列举下自己在OCR识别图片过程中遇到的坑和解决方案。

==========================================================================================================

参考链接地址:https://blog.csdn.net/zai_xia/article/details/80003778

首先,列举下进行OCR识别的步骤。

(1)下载图片或者截图地址到本地。

(2)对图片进行处理(如降噪,灰度等),根据识别图片的特点。

(3)使用Tess4J进行图片处理,获取识别结果,返回识别文本。

今天,着重讲下第三部分,上一篇实战里已经说了,可以使用Tesseract-ocr方式进行识别,但是由于需要下载软件,安装配置等,个人觉得移植性不高,所以使用Tess4J进行处理。

第一步:下载Tess4J的压缩包等。官网:http://tess4j.sourceforge.net/codesample.html

解压,其中的目录结构如下:

需要用到其中圈起来的三个文件夹中的东西。lib文件夹下放的是需要用到的Jar包,tessdata下放的是语言库,默认的有英语库,中文库需要另外下载,下载地址:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata。

新建一个Java项目,将lib文件夹和tessdata文件夹复制到项目的根目录下,找到dist文件夹下的tess4j.jar(名字可能有版本号),将该文件也复制到项目根目录下的lib文件夹下。

项目的的目录如下:

lib中的文件如下(tess4J.jar也在该目录下):

再在eclipse中打开项目,在项目中导入lib文件夹中所有的jar包(Build path --> configure build path),导入后的结果如下:

这样前期准备工作就完成了,下面就剩下代码了。Tess4J的代码比较简洁,如下:

Tess4JTest.java

package ocr;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import net.sourceforge.tess4j.util.LoadLibs; import java.io.File;
import java.io.IOException; /**
* Tess4J测试类
*/
public class Tess4JTest { public static void main(String[] args){ String path = "D://Java//Tess4J"; //我的项目存放路径 File file = new File(path + "//photo.jpg");
ITesseract instance = new Tesseract(); /**
* 获取项目根路径,例如: D:\IDEAWorkSpace\tess4J
*/
File directory = new File(path);
String courseFile = null;
try {
courseFile = directory.getCanonicalPath();
} catch (IOException e) {
e.printStackTrace();
} //设置训练库的位置
instance.setDatapath(courseFile + "//tessdata"); instance.setLanguage("eng");//chi_sim :简体中文, eng 根据需求选择语言库
String result = null;
try {
long startTime = System.currentTimeMillis();
result = instance.doOCR(file);
long endTime = System.currentTimeMillis();
System.out.println("Time is:" + (endTime - startTime) + " 毫秒");
} catch (TesseractException e) {
e.printStackTrace();
} System.out.println("result: ");
System.out.println(result);
} }

通过以上文字介绍的方式,本地化加入Lib包后,能够成功的识别文本,并输出结果。

但是我想把工程文件放到jenkins上去,所以不想额外依赖lib包,希望能够通过其他的方式比如maven的lib方式,加载相关内容。

也查了网络上相关的资料,不知道能不能成功呢。

相关参考链接:https://kefeng.wang/2017/04/22/tess4j/

第一:在maven添加依赖。

<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>3.5.3</version>
</dependency>

第二,在代码中添加识别文件的代码:

    /**
* @Title: executeTess4J
* @Description: 执行图片识别
* @param imgUrl
* @param resUrl
* @return void
*/
public static String executeTess4J(String imgUrl) {
String ocrResult = "";
try { File imgDir = new File(imgUrl);
File tess = LoadLibs.extractTessResources("tessdata");
ITesseract instance = new Tesseract();
instance.setLanguage("eng");
// instance.setLanguage("chi_sim");
            // 设置训练库的位置
logger.info("-----TESSDATA_FILE_PATH:" + tess.getParent() + "-----");
instance.setDatapath(tess.getParent());

long startTime = System.currentTimeMillis();
ocrResult = instance.doOCR(imgDir); logger.info("-----识别出的文本内容:" + ocrResult + "-----");
long endTime = System.currentTimeMillis();
logger.info("Time is:" + (endTime - startTime) + " 毫秒");
} catch (TesseractException e) {
e.printStackTrace();
}
return ocrResult;
}

然后浪费我时间比较多的是,在执行

ocrResult = instance.doOCR(imgDir);

的时候,总是会报错,报错内容如下:
报错如下:
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language ‘eng‘
Tesseract couldn‘t load any languages!
Could not initialize tesseract.

然后查找该问题的解决方案中,发现可以设置环境变量

TESSDATA_PREFIX
来解决,可是搞了半天没搞成功。
最后发现ITesseract类中,有个
instance.setDatapath(tess.getParent());
的方法,个人觉得比较实用,就是自己设置tessdata路径,然后让程序读取该路径下的信息。。 入了一个坑就是,使用maven下载的是4.1.1最新的版本,然后调试程序中发现始终打不开eng包,然后定位到相关目录下才发现,可能下载的maven包本身有问题,
然后在使用手动加入lib解决后,现在使用3.5.3版本完毕解决该问题。 但是个人感觉,在OCR过程中还是踩过很多坑,总结下来帮助自己回忆一些问题。
目前的方案虽然不是最完美的,但是能解决问题,一步一步来。

 

【Selenium-WebDriver实战篇】selenium之使用Tess4J进行验证码图片识别内容的更多相关文章

  1. java selenium webdriver实战 seleniumIDE

    Selenium是ThoughtWorks公司,一个名为Jason Huggins的测试为了减少手工测试的工作量,自己实现的一套基于Javascript语言的代码库 使用这套库可以进行页面的交互操作, ...

  2. 《一头扎进》系列之Python+Selenium框架实战篇7 - 年底升职加薪,年终奖全靠它!Merry Christmas

    1. 简介 截止到上一篇文章为止,框架基本完全搭建完成.那么今天我们要做什么呢????聪明如你的小伙伴或者是童鞋一定已经猜到了,都测试完了,当然是要生成一份高端大气上档次的测试报告了.没错的,今天宏哥 ...

  3. [转]java selenium webdriver实战 应用小结

    原文链接:http://www.cnblogs.com/itliucheng/p/5578788.html 部分api 1.访问网站 driver.get("http://www.baidu ...

  4. java selenium webdriver实战 应用小结

    部分api 1.访问网站 driver.get("http://www.baidu.com"); 或者 driver.navigate().to("http://www. ...

  5. java selenium webdriver实战 helloWord

    第一步:建立Maven项目 Selenium 支持 maven 工程,这会让你的工作更加简便. 用 Eclipse 建个 Maven 的工程,建成后,修改 pom.xml <dependenci ...

  6. java selenium webdriver实战 页面元素定位

    自动化测试实施过程中,测试程序中常用的页面操作有三个步骤 1.定位网页上的页面元素,并存储到一个变量中 2.对变量中存储的页面元素进行操作,单击,下拉或者输入文字等 3.设定页面元素的操作值,比如,选 ...

  7. [selenium webdriver Java]检查元素是否存在

    Selenium WebDriver没有实现Selenium RC的isElementPresent()方法来检查页面上的元素是否存在. 在WebDriver中封装一个类似的方法,如下: public ...

  8. 转载 基于Selenium WebDriver的Web应用自动化测试

    转载原地址:  https://www.ibm.com/developerworks/cn/web/1306_chenlei_webdriver/ 对于 Web 应用,软件测试人员在日常的测试工作中, ...

  9. 【转载】Selenium WebDriver的简单操作说明

    转载自:http://blog.csdn.net/xiao190128/article/details/49784121 1.打开一个测试浏览器 对浏览器进行操作首先需要打开一个浏览器,接下来才能对浏 ...

随机推荐

  1. 029 SSM综合练习05--数据后台管理系统--订单分页查询

    1.PageHelper介绍 PageHelper是国内非常优秀的一款开源的mybatis分页插件,它支持基本主流与常用的数据库,例如mysql.oracle.mariaDB.DB2.SQLite.H ...

  2. 【转帖】HBase简介(梳理知识)

    HBase简介(梳理知识)   https://www.cnblogs.com/muhongxin/p/9471445.html 一. 简介 hbase是bigtable的开源山寨版本.是建立的hdf ...

  3. Win10各个PC版本的差别

    新的电脑有的已经不能够支持安装win7了,也就是说新电脑的硬件支持只能安装win10.那么win10有都有那些版本呢?这些版本之间又有什么样区别?我相信很多人并不是很了解.今天就来整理一下这些资料.据 ...

  4. nohup 日志按天输出

    输出日志在当前目录: nohup java -jar ace-auth.jar >> nohup`date +%Y-%m-%d`.out 2>&1 & 指定日志目录输 ...

  5. 【1】【leetcode-72 动态规划】 编辑距离

    (没思路,很典型,重要) 给定两个单词 word1 和 word2,计算出将 word1 转换成 word2 所使用的最少操作数 . 你可以对一个单词进行如下三种操作: 插入一个字符 删除一个字符 替 ...

  6. CentOS7安装MySQL(完整版)

    在CentOS中默认安装有MariaDB,这个是MySQL的分支,但为了需要,还是要在系统中安装MySQL,而且安装完成之后可以直接覆盖掉MariaDB. 1 下载并安装MySQL官方的 Yum Re ...

  7. C# vb .net实现焦距淡色特效滤镜

    在.net中,如何简单快捷地实现Photoshop滤镜组中的焦距淡色效果呢?答案是调用SharpImage!专业图像特效滤镜和合成类库.下面开始演示关键代码,您也可以在文末下载全部源码: 设置授权 第 ...

  8. ConcurrentDictionary,ConcurrentStack,ConcurrentQueue

    static void Main(string[] args) { var concurrentDictionary = new ConcurrentDictionary<int, string ...

  9. 2019 东方明珠java面试笔试题 (含面试题解析)

    本人3年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.东方明珠等公司offer,岗位是Java后端开发,最终选择去了东方明珠. 面试了很多家公司,感觉大部分公司考察的点 ...

  10. pyhon opencv mojave 摄像头报错

    https://blog.csdn.net/renzibei/article/details/82998933 参考了上面博主的例子,才明白. Mac macOS 10.14 Mojave Xcode ...