tesseract-ocr识别中文扫描图片实例讲解

当我浏览http://code.google.com/p/tesseract-ocr并下载了几个文件下来之后顿时感到一头雾水，不知该如何下手。网上看到有人在linux操作系统下的实现，

如：

利用开源程序（ImageMagick+tesseract-ocr）实现图像验证码识别

但却很少看到在windows下的相关文章介绍。

接下来我将一步步讲述如何采用tesseract-ocr识别含有中文的图片。

1、下载tesseract-ocr（注意3.0版本之后才支持中文的识别）

tesseract-ocr-setup-3.00.exe

chi_sim.traineddata.gz

2、安装tesseract-ocr

解压缩，双击 tesseract-ocr-setup-3.00.exe即可根据提示一步步安装，本人安装的目录是：D:/Program Files/Tesseract-OCR

在该目录下可看到tesseract.exe文件，这就是我们后面程序中会调用到的运行进程。

3、自定义安装语言包

D:/Program Files/Tesseract-OCR目录下找到/tessdata目录，其是用来存放语言包，可把chi_sim.traineddata.gz 解压缩之后的chi_sim.traineddata文件复制到该目录下即可。

4、编写测试代码

在编写代码之前下载两个jar包：jai_imageio-1.1-alpha.jar、swingx-1.0.jar，可在www.findjar.com 网站上去下载。

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.Iterator;
import java.util.Locale;
import javax.imageio.IIOImage;
import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.ImageWriteParam;
import javax.imageio.ImageWriter;
import javax.imageio.metadata.IIOMetadata;
import javax.imageio.stream.ImageInputStream;
import javax.imageio.stream.ImageOutputStream;
import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
public class ImageIOHelper {
/**
* 图片文件转换为tif格式
* @param imageFile 文件路径
* @param imageFormat 文件扩展名
* @return
*/
public static File createImage(File imageFile, String imageFormat) {
File tempFile = null;
try {
Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
ImageReader reader = readers.next();
ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
reader.setInput(iis);
//Read the stream metadata
IIOMetadata streamMetadata = reader.getStreamMetadata();
//Set up the writeParam
TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
//Get tif writer and set output to file
Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
ImageWriter writer = writers.next();
BufferedImage bi = reader.read(0);
IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
tempFile = tempImageFile(imageFile);
ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
writer.setOutput(ios);
writer.write(streamMetadata, image, tiffWriteParam);
ios.close();
writer.dispose();
reader.dispose();
} catch (IOException e) {
e.printStackTrace();
}
return tempFile;
}
private static File tempImageFile(File imageFile) {
String path = imageFile.getPath();
StringBuffer strB = new StringBuffer(path);
strB.insert(path.lastIndexOf('.'),0);
return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));
}
}

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import org.jdesktop.swingx.util.OS;
public class OCR {
private final String LANG_OPTION = "-l"; //英文字母小写l，并非数字1
private final String EOL = System.getProperty("line.separator");
private String tessPath = "D://Program Files//Tesseract-OCR";
//private String tessPath = new File("tesseract").getAbsolutePath();
public String recognizeText(File imageFile,String imageFormat)throws Exception{
File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
File outputFile = new File(imageFile.getParentFile(),"output");
StringBuffer strB = new StringBuffer();
List<String> cmd = new ArrayList<String>();
if(OS.isWindowsXP()){
cmd.add(tessPath+"//tesseract");
}else if(OS.isLinux()){
cmd.add("tesseract");
}else{
cmd.add(tessPath+"//tesseract");
}
cmd.add("");
cmd.add(outputFile.getName());
cmd.add(LANG_OPTION);
cmd.add("chi_sim");
//cmd.add("eng");
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());
cmd.set(1, tempImage.getName());
pb.command(cmd);
pb.redirectErrorStream(true);
Process process = pb.start();
//tesseract.exe 1.jpg 1 -l chi_sim
int w = process.waitFor();
//删除临时正在工作文件
tempImage.delete();
if(w==0){
BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
String str;
while((str = in.readLine())!=null){
strB.append(str).append(EOL);
}
in.close();
}else{
String msg;
switch(w){
case 1:
msg = "Errors accessing files.There may be spaces in your image's filename.";
break;
case 29:
msg = "Cannot recongnize the image or its selected region.";
break;
case 31:
msg = "Unsupported image format.";
break;
default:
msg = "Errors occurred.";
}
tempImage.delete();
throw new RuntimeException(msg);
}
new File(outputFile.getAbsolutePath()+".txt").delete();
return strB.toString();
}
}

import java.io.File;
import java.io.IOException;
public class TestOCR {
/**
* @param args
*/
public static void main(String[] args) {
String path = "d://test//chi.jpg";
try {
String valCode = new OCR().recognizeText(new File(path), "jpg");
System.out.println(valCode);
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
}

通过本人的测试对于中文的识别虽然不是很完美，至少其可支持了，但最大的缺点就是速度慢。中文本来就很复杂，而且其语言包就达到50多M，和英文语言包比起来真是..............

测试图片，可右击“图片另存为”

解析输出结果：

一、引孟4
1. 1 从体验经济到体验设计驷
随着社会生产力发展水平的提高和人类需求层次的升级, 体验经济也就成
为了经济发展的必然趋势。体验经济日渐显现, 出现了服务于它的体验设计。、
设计是创新的重要组成部分。茌强调目主创新的六环i竞下, 申国的企业应
该兖分关注体验设计的新趋势‘。体验设计的理论正茌成为现代企业开发产品和
服务顶目的重要依据。现阶段, IT 领域很早就注意到了这一点, 百度、腾讯、
支付宝、阿里巴巴等着属设有专门的用户体验部, 为其产品和服务增加附加价值,
也更六程度她让用户满意, 最终荻得了最佳企业效益。、
同时7 随看现代产品设计思想的成熟, 产品设计也越来越聚焦于人本身一
7人的存茌, 人的需要7 持别是人的情感需要。设计与人, 人与设计, 设计是
否可以有长远意义, 是否可以印证人的真买存茌, 是否可以帮助人们理解目己,
认识世界。这个问题己偏同于哲学, 但却确买是设计这种文化形式的内茌诉求。
越来越多的产品遍过设计, 茌与人交互的过程申7 使人产生愉悦的体验, 并茌
这个体验的后期, 让人产生反思, 遍过反思得以认识自己7 发展自己。找想这
点是设计成为一种优势文化, 而所要肩负的必要责任。 ~

测试中发现的几个注意点：

1、若是一份英文文档其对英文字母o绝大部分会识别为数字0。所以若是英文和数字的文档，最好不要加入中文语言包，而是引入eng.traineddata语言包到D:/Program Files/Tesseract-OCR/tessdata目录下。

看到OCR 类31-32行代码

cmd.add("chi_sim");
//cmd.add("eng");

去掉 //cmd.add("eng");前的注释，但记得在cmd.add("chi_sim");前加上注释哦，不然你就看不到效果了哦。

2、测试中还发现一个问题，有时候在目录下已经生成临时文件并且识别出的文字写入到output.txt,但是在int w = process.waitFor();则阻塞了停止运行再也没有反应了，以致控制台始终没有打印出文字。

解析（参考）：刚开始想到直接去掉这个语句算了，但是运行的时候会报运行错误。最后在http://www.cnblogs.com/xxpal/articles/824963.html看到下面一段文字说明：在Windows平台上，运行被调用程序的DOS窗口在程序执行完毕后往往并不会自动关闭，从而导致Java应用程序阻塞在waitfor()语句。导致该现象的一个可能的原因是，该可执行程序的标准输出比较多，而运行窗口的标准输出缓冲区不够大。解决的办法是，利用Java中Process类提供的方法让Java虚拟机截获被调用程序的DOS运行窗口的标准输出，在waitfor()命令之前读出窗口的标准输出缓冲区中的内容。

解决办法：在int w = process.waitFor();代码行前面加上

String s;
BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(process.getInputStream()));
while((s=bufferedReader.readLine()) != null);

int w = process.waitFor();

再次运行试试看吧。

tesseract-ocr识别中文扫描图片实例讲解的更多相关文章

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解
本文来源:http://blog.csdn.net/wanghui2008123/article/details/37694307 本文参考http://blog.sina.com.cn/s/blog ...
tesseract-ocr 识别中文扫描图片
原文链接:http://www.cnblogs.com/alex-blog/articles/2714984.html 项目主页地址:http://code.google.com/p/tesser ...
使用Tesseract OCR识别验证码
1.下载Tessrac OCR,默认安装 2.把验证码code.jpg图片放在D盘 3.打开cmd,进入D盘,输入:tesseract code.jpg result 4.进入D盘,生成了resul ...
身份证扫描识别/身份证OCR识别的正确姿势，你get到了吗？
自从国家规定电信实名制之后,实名制已经推广到各个领域:办理通信业务需要实名制.银行开户需要实名制.移动支付需要实名制,就连注册个自媒体账户都需要实名制. 而实名制的背后,就是身份证信息的采集和录入验证 ...
Python 进行 OCR识别 -- pytesseract库
pip install pytesseract 报错:tesseract is not installed or it's not in your path 下载安装 Tesseract-OCR ht ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
图片文字OCR识别-tesseract-ocr
帮助文件:https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc 下载地址:https://github. ...
深入学习OpenCV文档扫描及OCR识别（文档扫描，图像矫正，透视变换，OCR识别）
如果需要处理的原图及代码,请移步小编的GitHub地址传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/ComputerVisionPractice 下面 ...

随机推荐

[iOS]Xcode处理过时方法的警告
####强迫症的福利, 有的时候, 我们特别讨厌Xcode中的代码警告, 以下就是遇到各种警告的时候的处理方法:(后续会一直更新) 产生警告的原因: 某些方法废弃了, 会产生警告! 样式: 处理方法: ...
html5 canvas在线文本第二步设置（字体边框）等我全部写完，我会写在页面底部
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
Django之模板语法
Django框架之第三篇模板语法(重要!!!) 一.什么是模板? 只要是在html里面有模板语法就不是html文件了,这样的文件就叫做模板. 二.模板语法分类一.模板语法之变量:语法为 {{ }}: ...
Jmeter如何保持cookie，让所有请求都能用同一个cookie，免去提取JSESSIONID
近期有柠檬班的学生找到华华,问了一个问题,就是利用Jmeter做接口测试的时候,如何提取头部的JSESSIONID然后传递到下一个请求,继续完成当前用户的请求. 其实,关于这个问题有三种种解决方法: ...
linux笔记_day09
1.运算器.控制器.存储器.输入输出(IO) 地址总线:内存寻址数据总线:传输数据控制总线:控制指令寄存器:cpu暂时存储器 2.系统设定默认输出设备:标准输出,STDOUT,1(描述符)(显 ...
casper Dom的操作
phantom.casperTest = true; phantom.outputEncoding="utf-8"; var casper = require('casper'). ...
win7下PHP+MySQL+CoreSeek中文检索引擎配置
1.Windows下的coreseek安装测试 (64位win7旗舰版) 官方参考:http://www.coreseek.cn/products-install/install_on_windows ...
elasticsearch（ES）日志迁移
=============================================== 2018/7/29_第1次修改 ccb_warlock == ...
pom配置之：<distributionManagement>snapshot快照库和release发布库
本文转载自: 铁木箱子的mzone的博客: http://www.mzone.cc/article/277.html http://www.mzone.cc/article/279.html 在使用 ...
详解PHP的执行原理和流程
简介先看看下面这个过程: • 我们从未手动开启过PHP的相关进程,它是随着Apache的启动而运行的: • PHP通过mod_php5.so模块和Apache相连(具体说来是SAPI,即服务器应用程 ...

tesseract-ocr识别中文扫描图片实例讲解

tesseract-ocr识别中文扫描图片实例讲解的更多相关文章

随机推荐

热门专题