tesseract-ocr 识别中文扫描图片
原文链接:http://www.cnblogs.com/alex-blog/articles/2714984.html
项目主页地址:http://code.google.com/p/tesseract-ocr/
相关资源下载地址:http://code.google.com/p/tesseract-ocr/downloads/list
需要下载的资源有:
1、tesseract-ocr-setup-3.01-1.exe
因我本地为windows系统,所以用这个
2、chi_sim.traineddata.gz
中文识别时需要的。
安装tesseract-ocr
自定义安装语言包
在Tesseract-OCR安装目录下找到 tessdata目录,其是用来存放语言包,可把 chi_sim.traineddata.gz 解压缩之后的chi_sim.traineddata文件复制到该目录下即可。
本文使用参考blog中的例子
如下:
- package org.img;
- import java.awt.image.BufferedImage;
- import java.io.File;
- import java.io.IOException;
- import java.util.Iterator;
- import java.util.Locale;
- import javax.imageio.IIOImage;
- import javax.imageio.ImageIO;
- import javax.imageio.ImageReader;
- import javax.imageio.ImageWriteParam;
- import javax.imageio.ImageWriter;
- import javax.imageio.metadata.IIOMetadata;
- import javax.imageio.stream.ImageInputStream;
- import javax.imageio.stream.ImageOutputStream;
- import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
- public class ImageIOHelper {
- /**
- * 图片文件转换为tif格式
- * @param imageFile 文件路径
- * @param imageFormat 文件扩展名
- * @return
- */
- public static File createImage(File imageFile, String imageFormat) {
- File tempFile = null;
- try {
- Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
- ImageReader reader = readers.next();
- ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
- reader.setInput(iis);
- //Read the stream metadata
- IIOMetadata streamMetadata = reader.getStreamMetadata();
- //Set up the writeParam
- TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
- tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
- //Get tif writer and set output to file
- Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
- ImageWriter writer = writers.next();
- BufferedImage bi = reader.read(0);
- IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
- tempFile = tempImageFile(imageFile);
- ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
- writer.setOutput(ios);
- writer.write(streamMetadata, image, tiffWriteParam);
- ios.close();
- writer.dispose();
- reader.dispose();
- } catch (IOException e) {
- e.printStackTrace();
- }
- return tempFile;
- }
- private static File tempImageFile(File imageFile) {
- String path = imageFile.getPath();
- StringBuffer strB = new StringBuffer(path);
- strB.insert(path.lastIndexOf('.'),0);
- return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));
- }
- }
- package org.img;
- import java.io.BufferedReader;
- import java.io.File;
- import java.io.FileInputStream;
- import java.io.InputStreamReader;
- import java.util.ArrayList;
- import java.util.List;
- import org.jdesktop.swingx.util.OS;
- public class OCR {
- private final String LANG_OPTION = "-l"; //英文字母小写l,并非数字1
- private final String EOL = System.getProperty("line.separator");
- private String tessPath = "C://Program Files//Tesseract-OCR"; //
注意这个路径,为安装的tesseract-OCR的路径
- //private String tessPath = new File("tesseract").getAbsolutePath();
- public String recognizeText(File imageFile,String imageFormat)throws Exception{
- File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
- File outputFile = new File(imageFile.getParentFile(),"output");
- StringBuffer strB = new StringBuffer();
- List<String> cmd = new ArrayList<String>();
- if(OS.isWindowsXP()){
- cmd.add(tessPath+"//tesseract");
- }else if(OS.isLinux()){
- cmd.add("tesseract");
- }else{
- cmd.add(tessPath+"//tesseract");
- }
- cmd.add("");
- cmd.add(outputFile.getName());
- cmd.add(LANG_OPTION);
- cmd.add("chi_sim");
- //cmd.add("eng");
- ProcessBuilder pb = new ProcessBuilder();
- pb.directory(imageFile.getParentFile());
- cmd.set(1, tempImage.getName());
- pb.command(cmd);
- pb.redirectErrorStream(true);
- Process process = pb.start();
- //tesseract.exe 1.jpg 1 -l chi_sim
- int w = process.waitFor();
- //删除临时正在工作文件
- tempImage.delete();
- if(w==0){
- BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
- String str;
- while((str = in.readLine())!=null){
- strB.append(str).append(EOL);
- }
- in.close();
- }else{
- String msg;
- switch(w){
- case 1:
- msg = "Errors accessing files.There may be spaces in your image's filename.";
- break;
- case 29:
- msg = "Cannot recongnize the image or its selected region.";
- break;
- case 31:
- msg = "Unsupported image format.";
- break;
- default:
- msg = "Errors occurred.";
- }
- tempImage.delete();
- throw new RuntimeException(msg);
- }
- new File(outputFile.getAbsolutePath()+".txt").delete();
- return strB.toString();
- }
- }
- package org.img;
- import java.io.File;
- import java.io.IOException;
- public class TestOCR {
- /**
- * @param args
- */
- public static void main(String[] args) {
- String path = "D:\\temp\\img\\untitled8.png";
- try {
- String valCode = new OCR().recognizeText(new File(path), "png");
- //6905_1294109277pAj9.jpg
- System.out.println(valCode);
- } catch (IOException e) {
- e.printStackTrace();
- } catch (Exception e) {
- e.printStackTrace();
- }
- }
- }
tesseract-ocr 识别中文扫描图片的更多相关文章
- tesseract-ocr识别中文扫描图片实例讲解
当我浏览http://code.google.com/p/tesseract-ocr并下载了几个文件下来之后顿时感到一头雾水,不知该如何下手.网上看到有人在linux操作系统下的实现, 如: 利用开源 ...
- 使用Tesseract OCR识别验证码
1.下载Tessrac OCR,默认安装 2.把验证码code.jpg图片放在D盘 3.打开cmd,进入D盘,输入:tesseract code.jpg result 4.进入D盘,生成了resul ...
- 身份证扫描识别/身份证OCR识别的正确姿势,你get到了吗?
自从国家规定电信实名制之后,实名制已经推广到各个领域:办理通信业务需要实名制.银行开户需要实名制.移动支付需要实名制,就连注册个自媒体账户都需要实名制. 而实名制的背后,就是身份证信息的采集和录入验证 ...
- Python 进行 OCR识别 -- pytesseract库
pip install pytesseract 报错:tesseract is not installed or it's not in your path 下载安装 Tesseract-OCR ht ...
- tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解
本文来源:http://blog.csdn.net/wanghui2008123/article/details/37694307 本文参考http://blog.sina.com.cn/s/blog ...
- 开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
- 深入学习OpenCV文档扫描及OCR识别(文档扫描,图像矫正,透视变换,OCR识别)
如果需要处理的原图及代码,请移步小编的GitHub地址 传送门:请点击我 如果点击有误:https://github.com/LeBron-Jian/ComputerVisionPractice 下面 ...
- 【图片识别】java 图片文字识别 ocr (转)
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
- 图片文字OCR识别-tesseract-ocr
帮助文件:https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc 下载地址:https://github. ...
随机推荐
- Luogu P2002 消息扩散&&P1262 间谍网络
怕自己太久没写Tarjan了就会把这种神仙算法忘掉. 其实这种类型的图论题的套路还是比较简单且显然的. P2002 消息扩散 很显然的题目,因为在一个环(其实就是强连通分量)中的城市都只需要让其中一个 ...
- [Oracle]数据库的Control File 取Dump后的样例
[Oracle]数据库的Control File 取Dump后的样例: 片段截取-------------------------------(size = 40, compat size = 40, ...
- nginx解决前端跨域配置
在nginx.conf文件中 添加如上配置: 在ajax中将原来的 url:http://192.168.1.127:8905/findItem 改成:'http://localhost/findIt ...
- Centos7.4安装kvm虚拟机(使用virt-manager管理)
之前介绍了使用WebVirtMgr或Openstack来部署及管理kvm虚拟机,下面简单介绍centos7.4下使用virt-manager部署及管理kvm虚拟机的做法: 0)KVM是什么 KVM(K ...
- mysql操作命令梳理(4)-grant授权和revoke回收权限
在mysql维护工作中,做好权限管理是一个很重要的环节.下面对mysql权限操作进行梳理: mysql的权限命令是grant,权限撤销的命令时revoke:grant授权格式:grant 权限列表 o ...
- 使用thinkphp框架实现Excel导入数据库
之前讲过php实现Excel导出数据库的随笔,链接:https://www.cnblogs.com/nuanai/p/6727711.html 之前的项目用到较多的就是Excel导出,现在用到了Exc ...
- beta(3/7)
团队信息 队名:爸爸饿了 组长博客:here 作业博客:here 组员情况 组员1(组长):王彬 过去两天完成了哪些任务 协助后端完成历史记录接口.美食排行榜接口 完成食堂平面图的绘制 确定web端业 ...
- Java7和8在虚拟机上的差异:Perm Generation vs. Metaspace
- Windows命令行下如何使用批处理异步打开一个浏览器进程
Browse.bat @echo off if '%1'=='-c' ( start /d "C:\Program Files\Google\Chrome\Application\" ...
- Log4Net日志配置
1.添加Log4net.dll引用 将release版Log4net.dll拷贝到Lib文件夹,然后添加引用.