tesseract-ocr 识别中文扫描图片

原文链接：http://www.cnblogs.com/alex-blog/articles/2714984.html

项目主页地址：http://code.google.com/p/tesseract-ocr/

相关资源下载地址：http://code.google.com/p/tesseract-ocr/downloads/list

需要下载的资源有：

1、tesseract-ocr-setup-3.01-1.exe

因我本地为windows系统，所以用这个

2、chi_sim.traineddata.gz

中文识别时需要的。

安装tesseract-ocr

自定义安装语言包

在Tesseract-OCR安装目录下找到 tessdata目录，其是用来存放语言包，可把 chi_sim.traineddata.gz 解压缩之后的chi_sim.traineddata文件复制到该目录下即可。

本文使用参考blog中的例子

如下：

package org.img;

import java.awt.image.BufferedImage;

import java.io.File;

import java.io.IOException;

import java.util.Iterator;

import java.util.Locale;

import javax.imageio.IIOImage;

import javax.imageio.ImageIO;

import javax.imageio.ImageReader;

import javax.imageio.ImageWriteParam;

import javax.imageio.ImageWriter;

import javax.imageio.metadata.IIOMetadata;

import javax.imageio.stream.ImageInputStream;

import javax.imageio.stream.ImageOutputStream;

import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;

public class ImageIOHelper {

    /**

     * 图片文件转换为tif格式

     * @param imageFile 文件路径

     * @param imageFormat 文件扩展名

     * @return

     */

    public static File createImage(File imageFile, String imageFormat) {

        File tempFile = null;

        try {

            Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);

            ImageReader reader = readers.next();

            ImageInputStream iis = ImageIO.createImageInputStream(imageFile);

            reader.setInput(iis);

            //Read the stream metadata

            IIOMetadata streamMetadata = reader.getStreamMetadata();

            //Set up the writeParam

            TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);

            tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);

            //Get tif writer and set output to file

            Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");

            ImageWriter writer = writers.next();

            BufferedImage bi = reader.read(0);

            IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));

            tempFile = tempImageFile(imageFile);

            ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);

            writer.setOutput(ios);

            writer.write(streamMetadata, image, tiffWriteParam);

            ios.close();

            writer.dispose();

            reader.dispose();

        } catch (IOException e) {

            e.printStackTrace();

        }

        return tempFile;

    }

    private static File tempImageFile(File imageFile) {

        String path = imageFile.getPath();

        StringBuffer strB = new StringBuffer(path);

        strB.insert(path.lastIndexOf('.'),0);

        return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));

    }

}

package org.img;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStreamReader;

import java.util.ArrayList;

import java.util.List;

import org.jdesktop.swingx.util.OS;

public class OCR {

    private final String LANG_OPTION = "-l";  //英文字母小写l，并非数字1

    private final String EOL = System.getProperty("line.separator");

    private String tessPath = "C://Program Files//Tesseract-OCR"; //

注意这个路径，为安装的tesseract-OCR的路径

    //private String tessPath = new File("tesseract").getAbsolutePath();

    public String recognizeText(File imageFile,String imageFormat)throws Exception{

        File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);

        File outputFile = new File(imageFile.getParentFile(),"output");

        StringBuffer strB = new StringBuffer();

        List<String> cmd = new ArrayList<String>();

        if(OS.isWindowsXP()){

            cmd.add(tessPath+"//tesseract");

        }else if(OS.isLinux()){

            cmd.add("tesseract");

        }else{

            cmd.add(tessPath+"//tesseract");

        }

        cmd.add("");

        cmd.add(outputFile.getName());

        cmd.add(LANG_OPTION);

        cmd.add("chi_sim");

        //cmd.add("eng");

        ProcessBuilder pb = new ProcessBuilder();

        pb.directory(imageFile.getParentFile());

        cmd.set(1, tempImage.getName());

        pb.command(cmd);

        pb.redirectErrorStream(true);

        Process process = pb.start();

        //tesseract.exe 1.jpg 1 -l chi_sim

        int w = process.waitFor();

        //删除临时正在工作文件

        tempImage.delete();

        if(w==0){

            BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));

            String str;

            while((str = in.readLine())!=null){

                strB.append(str).append(EOL);

            }

            in.close();

        }else{

            String msg;

            switch(w){

                case 1:

                    msg = "Errors accessing files.There may be spaces in your image's filename.";

                    break;

                case 29:

                    msg = "Cannot recongnize the image or its selected region.";

                    break;

                case 31:

                    msg = "Unsupported image format.";

                    break;

                default:

                    msg = "Errors occurred.";

            }

            tempImage.delete();

            throw new RuntimeException(msg);

        }

        new File(outputFile.getAbsolutePath()+".txt").delete();

        return strB.toString();

    }

}

package org.img;

import java.io.File;

import java.io.IOException;

public class TestOCR {

    /**

     * @param args

     */

    public static void main(String[] args) {

        String path = "D:\\temp\\img\\untitled8.png";

        try {

            String valCode = new OCR().recognizeText(new File(path), "png");

            //6905_1294109277pAj9.jpg

            System.out.println(valCode);

        } catch (IOException e) {

            e.printStackTrace();

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

对于报错，请检查tessPath 这个参数是否设置正确

本文参考以下两位的blog：

http://blog.csdn.net/foamflower/article/details/6110211

http://blog.csdn.net/zhoushuyan/article/details/5948289

tesseract-ocr 识别中文扫描图片的更多相关文章

tesseract-ocr识别中文扫描图片实例讲解
当我浏览http://code.google.com/p/tesseract-ocr并下载了几个文件下来之后顿时感到一头雾水,不知该如何下手.网上看到有人在linux操作系统下的实现, 如: 利用开源 ...
使用Tesseract OCR识别验证码
1.下载Tessrac OCR,默认安装 2.把验证码code.jpg图片放在D盘 3.打开cmd,进入D盘,输入:tesseract code.jpg result 4.进入D盘,生成了resul ...
身份证扫描识别/身份证OCR识别的正确姿势，你get到了吗？
自从国家规定电信实名制之后,实名制已经推广到各个领域:办理通信业务需要实名制.银行开户需要实名制.移动支付需要实名制,就连注册个自媒体账户都需要实名制. 而实名制的背后,就是身份证信息的采集和录入验证 ...
Python 进行 OCR识别 -- pytesseract库
pip install pytesseract 报错:tesseract is not installed or it's not in your path 下载安装 Tesseract-OCR ht ...
tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解
本文来源:http://blog.csdn.net/wanghui2008123/article/details/37694307 本文参考http://blog.sina.com.cn/s/blog ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
深入学习OpenCV文档扫描及OCR识别（文档扫描，图像矫正，透视变换，OCR识别）
如果需要处理的原图及代码,请移步小编的GitHub地址传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/ComputerVisionPractice 下面 ...
【图片识别】java 图片文字识别 ocr （转）
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
图片文字OCR识别-tesseract-ocr
帮助文件:https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc 下载地址:https://github. ...

随机推荐

你真的了解volatile关键字吗？
volatile关键字经常在并发编程中使用,其特性是保证可见性以及有序性,但是关于volatile的使用仍然要小心,这需要明白volatile关键字的特性及实现的原理,这也是本篇文章的主要内容. 一. ...
因写太多 BUG！程序员遭公司颁奖羞辱，做的一个比一个绝
刚入职的程序员新人,办公桌上,基本上也就一电脑.一键盘.一鼠标,再配个被杯子.然而混迹职场多年的猿老们,办公桌上都有一些彰显身份地位的“好东西”. 这张图两点颇多,最显眼的,是办公桌上那个黄黄的东西, ...
jdbc操作根据bean类自动组装sql,天啦，我感觉我实现了hibernate
场景:需要将从ODPS数仓中计算得到的大额可疑交易信息导入到业务系统的mysql中供业务系统审核.最简单的方式是用阿里云的组件自动进行数据同步了.但是本系统是开放是为了产品化,要保证不同环境的可移植性 ...
Visual Studio2017 数据库架构比较
一.前言开发的时候在测试服务器上和线网服务器上面都有我们的数据库,当我们在线网上面修改或者新增一些字段后,线网的数据库也需要更新,这个时候根据表的修改记录,然后在线网上面一个一个增加修改很浪费效率而 ...
Nagios数据存储插件NDOUtils部署和测试
1. 概述 NDOUTILS,Nagios Data Output Utils,Nagios数据输出工具,允许用户从Nagios导出状态和事件信息到数据库中,便于以后的检索和加工它包括几个部分: N ...
利用阿里云的源yum方式安装Mongodb
今天在线上服务器上安装MongoDB,从Mongo官网直接下载链接,结果在下载时发觉速度慢的可怜.迫于无奈,只能找国内的镜像下载.这里选择阿里云的源进行安装,记录如下: 1)在/etc/yum.rep ...
Docker容器学习梳理 - Dockerfile构建镜像
在Docker的运用中,从下载镜像,启动容器,在容器中输入命令来运行程序,这些命令都是手工一条条往里输入的,无法重复利用,而且效率很低.所以就需要一种文件或脚本,我们把想执行的操作以命令的方式写入其 ...
HDOJ2009_求数列的和
简单的考察对浮点数使用的水题 HDOJ2009_求数列的和 #include<iostream> #include<stdio.h> #include<stdlib.h& ...
ajax 异步请求
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...
PAT 1021 个位数统计
https://pintia.cn/problem-sets/994805260223102976/problems/994805300404535296 给定一个k位整数N = d~k-1~*10^ ...

tesseract-ocr 识别中文扫描图片

tesseract-ocr 识别中文扫描图片的更多相关文章

随机推荐

热门专题