tesseract-ocr图片识别开源工具

今天看同事的ppt,提到了图片识别,又tesseract-ocr,觉得不错,试一下,如果效果好可以用来做验证码的识别
http://code.google.com/p/tesseract-ocr/

tesseract是一款开源工具,我安装了Windows版试水先

1、首先登录首页在‘下载’页面下载

  1. tesseract-ocr-setup-xx.xx.exe
  2. chi_sim.traineddata.gz   中文语言包

2、双击即可安装tesserract-ocr,

3、安装中文语言包,将语言包 chi_sim.traineddata.gz   解压到 Tesseract-OCR下

4、写测试代码:

  1. package com.taobao.voc.tesseract;
  2. import java.io.BufferedReader;
  3. import java.io.File;
  4. import java.io.FileInputStream;
  5. import java.io.InputStreamReader;
  6. import java.util.ArrayList;
  7. import java.util.List;
  8. import org.jdesktop.swingx.util.OS;
  9. public class OCR {
  10. private final String LANG_OPTION = "-l";  //英文字母小写l,并非数字1
  11. private final String EOL = System.getProperty("line.separator");
  12. private String tessPath = "D://java_tools//Tesseract-OCR";
  13. //private String tessPath = new File("tesseract").getAbsolutePath();
  14. public String recognizeText(File imageFile,String imageFormat)throws Exception{
  15. File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
  16. File outputFile = new File(imageFile.getParentFile(),"output");
  17. StringBuffer strB = new StringBuffer();
  18. List<String> cmd = new ArrayList<String>();
  19. if(OS.isWindowsXP()){
  20. cmd.add(tessPath+"//tesseract");
  21. }else if(OS.isLinux()){
  22. cmd.add("tesseract");
  23. }else{
  24. cmd.add(tessPath+"//tesseract");
  25. }
  26. cmd.add("");
  27. cmd.add(outputFile.getName());
  28. cmd.add(LANG_OPTION);
  29. //cmd.add("chi_sim");
  30. cmd.add("eng");
  31. ProcessBuilder pb = new ProcessBuilder();
  32. pb.directory(imageFile.getParentFile());
  33. cmd.set(1, tempImage.getName());
  34. pb.command(cmd);
  35. pb.redirectErrorStream(true);
  36. Process process = pb.start();
  37. //tesseract.exe 1.jpg 1 -l chi_sim
  38. int w = process.waitFor();
  39. //删除临时正在工作文件
  40. tempImage.delete();
  41. if(w==0){
  42. BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
  43. String str;
  44. while((str = in.readLine())!=null){
  45. strB.append(str).append(EOL);
  46. }
  47. in.close();
  48. }else{
  49. String msg;
  50. switch(w){
  51. case 1:
  52. msg = "Errors accessing files.There may be spaces in your image's filename.";
  53. break;
  54. case 29:
  55. msg = "Cannot recongnize the image or its selected region.";
  56. break;
  57. case 31:
  58. msg = "Unsupported image format.";
  59. break;
  60. default:
  61. msg = "Errors occurred.";
  62. }
  63. tempImage.delete();
  64. throw new RuntimeException(msg);
  65. }
  66. new File(outputFile.getAbsolutePath()+".txt").delete();
  67. return strB.toString();
  68. }
  69. }
  1. package com.taobao.voc.tesseract;
  2. import java.awt.image.BufferedImage;
  3. import java.io.File;
  4. import java.io.IOException;
  5. import java.util.Iterator;
  6. import java.util.Locale;
  7. import javax.imageio.IIOImage;
  8. import javax.imageio.ImageIO;
  9. import javax.imageio.ImageReader;
  10. import javax.imageio.ImageWriteParam;
  11. import javax.imageio.ImageWriter;
  12. import javax.imageio.metadata.IIOMetadata;
  13. import javax.imageio.stream.ImageInputStream;
  14. import javax.imageio.stream.ImageOutputStream;
  15. import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
  16. public class ImageIOHelper {
  17. /**
  18. * 图片文件转换为tif格式
  19. * @param imageFile 文件路径
  20. * @param imageFormat 文件扩展名
  21. * @return
  22. */
  23. public static File createImage(File imageFile, String imageFormat) {
  24. File tempFile = null;
  25. try {
  26. Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
  27. ImageReader reader = readers.next();
  28. ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
  29. reader.setInput(iis);
  30. //Read the stream metadata
  31. IIOMetadata streamMetadata = reader.getStreamMetadata();
  32. //Set up the writeParam
  33. TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
  34. tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
  35. //Get tif writer and set output to file
  36. Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
  37. ImageWriter writer = writers.next();
  38. BufferedImage bi = reader.read(0);
  39. IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
  40. tempFile = tempImageFile(imageFile);
  41. ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
  42. writer.setOutput(ios);
  43. writer.write(streamMetadata, image, tiffWriteParam);
  44. ios.close();
  45. writer.dispose();
  46. reader.dispose();
  47. } catch (IOException e) {
  48. e.printStackTrace();
  49. }
  50. return tempFile;
  51. }
  52. private static File tempImageFile(File imageFile) {
  53. String path = imageFile.getPath();
  54. StringBuffer strB = new StringBuffer(path);
  55. strB.insert(path.lastIndexOf('.'),0);
  56. return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));
  57. }
  58. }

测试代码

  1. package com.taobao.voc.tesseract;
  2. import java.io.File;
  3. import java.io.IOException;
  4. public class TestOCR {
  5. /**
  6. * @param args
  7. */
  8. public static void main(String[] args) {
  9. String path = "d://test4.jpg";
  10. try {
  11. String valCode = new OCR().recognizeText(new File(path), "jpg");
  12. System.out.println(valCode);
  13. } catch (IOException e) {
  14. e.printStackTrace();
  15. } catch (Exception e) {
  16. e.printStackTrace();
  17. }
  18. }
  19. }

String path = "d://test4.jpg"; 修改为需要测试的图片,最好全中文,如果因为请更换语言包,OCR类中cmd.add("chi_sim");

tesseract-ocr图片识别开源工具的更多相关文章

  1. tesseract ocr文字识别Android实例程序和训练工具全部源代码

    tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...

  2. java使用开源类库Tesseract实现图片识别

    Tesseract-OCR支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选. Tess4J则是Tesseract在Java PC上的应用 Tesseract的OCR引擎最先由HP实验 ...

  3. JAVA OCR图片识别

    今天闲来无聊,尝试了一下OCR识别,尝试了以下三种方案: 1.直接使用业界使用最广泛的Tesseract-OCR. Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,19 ...

  4. WindowsAPI调用和OCR图片识别

    傻了吧唧的装双系统.成功的干崩了原本的系统.现在重装VS.闲的没事胡扯几句. WindowsAPI在每一台Windows系统上开放标准API供开发人员调用.功能齐全.在这里只介绍三个部分. 1.利用A ...

  5. Android开发学习之路-GSON使用心得(OCR图片识别)

    在安卓中解析JSON串可以使用的方法有很多,比如说用官方提供的JSONObject或者谷歌提供的开源库GSON,以及一些第三方开源库. 这里用的是GSON,为了测试方便,借助了一个百度的api,一个图 ...

  6. python实现百度OCR图片识别

    一.直接上代码 import base64 import requests class CodeDemo: def __init__(self,AK,SK,code_url,img_path): se ...

  7. OCR图片识别引擎

    OCR引擎 OCR(Optical Character Recognition)是指使用扫描仪或数码相机对文本资料进行扫描成图像文件,然后对图像文件进行分析处理,自动识别获取文字信息及版面信息的软件. ...

  8. tesseract ocr文字识别

    一.环境搭建 (基于VS2010) 1.下载安装 tesseract-ocr-setup-3.02.02.exe 安装包 ,安装时候最好是在FQ的情况下安装.(安装一点要勾选 Tesseract de ...

  9. 在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字

    仓库地址:https://github.com/RobinDavid/Pytesser brew install tesseract sudo pip install opencv-python 安装 ...

随机推荐

  1. linux —— 初探

    目录: linux 知识拓展 ubuntu 的安装 安装完成后做的那些事 1.linux 知识拓展 开源世界旅行手册:一个中文网站,根据<Ubuntu教程>而撰写的有趣的文档.作者说:“只 ...

  2. 一分钟明确 VS manifest 原理

    什么是vs 程序的manifest文件 manifest 是VS程序用来标明所依赖的side-by-side组建,如ATL, CRT等的清单. 为什么要有manifest文件 一台pc上,用一组建往往 ...

  3. 微设计(www.weidesigner.com)介绍系列文章(二)

    微设计(www.weidesigner.com)是一个专门针对微信公众账号提供营销推广服务而打造的第三方平台. 2.1 怎样注冊微信公众号? 登录mp.weixin.qq.com,点击注冊填写相关信息 ...

  4. python批量改动指定文件夹文件名称

    这小样例仅仅要是说明用python怎么批量改动指定文件夹的文件名称: 记得要把脚本跟改动的文件放在同一个文件夹下 #encoding:utf-8 import os import sys files ...

  5. 通过分析 JDK 源代码研究 Hash 存储机制--转载

    通过 HashMap.HashSet 的源代码分析其 Hash 存储机制 集合和引用 就像引用类型的数组一样,当我们把 Java 对象放入数组之时,并不是真正的把 Java 对象放入数组中,只是把对象 ...

  6. Html5选择图片并及时预览图片

    以往想要实现图片预览基本都是先传至服务器后等返回链接地址才能进行预览,使用Html5选择图片并及时预览图片的代码如下,使用起来更爽了. <!DOCTYPE html> <html l ...

  7. SQL 使用Cursor(游标)遍历结果集

    使用Cursor(游标)可以在存储过程中遍历select 结果集,对其进行相关的操作. Cursor(游标)语法格式 DECLARE 游标名称 CURSOR FOR SELECT 字段1,字段2,字段 ...

  8. checkbox遍历操作, 提交所有选中项的值

    <div class="content_list pad_10 hidden" > <h3>修改可配送地区</h3> <input typ ...

  9. 使程序能够引入.json文件, 为网站添加 MIME 映射

    确认启用了 MIME 映射,或使用命令行工具 appcmd.exe 为网站添加 MIME 映射. 若要设置 MIME 类型,请在 IIS Express 安装目录中运行以下命令: appcmd set ...

  10. shell 数组(in_array)

    if [[ ! "${array[@]}" =~ $val ]] ; then fi