使用Java语言,通过Tesseract-OCR对图片进行识别。

1.Tesseract-OCR

下载windows版本并安装。

2.程序如下:

a.ImageIOHelper类

  1. package OCR;
  2. import java.awt.image.BufferedImage;
  3. import java.io.File;
  4. import java.io.IOException;
  5. import java.util.Iterator;
  6. import java.util.Locale;
  7. import javax.imageio.IIOImage;
  8. import javax.imageio.ImageIO;
  9. import javax.imageio.ImageReader;
  10. import javax.imageio.ImageWriteParam;
  11. import javax.imageio.ImageWriter;
  12. import javax.imageio.metadata.IIOMetadata;
  13. import javax.imageio.stream.ImageInputStream;
  14. import javax.imageio.stream.ImageOutputStream;
  15. import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
  16. public class ImageIOHelper {
  17. /**
  18. * 图片文件转换为tif格式
  19. * @param imageFile 文件路径
  20. * @param imageFormat 文件扩展名
  21. * @return
  22. */
  23. public static File createImage(File imageFile, String imageFormat) {
  24. File tempFile = null;
  25. try {
  26. Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
  27. ImageReader reader = readers.next();
  28. ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
  29. reader.setInput(iis);
  30. //Read the stream metadata
  31. IIOMetadata streamMetadata = reader.getStreamMetadata();
  32. //Set up the writeParam
  33. TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
  34. tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
  35. //Get tif writer and set output to file
  36. Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
  37. ImageWriter writer = writers.next();
  38. BufferedImage bi = reader.read(0);
  39. IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
  40. tempFile = tempImageFile(imageFile);
  41. ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
  42. writer.setOutput(ios);
  43. writer.write(streamMetadata, image, tiffWriteParam);
  44. ios.close();
  45. writer.dispose();
  46. reader.dispose();
  47. } catch (IOException e) {
  48. e.printStackTrace();
  49. }
  50. return tempFile;
  51. }
  52. private static File tempImageFile(File imageFile) {
  53. String path = imageFile.getPath();
  54. StringBuffer strB = new StringBuffer(path);
  55. strB.insert(path.lastIndexOf('.'),0);
  56. return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));
  57. }
  58. }

b.OCR核心类

  1. package OCR;
  2. import java.io.BufferedReader;
  3. import java.io.File;
  4. import java.io.FileInputStream;
  5. import java.io.InputStreamReader;
  6. import java.util.ArrayList;
  7. import java.util.List;
  8. import org.jdesktop.swingx.util.OS;
  9. public class OCR {
  10. private final String LANG_OPTION = "-l";  //英文字母小写l,并非数字1
  11. private final String EOL = System.getProperty("line.separator");
  12. private String tessPath = "C://Program Files//Tesseract-OCR";
  13. //private String tessPath = new File("tesseract").getAbsolutePath();
  14. public String recognizeText(File imageFile,String imageFormat)throws Exception{
  15. File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
  16. File outputFile = new File(imageFile.getParentFile(),"output");
  17. StringBuffer strB = new StringBuffer();
  18. List<String> cmd = new ArrayList<String>();
  19. if(OS.isWindowsXP()){
  20. cmd.add(tessPath+"//tesseract");
  21. }else if(OS.isLinux()){
  22. cmd.add("tesseract");
  23. }else{
  24. cmd.add(tessPath+"//tesseract");
  25. }
  26. cmd.add("");
  27. cmd.add(outputFile.getName());
  28. //cmd.add(LANG_OPTION);
  29. //cmd.add("chi_sim");
  30. //cmd.add("eng");
  31. ProcessBuilder pb = new ProcessBuilder();
  32. pb.directory(imageFile.getParentFile());
  33. cmd.set(1, tempImage.getName());
  34. pb.command(cmd);
  35. pb.redirectErrorStream(true);
  36. Process process = pb.start();
  37. //tesseract.exe 1.jpg 1 -l chi_sim
  38. int w = process.waitFor();
  39. //删除临时正在工作文件
  40. tempImage.delete();
  41. if(w==0){
  42. BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
  43. String str;
  44. while((str = in.readLine())!=null){
  45. strB.append(str).append(EOL);
  46. }
  47. in.close();
  48. }else{
  49. String msg;
  50. switch(w){
  51. case 1:
  52. msg = "Errors accessing files.There may be spaces in your image's filename.";
  53. break;
  54. case 29:
  55. msg = "Cannot recongnize the image or its selected region.";
  56. break;
  57. case 31:
  58. msg = "Unsupported image format.";
  59. break;
  60. default:
  61. msg = "Errors occurred.";
  62. }
  63. tempImage.delete();
  64. //throw new RuntimeException(msg);
  65. }
  66. new File(outputFile.getAbsolutePath()+".txt").delete();
  67. return strB.toString();
  68. }
  69. }

c.main

  1. package OCR;
  2. import java.io.File;
  3. import java.io.IOException;
  4. public class TestOcr {
  5. /**
  6. * @param args
  7. */
  8. public static void main(String[] args) {
  9. //输入图片地址
  10. String path = "d://test//test.bmp";
  11. try {
  12. String valCode = new OCR().recognizeText(new File(path), "bmp");
  13. System.out.println(valCode);
  14. } catch (IOException e) {
  15. e.printStackTrace();
  16. } catch (Exception e) {
  17. e.printStackTrace();
  18. }
  19. }
  20. }

Java调用OCR进行图片识别的更多相关文章

  1. python截图+百度ocr(图片识别)+ 百度翻译

    一直想用python做一个截图并自动翻译的工具,恰好最近有时间就在网上找了资料,根据资料以及自己的理解做了一个简单的截图翻译工具.整理一下并把代码放在github给大家参考.界面用python自带的G ...

  2. 利用Java调用OpenCV进行人脸识别

    详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt409 今天我准备学习如何用Java来进行人脸检测.人脸检测有助于在任何数字图 ...

  3. JAVA OCR图片识别

    今天闲来无聊,尝试了一下OCR识别,尝试了以下三种方案: 1.直接使用业界使用最广泛的Tesseract-OCR. Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,19 ...

  4. Java文字识别软件-调用百度ocr实现文字识别

    java_baidu_ocr Java调用百度OCR文字识别API实现图片文字识别软件 这是一款小巧方便,强大的文字识别软件,由Java编写,配上了窗口界面 调用了百度ocr文字识别API 识别精度高 ...

  5. WindowsAPI调用和OCR图片识别

    傻了吧唧的装双系统.成功的干崩了原本的系统.现在重装VS.闲的没事胡扯几句. WindowsAPI在每一台Windows系统上开放标准API供开发人员调用.功能齐全.在这里只介绍三个部分. 1.利用A ...

  6. C#调用OCR组件识别图片文字

    图片识别的技术到几天已经很成熟了,只是相关的资料很少,为了方便在此汇总一下(C#实现),方便需要的朋友查阅,也给自己做个记号. 图片识别的用途:很多人用它去破解网站的验证码,用于达到自动刷票或者是批量 ...

  7. java 调用腾讯身份OCR接口文档实例(绝对可用)

      1.情景展示 通过读取身份证照片上的信息,实现自动填充功能. 2.原因分析 想要解析照片上所携带的相关信息,就需要识别照片的功能,腾讯提供了免费的身份证OCR接口,可供大家使用. 没有耐心的可以直 ...

  8. 使用阿里云的图片识别成表格ocr(将图片表格转换成excel)

    为了简便财务总是要对照着别人发来的表格图片制作成自己的表格 图片识别 识别成表格 表格识别 ocr 使用阿里云api 购买(印刷文字识别-表格识别) https://market.aliyun.com ...

  9. windows版 Java调用人脸识别离线sdk

    最近因工作需求在java-web服务中调用人脸识别离线sdk,主要通过JNA及JNI技术,但均未调试通过,JNA调用时出现以下异常,一直未解决,求大佬指点,导常信息如下: in BaiduFaceAp ...

随机推荐

  1. .NET面试题系列(九)C# 结构体与类的区别

    谈一下什么时候使用结构,什么使用类. 我们知道,结构存储在栈中,而栈有1个特点,就是空间较小,但是访问速度较快,堆空间较大,但是访问速度相对较慢.所以当我们描述1个轻量级对象的时候,可以将其定义为结构 ...

  2. 问题:经典类的对象明明没有__class__属性,却可以调用。

    这个问题得深入python源码才能看. class a: pass aa =a() print dir(aa)#aa只有doc和module属性 print aa.__class__#__main__ ...

  3. JS脚本病毒调试脚本-Trojan[Downloader]:JS/Nemucod

    1.前言 遇到Trojan[Downloader]:JS/Nemucod需要分析,这款病毒主要为js运行.从网上各种找js调试方法.发现52的帖子还挺沾边的. TrojanDownloader:JS/ ...

  4. 【C语言】十六进制形式输出应用程序

    1.前言 最近在看到同事写了一款封印病毒的程序,非常有意思!原理大致是将PE文件中的ASCII转换成HEX输出到文本中.这样做的目的是为了保存病毒样本的时候不会被杀毒软件查杀!然而却是delphi写的 ...

  5. Linux Core Dump【转】

    转自:http://www.cnblogs.com/hazir/p/linxu_core_dump.html 当程序运行的过程中异常终止或崩溃,操作系统会将程序当时的内存状态记录下来,保存在一个文件中 ...

  6. python 搭建http服务器和ftp服务器

    默认安装版本为pytho2.7 http服务器搭建: 进入要开放访问的目录下,执行命令:python -m SimpleHTTPServer 9000 显示上述表示安装成功,且http服务的端口为:9 ...

  7. javascript对话框(弹出层)组件

    http://www.blueidea.com/download/product/2010/7513.asp#comment 1. 从头到尾对一遍<<Javascript高级程序设计> ...

  8. appium无ID、name定位处理【转】

    1.关于没有name,没有ID的元素的定位---通用篇解题思路:因为没有name,id:其实剩下的选择已不多,要么xpath,要么className.xpath木有好印象(稳定性不高,加之1.0x后需 ...

  9. emulator: ERROR: x86 emulation currently requires hardware acceleration!Please ensure Intel HAXM is properly installed and usable.CPU acceleration status: HAX kernel module is not installed!

    Android Studio 1.0 已经放出来了,以后的Android平台开发激昂逐步从Eclipse向Android Studio迁移,为了能不落伍我也特意从Google下载了Android St ...

  10. About Saliency Object Detection

    显著性对象检测综述 详见:http://mmcheng.net/zh/paperreading/ 一.    程明明等人的论文:Salient Object Detection: A Survey(简 ...