Java调用OCR进行图片识别
使用Java语言,通过Tesseract-OCR对图片进行识别。
1.Tesseract-OCR
下载windows版本并安装。
2.程序如下:
a.ImageIOHelper类
- package OCR;
- import java.awt.image.BufferedImage;
- import java.io.File;
- import java.io.IOException;
- import java.util.Iterator;
- import java.util.Locale;
- import javax.imageio.IIOImage;
- import javax.imageio.ImageIO;
- import javax.imageio.ImageReader;
- import javax.imageio.ImageWriteParam;
- import javax.imageio.ImageWriter;
- import javax.imageio.metadata.IIOMetadata;
- import javax.imageio.stream.ImageInputStream;
- import javax.imageio.stream.ImageOutputStream;
- import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
- public class ImageIOHelper {
- /**
- * 图片文件转换为tif格式
- * @param imageFile 文件路径
- * @param imageFormat 文件扩展名
- * @return
- */
- public static File createImage(File imageFile, String imageFormat) {
- File tempFile = null;
- try {
- Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
- ImageReader reader = readers.next();
- ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
- reader.setInput(iis);
- //Read the stream metadata
- IIOMetadata streamMetadata = reader.getStreamMetadata();
- //Set up the writeParam
- TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
- tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
- //Get tif writer and set output to file
- Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
- ImageWriter writer = writers.next();
- BufferedImage bi = reader.read(0);
- IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
- tempFile = tempImageFile(imageFile);
- ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
- writer.setOutput(ios);
- writer.write(streamMetadata, image, tiffWriteParam);
- ios.close();
- writer.dispose();
- reader.dispose();
- } catch (IOException e) {
- e.printStackTrace();
- }
- return tempFile;
- }
- private static File tempImageFile(File imageFile) {
- String path = imageFile.getPath();
- StringBuffer strB = new StringBuffer(path);
- strB.insert(path.lastIndexOf('.'),0);
- return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));
- }
- }
b.OCR核心类
- package OCR;
- import java.io.BufferedReader;
- import java.io.File;
- import java.io.FileInputStream;
- import java.io.InputStreamReader;
- import java.util.ArrayList;
- import java.util.List;
- import org.jdesktop.swingx.util.OS;
- public class OCR {
- private final String LANG_OPTION = "-l"; //英文字母小写l,并非数字1
- private final String EOL = System.getProperty("line.separator");
- private String tessPath = "C://Program Files//Tesseract-OCR";
- //private String tessPath = new File("tesseract").getAbsolutePath();
- public String recognizeText(File imageFile,String imageFormat)throws Exception{
- File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
- File outputFile = new File(imageFile.getParentFile(),"output");
- StringBuffer strB = new StringBuffer();
- List<String> cmd = new ArrayList<String>();
- if(OS.isWindowsXP()){
- cmd.add(tessPath+"//tesseract");
- }else if(OS.isLinux()){
- cmd.add("tesseract");
- }else{
- cmd.add(tessPath+"//tesseract");
- }
- cmd.add("");
- cmd.add(outputFile.getName());
- //cmd.add(LANG_OPTION);
- //cmd.add("chi_sim");
- //cmd.add("eng");
- ProcessBuilder pb = new ProcessBuilder();
- pb.directory(imageFile.getParentFile());
- cmd.set(1, tempImage.getName());
- pb.command(cmd);
- pb.redirectErrorStream(true);
- Process process = pb.start();
- //tesseract.exe 1.jpg 1 -l chi_sim
- int w = process.waitFor();
- //删除临时正在工作文件
- tempImage.delete();
- if(w==0){
- BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
- String str;
- while((str = in.readLine())!=null){
- strB.append(str).append(EOL);
- }
- in.close();
- }else{
- String msg;
- switch(w){
- case 1:
- msg = "Errors accessing files.There may be spaces in your image's filename.";
- break;
- case 29:
- msg = "Cannot recongnize the image or its selected region.";
- break;
- case 31:
- msg = "Unsupported image format.";
- break;
- default:
- msg = "Errors occurred.";
- }
- tempImage.delete();
- //throw new RuntimeException(msg);
- }
- new File(outputFile.getAbsolutePath()+".txt").delete();
- return strB.toString();
- }
- }
c.main
- package OCR;
- import java.io.File;
- import java.io.IOException;
- public class TestOcr {
- /**
- * @param args
- */
- public static void main(String[] args) {
- //输入图片地址
- String path = "d://test//test.bmp";
- try {
- String valCode = new OCR().recognizeText(new File(path), "bmp");
- System.out.println(valCode);
- } catch (IOException e) {
- e.printStackTrace();
- } catch (Exception e) {
- e.printStackTrace();
- }
- }
- }
Java调用OCR进行图片识别的更多相关文章
- python截图+百度ocr(图片识别)+ 百度翻译
一直想用python做一个截图并自动翻译的工具,恰好最近有时间就在网上找了资料,根据资料以及自己的理解做了一个简单的截图翻译工具.整理一下并把代码放在github给大家参考.界面用python自带的G ...
- 利用Java调用OpenCV进行人脸识别
详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt409 今天我准备学习如何用Java来进行人脸检测.人脸检测有助于在任何数字图 ...
- JAVA OCR图片识别
今天闲来无聊,尝试了一下OCR识别,尝试了以下三种方案: 1.直接使用业界使用最广泛的Tesseract-OCR. Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,19 ...
- Java文字识别软件-调用百度ocr实现文字识别
java_baidu_ocr Java调用百度OCR文字识别API实现图片文字识别软件 这是一款小巧方便,强大的文字识别软件,由Java编写,配上了窗口界面 调用了百度ocr文字识别API 识别精度高 ...
- WindowsAPI调用和OCR图片识别
傻了吧唧的装双系统.成功的干崩了原本的系统.现在重装VS.闲的没事胡扯几句. WindowsAPI在每一台Windows系统上开放标准API供开发人员调用.功能齐全.在这里只介绍三个部分. 1.利用A ...
- C#调用OCR组件识别图片文字
图片识别的技术到几天已经很成熟了,只是相关的资料很少,为了方便在此汇总一下(C#实现),方便需要的朋友查阅,也给自己做个记号. 图片识别的用途:很多人用它去破解网站的验证码,用于达到自动刷票或者是批量 ...
- java 调用腾讯身份OCR接口文档实例(绝对可用)
1.情景展示 通过读取身份证照片上的信息,实现自动填充功能. 2.原因分析 想要解析照片上所携带的相关信息,就需要识别照片的功能,腾讯提供了免费的身份证OCR接口,可供大家使用. 没有耐心的可以直 ...
- 使用阿里云的图片识别成表格ocr(将图片表格转换成excel)
为了简便财务总是要对照着别人发来的表格图片制作成自己的表格 图片识别 识别成表格 表格识别 ocr 使用阿里云api 购买(印刷文字识别-表格识别) https://market.aliyun.com ...
- windows版 Java调用人脸识别离线sdk
最近因工作需求在java-web服务中调用人脸识别离线sdk,主要通过JNA及JNI技术,但均未调试通过,JNA调用时出现以下异常,一直未解决,求大佬指点,导常信息如下: in BaiduFaceAp ...
随机推荐
- js调试系列: 调试基础与技巧
js调试系列目录: - 昨天我们见识到了断点的强悍,在断点的配合下进行动态调试,让读代码变的轻松不少,特别是ajax之类的.在昨天的课后练习中,确实增加了不少难度,因为 提交评论 按钮是用 jQuer ...
- html5 canvas旋转+缩放
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
- [转]Android ANR 分析解决方法
一:什么是ANR ANR:Application Not Responding,即应用无响应 二:ANR的类型 ANR一般有三种类型: 1. KeyDispatchTimeout(5 seconds) ...
- ASP.NET实现二维码(QRCode)的创建和读取
一.项目引用QRCode的DLL文件(ThoughtWorks.QRCode.dll) 二.ASPX页面(两个jquery的js文件请自行去官网下载): [html] <html xm ...
- AngularJS -- 代码实例
整理书籍内容(QQ:283125476 发布者:M [重在分享,有建议请联系->QQ号]) ng-change 当文本输入字段中内容发生了变化,就会改变equation.x的值: <bod ...
- CSS3 响应式布局: @media (min/max-width:***) @font-face
响应式布局 responsive design @media 属性 bootstrap css 分析: @media (min-width:768px){ body{***} } use @medi ...
- 用《舌尖2》去理解C#中的多态和开闭原则
昨天晚上看了<舌尖上的中国2>第一集,特别的感人,尤其是看到帮别人割麦子的麦客,一亩地开价200,雇主只肯给100,脸上的那种纠结和无可奈何.还有长着大眼睛的跳跳鱼,很可爱,不过最终还是被 ...
- mysql percona安装
注:此方式目前安装存在问题(弃用此方式) 1.在官方网站下载percona XtraBackup https://www.percona.com/downloads/XtraBackup/LATES ...
- MAC连接安卓手机通过adb指令安装apk
Android的apk可以通过adb命令来安装.在MAC电脑上,如果想通过命令行的方式给安卓手机安装apk,需要做以下操作: 一句话概括就是:将安卓SDK的adb命令添加到环境变量中,然后通过adb ...
- spring-service.xml 模板
ssm模板 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http:/ ...