1 import os,glob
2 def photo_compression(original_imgage,tmp_image_path):
3 '''图片备份、压缩;param original_imgage:原始图片路径;param tmp_imgage_path:临时图片路径,备份路径;return'''
4 from PIL import Image
5 img = Image.open(original_imgage)
6 width,height = img.size
7 while (width*height>4000000):#该数值压缩后的图片大约200多k
8 width = width//2
9 height = height//2
10 e_img = img.resize((width,height),Image.BILINEAR)
11 save_path = os.path.join(tmp_image_path,os.path.basename(original_imgage))
12 e_img.save(save_path)
13 return save_path
14
15 def ocr(original_image):
16 '''使用百度OCR进行文字识别,支持JPG、JPEG、PNG、BMP格式;param original_image:待识别图片;return'''
17 from aip import AipOcr
18 filename = os.path.basename(original_image)
19 #输入自己的百度ai账号ID密码:参考链接:https://m.toutiaocdn.com/i6704242394566492684/
20 APP_ID = '******'
21 API_KEY = '*******'
22 SECRECT_KEY = '*********'
23
24 client = AipOcr(APP_ID,API_KEY,SECRECT_KEY)
25
26 with open(original_image,'rb') as picfile_read:
27 img = picfile_read.read()
28 print('正在识别图片:{0}......'.format(filename))
29 try:
30 result = client.basicGeneral(img)#通用文字识别,50000次/天免费
31 except:
32 result = client.basicAccurate(img)#通用文字识别(高精度版),500次/天免费
33 return result
34
35 def run_ocr(original_image,tmp_image_path,result_file_path='identify_results.txt'):
36 '''主函数 批量执行图片文本识别,结果存储;original_image:原始图片;tmp_image_path:临时图片;result_file_path:识别文字存储文件;return'''
37
38 if os.path.exists(result_file_path):#判断是否存在历史识别结果,若存在则删除
39 os.remove(result_file_path)
40 if not os.path.exists(tmp_image_path):#判断临时图片路径是否存在,若不存在则创建
41 os.mkdir(tmp_image_path)
42 tmp_file_path = []#临时文件路径列表
43 for picfile in glob.glob(original_image):#glob.glob的参数是一个只含有方括号、问号、正斜线的正则表达式
44 tmp_file = photo_compression(picfile,tmp_image_path)
45 tmp_file_path.append(tmp_file)
46 for picfile in tmp_file_path:#遍历所有文件,进行OCR识别 结果存储
47 result = ocr(picfile)
48 lines = [text.get('words') + '\n' for text in result.get('words_result')]
49 # lines = [text.get('words').encode('utf-8')+'\n' for text in result.get('words_result')]
50
51 with open(result_file_path,'a+',encoding='utf-8') as fo:
52 fo.writelines("="*100+'\n')
53 fo.writelines("【识别图片】:{0} \n".format(os.path.basename(picfile)))
54 fo.writelines("【文本内容】: \n")
55 fo.writelines(lines)
56 os.remove(picfile)
57
58 if __name__ == '__main__':
59 tmp_image_path = os.getcwd()+'\\tmp'
60 original_image = os.getcwd() + '\\*.png'
61 run_ocr(original_image,tmp_image_path)

Python识别图片中的文字的更多相关文章

  1. 使用Python进行OCR -- 识别图片中的文字

    工具 Tesseract pytesseract tesserocr 朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使 ...

  2. Python通过百度Ai识别图片中的文字

    版本:python3.7 工作中有需要识别图片中的汗字,查看了半天大神们的博客,但没找到完全可以用的源码,经过自己的实践,以下源码可以实现: 创建应用 首先你需要登录百度AI,选择文字识别,创建一个应 ...

  3. C# 扫描识别图片中的文字(.NET Framework)

    环境配置 本文以C#及VB.NET代码为例,介绍如何扫描并读取图片中的文字. 本次程序环境如下: Visual Studio版本要求不低于2017 图片扫描工具:Spire.OCR for .NET ...

  4. 在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字

    仓库地址:https://github.com/RobinDavid/Pytesser brew install tesseract sudo pip install opencv-python 安装 ...

  5. python tesseract 识别图片中的文字的乱码问题(ubuntu系统下)

    OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程. 首先,需要安装 tesseract-ocr(tesseract O ...

  6. python 识别图片中的汉字

    我们就识别上面的汉字. 安装软件tesseract和python库 https://www.cnblogs.com/sea-stream/p/10961580.html 然后新建一个文件夹test,把 ...

  7. python识别图片中的代码。

    在看并发编程网的时候,有些示例代码是以图片的形式出现的,要是此时自己想复制下来的话,只能对着图片敲了,很不爽,于是搜了一下识别图片的网站,有! 把图片上传上去解析,下来txt文本,打开一看,大部分能解 ...

  8. Windows下 训练Tesseract实现识别图片中的文字

    介绍 Tesseract是一个基于Apache2.0协议开源的跨平台ocr引擎,支持多种语言的识别,在Windows和Linux上都有良好的支持. 源代码在这: 源码地址 有一个编译打包好的Windo ...

  9. python实战===用python识别图片中的中文

    需要安装的模块 PIL pytesseract 需要下载的工具: http://download.csdn.net/download/bo_mask/10196285 因为之前百度云的链接总失效,所以 ...

随机推荐

  1. 半吊子菜鸟学Web开发 -- PHP学习3-文件

    目录 1 PHP文件系统 1.1 PHP文件的读取 1.4 获得文件的大小 1.5 PHP写入文件 1.6 删除文件 1 PHP文件系统 1.1 PHP文件的读取 文件读取的函数是file_get_c ...

  2. 学习廖雪峰的Git教程3--从远程库克隆以及分支管理

    一.远程库克隆 这个就比较简单了, git clone git@github.com:****/Cyber-security.git 远程库的地址可以在仓库里一个clone or download的绿 ...

  3. 保姆教程系列二、Nacos实现注册中心

    前言: 请各大网友尊重本人原创知识分享,谨记本人博客:南国以南i 上篇我们介绍到  保姆教程系列一.Linux搭建Nacos 注册中心原理 一.环境准备 Java版本:1.8+   (Linux ce ...

  4. Java8 HashMap扩容时为什么不需要重新hash

    技巧: 与&操作   和   与 n 如8 与,为0  则位置不变 https://blog.csdn.net/zlp1992/article/details/104376309 java8在 ...

  5. jpg, jpeg和png区别?

    jpg是jpeg的缩写, 二者一致    PNG就是为取代GIF而生的, 无损压缩, 占用内存多    jpg牺牲图片质量, 有损, 占用内存小    PNG格式可编辑.如图片中有字体等,可利用PS再 ...

  6. Spring容器 从XML 文件中读取bean的定义,并实例化bean?

    解释Spring框架中bean的生命周期. Spring根据bean的定义填充所有的属性. 如果bean实现了BeanNameAware 接口,Spring 传递bean 的ID 到 setBeanN ...

  7. 用TLS/SSL保证EMQ的网络传输安全

    作为基于现代密码学公钥算法的安全协议,TLS/SSL能在计算机通讯网络上保证传输安全,EMQ的MQTT broker支持TLS,也可以用这种方式来确保传输安全. 参考官网:https://www.em ...

  8. 在java web工程中jsp页面中使用kindeditor

    在这之前我们用Notepad++写过kindeditor 在Java web工程里也差不多 首先我们复制之前的thml代码粘贴到工程里 然后把样式也复制进去 然后就可以运行了

  9. HTML 5中的本地存储概念?

    很多时候,我们想在本地计算机存储有关用户的信息.例如,假设用户已经填满了一半的长表单,互联网却突然连接中断.此时,用户希望能在本地存储这些信息,然后当重新连接到互联网的时候,获取这些信息,并将其发送到 ...

  10. 学习saltstack (七)

    一.SaltStack概述 Salt,,一种全新的基础设施管理方式,部署轻松,在几分钟内可运行起来,扩展性好,很容易管理上万台服务器,速度够快,服务器之间秒级通讯. salt底层采用动态的连接总线, ...