Python识别图片中的文字

 1 import os,glob

 2 def photo_compression(original_imgage,tmp_image_path):

 3     '''图片备份、压缩；param original_imgage:原始图片路径；param tmp_imgage_path:临时图片路径，备份路径；return'''

 4     from PIL import Image

 5     img = Image.open(original_imgage)

 6     width,height = img.size

 7     while (width*height>4000000):#该数值压缩后的图片大约200多k

 8         width = width//2

 9         height = height//2

10     e_img = img.resize((width,height),Image.BILINEAR)

11     save_path = os.path.join(tmp_image_path,os.path.basename(original_imgage))

12     e_img.save(save_path)

13     return save_path

14

15 def ocr(original_image):

16     '''使用百度OCR进行文字识别，支持JPG、JPEG、PNG、BMP格式；param original_image:待识别图片；return'''

17     from aip import AipOcr

18     filename = os.path.basename(original_image)

19     #输入自己的百度ai账号ID密码：参考链接：https://m.toutiaocdn.com/i6704242394566492684/

20     APP_ID = '******'

21     API_KEY = '*******'

22     SECRECT_KEY = '*********'

23

24     client = AipOcr(APP_ID,API_KEY,SECRECT_KEY)

25

26     with open(original_image,'rb') as picfile_read:

27         img = picfile_read.read()

28         print('正在识别图片：{0}......'.format(filename))

29         try:

30             result = client.basicGeneral(img)#通用文字识别，50000次/天免费

31         except:

32             result = client.basicAccurate(img)#通用文字识别（高精度版），500次/天免费

33     return result

34

35 def run_ocr(original_image,tmp_image_path,result_file_path='identify_results.txt'):

36     '''主函数 批量执行图片文本识别，结果存储；original_image:原始图片；tmp_image_path:临时图片；result_file_path:识别文字存储文件；return'''

37

38     if os.path.exists(result_file_path):#判断是否存在历史识别结果，若存在则删除

39         os.remove(result_file_path)

40     if not os.path.exists(tmp_image_path):#判断临时图片路径是否存在，若不存在则创建

41         os.mkdir(tmp_image_path)

42     tmp_file_path = []#临时文件路径列表

43     for picfile in glob.glob(original_image):#glob.glob的参数是一个只含有方括号、问号、正斜线的正则表达式

44         tmp_file = photo_compression(picfile,tmp_image_path)

45         tmp_file_path.append(tmp_file)

46     for picfile in tmp_file_path:#遍历所有文件，进行OCR识别 结果存储

47         result = ocr(picfile)

48         lines = [text.get('words') + '\n' for text in result.get('words_result')]

49         # lines = [text.get('words').encode('utf-8')+'\n' for text in result.get('words_result')]

50

51         with open(result_file_path,'a+',encoding='utf-8') as fo:

52             fo.writelines("="*100+'\n')

53             fo.writelines("【识别图片】：{0} \n".format(os.path.basename(picfile)))

54             fo.writelines("【文本内容】： \n")

55             fo.writelines(lines)

56         os.remove(picfile)

57

58 if __name__ == '__main__':

59     tmp_image_path = os.getcwd()+'\\tmp'

60     original_image = os.getcwd() + '\\*.png'

61     run_ocr(original_image,tmp_image_path)

Python识别图片中的文字的更多相关文章

使用Python进行OCR -- 识别图片中的文字
工具 Tesseract pytesseract tesserocr 朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使 ...
Python通过百度Ai识别图片中的文字
版本:python3.7 工作中有需要识别图片中的汗字,查看了半天大神们的博客,但没找到完全可以用的源码,经过自己的实践,以下源码可以实现: 创建应用首先你需要登录百度AI,选择文字识别,创建一个应 ...
C# 扫描识别图片中的文字（.NET Framework）
环境配置本文以C#及VB.NET代码为例,介绍如何扫描并读取图片中的文字. 本次程序环境如下: Visual Studio版本要求不低于2017 图片扫描工具:Spire.OCR for .NET ...
在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字
仓库地址:https://github.com/RobinDavid/Pytesser brew install tesseract sudo pip install opencv-python 安装 ...
python tesseract 识别图片中的文字的乱码问题(ubuntu系统下)
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程. 首先,需要安装 tesseract-ocr(tesseract O ...
python 识别图片中的汉字
我们就识别上面的汉字. 安装软件tesseract和python库 https://www.cnblogs.com/sea-stream/p/10961580.html 然后新建一个文件夹test,把 ...
python识别图片中的代码。
在看并发编程网的时候,有些示例代码是以图片的形式出现的,要是此时自己想复制下来的话,只能对着图片敲了,很不爽,于是搜了一下识别图片的网站,有! 把图片上传上去解析,下来txt文本,打开一看,大部分能解 ...
Windows下训练Tesseract实现识别图片中的文字
介绍 Tesseract是一个基于Apache2.0协议开源的跨平台ocr引擎,支持多种语言的识别,在Windows和Linux上都有良好的支持. 源代码在这: 源码地址有一个编译打包好的Windo ...
python实战===用python识别图片中的中文
需要安装的模块 PIL pytesseract 需要下载的工具: http://download.csdn.net/download/bo_mask/10196285 因为之前百度云的链接总失效,所以 ...

随机推荐

职场PUA
哈哈你这个的底层逻辑是什么? 顶层设计在哪? 最终交付价值是什么? 过程的抓手在哪里? 如何保证结果的闭环? 你比别人的亮点在哪里? 优势在哪里? 你的思考和沉淀在哪里? 你有形成自己的方法论吗?
Redis数据结构详解（1）-redis中的字符串（SDS）
前提知识我们先从百科上摘下Redis的解释: Redis是一个使用ANSI C编写的开源.支持网络.基于内存.分布式.可选持久性的键值对存储数据库. (不用过多在意ANSI,它只是一个标准,你可以理 ...
半吊子菜鸟学Web开发 -- PHP学习3－文件
目录 1 PHP文件系统 1.1 PHP文件的读取 1.4 获得文件的大小 1.5 PHP写入文件 1.6 删除文件 1 PHP文件系统 1.1 PHP文件的读取文件读取的函数是file_get_c ...
ubuntu18.04设置开机自启Django
设置开机自启: rc-local.server [Unit] Description=/etc/rc.local Compatibility ConditionPathExists=/etc/rc.l ...
MySQL 如何优化 DISTINCT？
DISTINCT 在所有列上转换为 GROUP BY,并与 ORDER BY 子句结合使用. SELECT DISTINCT t1.a FROM t1,t2 where t1.a=t2.a;
一个 Redis 实例最多能存放多少的 keys？List、Set、 Sorted Set 他们最多能存放多少元素？
理论上 Redis 可以处理多达 232 的 keys,并且在实际中进行了测试,每个实例至少存放了 2 亿 5 千万的 keys.我们正在测试一些较大的值.任何 list.set. 和 sorted ...
centos简单命令备忘
1.查看当前目录 [root@instance-aif30iaj bin]# df -h 2.查看指定目录在命令后直接放目录名,比如查看"usr"目录使用情况: [root@in ...
numpy计算数组中满足条件的个数
Numpy计算数组中满足条件元素个数需求:有一个非常大的数组比如1亿个数字,求出里面数字小于5000的数字数目 1. 使用numpy的random模块生成1亿个数字 2. 使用Python原生语法实 ...
1_开环系统和闭环系统_反馈控制_Open/Closed Loop System_Feedback
如何使用vue-cli搭建好的项目
本人是一枚前端小白,也是从零开始学习vue.js.由于闲着蛋疼,写一点自己的经验,可能有点low.是新手想上道的话,可以看看,如果有大神,也可以给我指导一下,小生感激不尽. 关于如何使用vue-cli ...

Python识别图片中的文字

Python识别图片中的文字的更多相关文章

随机推荐

热门专题