非黑即白--谷歌OCR光学字符识别
# coding=utf-8
#非黑即白--谷歌OCR光学字符识别 # 颜色的世界里,非黑即白。computer表示深信不疑。
# 今天研究一下OCR光学识别庞大领域中的众多分支里的一个开源项目的一个包-tesseract。
#
# 能让机器识别图片是无数工程师梦寐以求的事
# 任何物体只有成功转为二进制才有可能被机器识别,而识别是做出一系列智能行为的前提
#
# 下面以一张验证码为例梳理一下机器识别的思路:
#
# 准备工作:
# 1、取到图片地址,在线转化为图片流或者下载到本地
# 2、PIL, pytesseract 两个包,其实主要用他们中各一个函数,前者是用Image将图片做像素级处理,以便后者用image_to_string将图片转化为字符串
# 3、图像基础知识:RGB所代表的红绿蓝色域均为0-255,三色叠加0代表黑色,255代表白色,区间值即为灰度
#
# 流程:
# 1、读取图片转为Image函数的对象
# 2、转化为灰度图(即黑白图片),进行二值化(强化黑白)
# 3、坐标系去除噪点,继续强化黑白
# 4、转化为字符串(涉及到分割、识别,image_to_string自动做了) from PIL import Image
from pytesseract import image_to_string # 接收图片地址,和int类型的灰度值作为阈值,返回黑白图
def parse(img_address, g):
img = Image.open(img_address)
# 转化为灰度图
imgL = img.convert('L')
# imgL.show()
img_load = imgL.load()
print(imgL.size)
# 遍历宽与高中的每一个像素并依据阈值判断,进行二值化
for y in range(imgL.size[1]):
for x in range(imgL.size[0]):
# 阈值就是寻找灰度的平衡点
# 小于阈值的数就是向黑色靠拢,直接赋值为黑,大于阈值即向255靠拢,直接赋值为白
if img_load[x, y] <= g:
img_load[x, y] = 0
else:
img_load[x, y] = 255
return imgL # 擦除噪点,对L模式下的图处理
# x,y 像素点坐标
# g 阈值(0-255之间的灰度值)
# n 强度(周围有几个符合阈值的像素点才留下)
def wipe_spot(img, x, y, g, n):
count = 0
if img[x - 1, y + 1] == g:
count += 1
if img[x, y + 1] == g:
count += 1
if img[x + 1, y + 1] == g:
count += 1
if img[x - 1, y] == g:
count += 1
if img[x + 1, y] == g:
count += 1
if img[x + 1, y - 1] == g:
count += 1
if img[x, y - 1] == g:
count += 1
if img[x + 1, y - 1] == g:
count += 1
if count < n:
img[x, y] = 255 # 示例
imgl = parse("D://1111.jpg", 150)
imgload = imgl.load()
for y in xrange(imgl.size[1]):
for x in xrange(imgl.size[0]):
if imgload[x, y] == 0:
wipe_spot(imgload, x, y, 0, 1)
imgl.show()
print image_to_string(imgl).replace(' ', '')
非黑即白--谷歌OCR光学字符识别的更多相关文章
- Ocrad.js – JS 实现 OCR 光学字符识别
Ocrad.js 相当于是 Ocrad 项目的纯 JavaScript 版本,使用 Emscripten 自动转换.这是一个简单的 OCR (光学字符识别)程序,可以扫描图像中的文字回文本. 不像 G ...
- 6 个优秀的开源 OCR 光学字符识别工具
转自:http://sigvc.org/bbs/thread-870-1-1.html 纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显 ...
- 开源OCR光学字符识别
纸张在 许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形 ...
- IT行业新名词--透明手机/OCR(光学字符识别)/夹背电池
透明手机 机身设计的一大关键部分是可替换玻璃的使用,利用导电技术,在看不到线路的环境下,让LED发光. 这样的玻璃内含液晶分子,对于内容的显示则是通过电流对分子的刺激来实现.当手机断电后,分子位置会随 ...
- [Xcode 实际操作]七、文件与数据-(22)使用OCR光学字符识别技术识别银行卡号码
目录:[Swift]Xcode实际操作 本文将演示如何使用光学字符识别技术,识别信用卡上的卡号. OCR技术是光学字符识别的缩写(Optical Character Recognition), 是通过 ...
- OCR光学字符识别--STN-OCR 测试
1.同文章中建议的使用ubuntu-python隔离环境,真的很好用 参照:http://blog.topspeedsnail.com/archives/5618启动虚拟环境:source env/b ...
- text recognizer (OCR) Engine 光学字符识别
https://github.com/tesseract-ocr/tesseract/wiki https://github.com/UB-Mannheim/tesseract/wiki C:\Use ...
- OCR技术(光学字符识别)
什么是OCR? OCR英文全称是optical character recognition,中文叫光学字符识别.它是利用光学技术和计算机技术把印在或者写在纸上的 文字读取出来,并转换成一种计算机能够接 ...
- 【OCR技术系列一】光学字符识别技术介绍
注:此篇内容主要是综合整理了光学字符识别 和OCR技术系列之一]字符识别技术总览,详情见文末参考文献 什么是 OCR? OCR(Optical Character Recognition,光学字符识别 ...
随机推荐
- Vue解析三之过滤器
export function formatDate(date, fmt) { if (/(y+)/.test(fmt)) { fmt = fmt.replace(RegExp.$1, (date.g ...
- Laravel 模型事件入门
Laravel 模型事件允许你监听模型生命周期内的多个关键点,甚至可以在阻止一个模型的保存或者删除. Laravel 模型事件文档 概述了如何使用钩子将对应事件与相关的事件类型关联起来,但是本文的主旨 ...
- java开发常用技术
基础部分 1. 线程和进程的区别 线程三个基本状态:就绪.执行.阻塞 线程五个基本操作:创建.就绪.运行.阻塞.终止 进程四种形式:主从式.会话式.消息或邮箱机制.共享存储区方式 进程是具有一定功能的 ...
- 语句in
Python :in在for中: for name in names: names='1','2','3','4','5' for name in names: print(names) in no ...
- poj2991 Crane(线段树+集合)白书例题
题目大意:起重机有n节,题目给出要调节的k节,每节调节成x度,求最后底部的起重机的坐标(最顶上的起点为(0,0)). 分析:一开始我看白书,看不懂他那个向量旋转的坐标是怎么来的,翻了很多博客,才发现, ...
- 微信小程序中实现微信支付
最近在做微信小程序,今天刚好做到小程序里的微信支付这块,踩过不少坑,特此写个博客记录下,希望能帮到其它人吧. 我总结了一下,小程序中的微信支付和之前其它的公众号里的微信支付有两个区别,第一就是小程序必 ...
- 201421123042 《Java程序设计》第12周
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 2. 面向系统综合设计-图书馆管理系统或购物车 使用流与文件改造你的图书馆管理系统或购物车. 2.1 简述如何 ...
- nyoj 非洲小孩
非洲小孩 时间限制:1000 ms | 内存限制:65535 KB 难度:2 描述 家住非洲的小孩,都很黑.为什么呢?第一,他们地处热带,太阳辐射严重.第二,他们不经常洗澡.(常年缺水,怎么洗 ...
- javascript中的数组对象
1.创建数组的三种方式: 1.1 var 数组名=[元素1,元素2,元素3...]; 例如: var arr1=[1,2,3,4]; 1.2 var 数组名=new Array(元素1,元素2,元素3 ...
- python 编码规范整理
PEP8 Python 编码规范 一 代码编排1 缩进.4个空格的缩进(编辑器都可以完成此功能),不要使用Tap,更不能混合使用Tap和空格.2 每行最大长度79,换行可以使用反斜杠,最好使用圆括号. ...