处理图像不是一项简单的任务。对你来说,作为一个人,很容易看着某样东西然后马上知道你在看什么。但电脑不是这样工作的。

对你来说太难的任务,比如复杂的算术,或者一般意义上的数学,是计算机毫不费力就能完成的。但在这里,情况正好相反——对你来说很琐碎的任务,比如识别图像中的猫或狗,对电脑来说真的很难。在某种程度上,我们是天造地设的一对。至少现在是这样。

虽然图像分类和涉及到一定程度计算机视觉的任务可能需要大量的代码和扎实的理解,但是从格式良好的图像中读取文本在Python中却是简单的,并且可以应用于许多现实生活中的问题。

在今天的帖子中,我想证明这一点。虽然会安装一些库,但不会花很多时间。这些是你需要的库:

  • OpenCV
  • PyTesseract

OpenCV

现在,这个库将只用于加载图像,实际上你不需要事先对它有太多了解(尽管它可能有帮助,你将看到为什么)。

根据官方文件:

OpenCV(开源计算机视觉库)是一个开源的计算机视觉和机器学习软件库。OpenCV的目的是为计算机视觉应用提供一个通用的基础结构,并加速机器感知在商业产品中的使用。OpenCV是bsd许可的产品,OpenCV使企业可以轻松地使用和修改代码

简而言之,你可以使用OpenCV来做任何类型的图像转换,这是一个相当简单的库。

如果你还没有安装它,那么它将只是终端中的一行:

pip install opencv-python

差不多就是这样。在此之前,一切都很简单,但这种情况即将改变。

PyTesseract

这个库到底是什么东西?根据维基百科:

Tesseract是用于各种操作系统的光学字符识别引擎。它是免费软件,根据Apache许可2.0版发布,自2006年以来由Google赞助开发。

我敢肯定,现在有更多复杂的库可用,但是我发现这个库运行良好。根据我自己的经验,该库应该能够从任何图像中读取文本,但前提是该字体不会使你连连看都看不懂。

如果无法从你的图像中读取文字,花更多的时间使用OpenCV,应用各种过滤器使文本高亮。

现在安装在底部有些麻烦。如果你使用的是Linux,则全部归结为几个sudo-apt get命令:

sudo apt-get update
sudo apt-get install tesseract-ocr
sudo apt-get install libtesseract-dev

我用的是Windows系统,所以这个过程有点乏味。

首先,打开这个URL:

https://github.com/UB-Mannheim/tesseract/wiki

下载32位或64位的安装程序:

安装本身很简单,只需单击几次Next。是的,你还需要做一个pip安装:

pip install pytesseract

接下来要需要告诉Python Tesseract安装在何处。在Linux机器上,我不需要这样做,但在Windows上是必需的。默认情况下,它安装Program Files

如果你做的一切正确,执行这些代码应该不会产生任何错误:

获取文本

让我们从一个简单的开始。我找到了一些免版税的图片,里面有一些文字,第一个是这样的:

它应该是简单的一个,有可能Tesseract会读那些蓝色的“对象”作为括号。让我们看看会发生什么:

我的猜测是正确的。不过,这不是一个问题,你可以使用一些Python技巧轻松地解决这些问题。

下一个可能更棘手:

我希望它不会检测到硬币上的“B”:

看起来效果很好。

现在轮到你把它应用到你自己的问题上了。如果文本与背景混合,OpenCV技能在这里可能是至关重要的。

在你离开之前

对计算机来说,从图像中读取文本是一项相当困难的任务。想想看,电脑不知道字母是什么,它只对数字有效。在引擎盖后面发生的事情一开始可能看起来像一个黑盒子,但我鼓励你进一步研究,如果这是你感兴趣的领域。

我并不是说PyTesseract每次都能很好地工作,但是我发现即使在一些比较复杂的图像上它也足够好。但不是所有情况都很好,有时候需要一些图像处理需要使文本高亮让其相对于背景更加突出。

参考文献

  1. https://opencv.org/about/
  2. https://en.wikipedia.org/wiki/Tesseract_(software)

欢迎关注磐创博客资源汇总站:

http://docs.panchuang.net/

欢迎关注PyTorch官方中文教程站:

http://pytorch.panchuang.net/

OpenCV中文官方文档:

http://woshicver.com/

使用一行Python代码从图像读取文本的更多相关文章

  1. 一行python代码实现树结构

    树结构是一种抽象数据类型,在计算机科学领域有着非常广泛的应用.一颗树可以简单的表示为根, 左子树, 右子树. 而左子树和右子树又可以有自己的子树.这似乎是一种比较复杂的数据结构,那么真的能像我们在标题 ...

  2. 教你用一行Python代码实现并行(转)

    教你用一行Python代码实现并行 本文教你通过一行Python实现并行化. Python在程序并行化方面多少有些声名狼藉.撇开技术上的问题,例如线程的实现和GIL,我觉得错误的教学指导才是主要问题. ...

  3. 用一行Python代码制作动态二维码

    在GitHub上发现了一个比较有意思的项目,只需要一行Python代码就可以快捷方便生成普通二维码.艺术二维码(黑白/彩色)和动态GIF二维码. GitHub网站参见:https://github.c ...

  4. 一行Python代码画心型

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/yanlaifan/article/deta ...

  5. 有趣的一行 Python 代码

    https://mp.weixin.qq.com/s/o9rm4tKsJeEWyqQDgVEQiQ https://mp.weixin.qq.com/s/G5F_GaUGI0w-kugOZX145g ...

  6. 一行python代码搞定文件分享

    给同事分享文件,如你所知通过聊天工具,网盘或linux命令各种方法,还有一个也可以尝试下:使用一行python代码快速搭建一个http服务器在局域网内进行下载. python3使用: python3 ...

  7. 忘带U盘了??别急!一行python代码即可搞定文件传输

    近日发现了python一个很有趣的功能,今天在这里给大伙儿做一下分享 需求前提 1.想要拷贝电脑的文件到另一台电脑但是又没有U盘2.手机上想获取到存储在电脑的文件3.忘带U盘- 您也太丢三落四了吧,但 ...

  8. 一行 Python 代码能干嘛?

    Python 有很多优雅有趣的代码写法,同时还很简短,以至于当我刚开始接触这个编程语言的时候,就爱不释手.而前几天的编程语言榜单中 Python 也超越了 Java 成为了第一,挺替 Python 开 ...

  9. 一行python代码能写出啥?

    1.一行代码启动一个Web服务 python -m SimpleHTTPServer 8080  # python2 python3 -m http.server 8080  # python3 2. ...

随机推荐

  1. 记录一下自己写PHP程序时走过的一些坑

    写在前面: 喔噢,转眼间发现自己正式开发程序(PHP)已经有快有1个月了,一路上走了许多的坑,有时遇到坑的时候真想放弃,但是还是坚持下来了!所以写了这篇文章来帮助那些刚刚接触PHP的小白们.[: )] ...

  2. Git pull 卡在Unpacking objects

    今天在拉取远程仓库的时候在Unpacking objects阶段 进度条卡住,不知道什么原因. 翻取相关资料搜索后得知:在拉取大型二进制对象(如Adobe Illustrator文件等)可能会使整个拉 ...

  3. USB小白学习之路(10) CY7C68013A Slave FIFO模式下的标志位(转)

    转自良子:http://www.eefocus.com/liangziusb/blog/12-11/288618_bdaf9.html CY7C68013含有4个大端点,可以用来处理数据量较大的传输, ...

  4. SQL Server 最小日志记录

    SQL Server之所以记录事务日志,首要目的是为了把失败或取消的操作还原到最原始的状态,但是,并不是所有的操作都需要完全记录事务日志,比如,在一个空表上放置排他锁,把大量的数据插入到该空表中.即使 ...

  5. 丰富图文详解B-树原理,从此面试再也不慌

    本文始发于个人公众号:TechFlow,原创不易,求个关注 本篇原计划在上周五发布,由于太过硬核所以才拖到了这周五.我相信大家应该能从标题当中体会到这个硬核. 周五的专题是大数据和分布式,我最初的打算 ...

  6. 【30分钟学完】canvas动画|游戏基础(6):坐标旋转探究

    前言 本篇主要讲坐标旋转及其应用,这是编程动画必不可少的技术. 阅读本篇前请先打好前面的基础. 本人能力有限,欢迎牛人共同讨论,批评指正. 坐标旋转 模拟场景:已知一个中心点(centerX,cent ...

  7. nodejs通过响应回写的方式渲染页面资源

    我们一般通过node框架提供的api操作页面渲染,如何利用原始回写的方式来实现同样的功能呢下面是通过node 提供的异步地读取一个文件的全部内容api readFile进行操作,代码如下: html ...

  8. TensorFlow Serving实现多模型部署以及不同版本模型的调用

    前提:要实现多模型部署,首先要了解并且熟练实现单模型部署,可以借助官网文档,使用Docker实现部署. 1. 首先准备两个你需要部署的模型,统一的放在multiModel/文件夹下(文件夹名字可以任意 ...

  9. 获取的ajax方法return的返回值的问题解析

    今天刚上班就偶遇关于获取Ajax方法return的返回值的问题,这里小记一下. 在使用jquery中,如果获取不到ajax返回值,原因有二: 一.ajax未使用同步 ajax未使用同步,导致数据未加载 ...

  10. 解决Sprite Atlas打包Asset bundles时重复打包的问题

    0x00 前言 在Unity 2018.4.6之前的版本,有一个和SpriteAtlas打AB包有关的常见问题.即当给Sprite Atlas打AB包时,Sprite Atlas Texture可能会 ...