对于OCR技术在处理有角度有偏差的图像时是比较困难的,而水平的图像使用OCR识别准确度会高很多,因为文本通常是水平排列的,而OCR算法一般会假设文本是水平的。

  针对上述情况,所以我们在处理有角度的图象时,需要将图像“摆正”,将使用到getPerspectiveTransform方法和warpPerspective方法。

getPerspectiveTransform:

参数:

  • src:源图像中的四个点坐标,以浮点数数组或列表的形式表示。这些点应按照逆时针方向指定。
  • dst:目标图像中对应的四个点坐标,以浮点数数组或列表的形式表示。这些点应按照逆时针方向指定。

返回值:

  • M:一个3x3的透视变换矩阵,以浮点数NumPy数组的形式返回。可以使用此变换矩阵将源图像中的点映射到目标图像中对应的点。

warpPerspective:

参数:

  • src:输入图像,可以是8位无符号整数类型、32位浮点类型或16位有符号整数类型。
  • M:3x3的变换矩阵,可以使用cv2.getPerspectiveTransform()函数计算得到。
  • dsize:输出图像的大小,以(width, height)的形式指定。可以通过cv2.resize()函数调整大小,也可以直接提供目标大小。
  • flags:插值方法的标志,可以是cv2.INTER_NEARESTcv2.INTER_LINEARcv2.INTER_CUBICcv2.INTER_LANCZOS4之一。
  • borderMode:用于处理超出边界的像素值的标志,可以是cv2.BORDER_CONSTANTcv2.BORDER_REPLICATEcv2.BORDER_REFLECTcv2.BORDER_WRAPcv2.BORDER_REFLECT_101之一。

返回值:

  • dst:输出图像,与dsize参数指定的大小相同。

Code:

 1 height, width = numpy.int0(cv2.minAreaRect(goal_points)[1])
2 hw_rate = height / width
3 new_width = 400
4 new_height = int(new_width * hw_rate)
5 pts = numpy.float32([[0, 0], [new_width, 0], [new_width, new_height], [0, new_height]])
6
7 ll = [i for item in iter(goal_points) for i in item]
8 if ll[0][0] > ll[1][0]:
9 ll[0], ll[1] = ll[1], ll[0]
10 ll[2], ll[3] = ll[3], ll[2]
11
12 matrix = cv2.getPerspectiveTransform(numpy.float32(ll), pts)
13 iout = cv2.warpPerspective(image, matrix, (new_width, new_height))

思路:

1、首先我们将approxPolyDP逼近轮廓(goal_points)所返回的四个坐标点传入minAreaRect来获得逼近轮廓的宽高。

2、然后我们求取宽高比,为后续新的图片大小做准备。

3、我们设置一个新的宽(new_width)的值,并根据上一步求得的宽高比得到新的高(new_height)的值。

4、以顺时针坐标顺序,定义新图片的四个坐标点(pts)。

5、将goal_points(此时是三维数组)拆分成二维。

6、通过上一篇博客我们知道了approxPolyDP返回的坐标点是逆时针的,且第一个坐标是变化的,所以我们通过比较第一个坐标的x和第二个坐标的x来确定谁在左上角,并且因为我们定义的新窗口的四个坐标是顺时针,所以需要将第三第四个坐标对调一下,从而符合顺时针的要求。

7、调用getPerspectiveTransform方法和warpPerspective方法,最终得到我们透视变换后的水平图片。

注:关于warpPerspective的dsize参数,我们可以随意定义宽高,比如上述代码中可以直接将(new_width, new_height)替换成(300, 300)对应的pts中的new_width, new_height也需要进行替换,但是我们得到的图片是正方形的,和原图中的感兴趣区域的长方形并不相符,所以最终得到的透视变换图也就不理想的。

【Python】【OpenCV】OCR识别(二)——透视变换的更多相关文章

  1. 使用Python进行OCR -- 识别图片中的文字

    工具 Tesseract pytesseract tesserocr 朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使 ...

  2. Python OpenCV人脸识别案例

    ■环境 Python 3.6.0 Pycharm 2017.1.3 ■库.库的版本 OpenCV 3.4.1 (cp36) ■haarcascades下载 https://github.com/ope ...

  3. Python+OpenCV图像处理(二)——打印图片属性、设置图片存储路径、电脑摄像头的调取和显示

    一. 打印图片属性.设置图片存储路径 代码如下: #打印图片的属性.保存图片位置 import cv2 as cv import numpy as np #numpy是一个开源的Python科学计算库 ...

  4. Python 进行 OCR识别 -- pytesseract库

    pip install pytesseract 报错:tesseract is not installed or it's not in your path 下载安装 Tesseract-OCR ht ...

  5. python opencv 人脸识别

    def findface(image): import cv2  frame=cv2.imread('n1.jpg') classifier=cv2.CascadeClassifier("h ...

  6. Python+Opencv进行识别相似图片

    http://blog.csdn.net/feimengjuan/article/details/51279629

  7. 深入学习OpenCV文档扫描及OCR识别(文档扫描,图像矫正,透视变换,OCR识别)

    如果需要处理的原图及代码,请移步小编的GitHub地址 传送门:请点击我 如果点击有误:https://github.com/LeBron-Jian/ComputerVisionPractice 下面 ...

  8. 基于Python实现对PDF文件的OCR识别

    http://www.jb51.net/article/89955.htm https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-pytho ...

  9. Python+opencv打开修图的正确方式get

    先逼逼两句: 图像是 Web 应用中除文字外最普遍的媒体格式. 流行的 Web 静态图片有 JPEG.PNG.ICO.BMP 等.动态图片主要是 GIF 格式.为了节省图片传输流量,大型互联网公司还会 ...

  10. python3使用OCR识别图片

    放假三天,闲来无事,想学下python爬虫.本想跟着网上教程操作一遍,奈何安装使用过程中出现一堆问题,并且在网上搜了一堆复制黏贴的答案,关键都不能起作用,最后终于找到一篇生效,为了以后不至于再经历这种 ...

随机推荐

  1. vue中watch侦听器,deep和immediate的用法

    1.deep深度监听的用法 当监听一个对象时,可能想监听整个对象的变化,而不仅仅是某个属性.但在默认情况下,如果你正在监听formData对象并且修改了formData.username,对应的侦听器 ...

  2. ElasticSearch系列——介绍、安装、插件介绍、安装ElasticSearch插件、安装Kibana、安装中文分词器、倒排索引、索引操作、映射管理

    文章目录 ElasticSearch之介绍 一 Elasticsearch产生背景 1.1 大规模数据如何检索 1.2 传统数据库的应对解决方案 1.3 非关系型数据库解决方案 1.4 内存数据库解决 ...

  3. idea修改默认maven配置

    idea修改默认maven配置 方法一 (不推荐) 打开project.default.xml文件,在其中加入如下几行配置. 代码如下 保存修改之后新建一个maven项目查看效果 方法二 新增Proj ...

  4. CSP-J 2022 游记

    10.9 早上睡到 7:00. 上午继续学习 Vim,学习哈希表. 10.11 白天线段树,区间加从六参改成四参就过了 晚上模拟赛,感觉良好 10.16 膜你赛,std变量命名毒瘤. 想用 geogb ...

  5. SP3377

    题目简化和分析: 前言:这题目背景真奇怪. 我们可以将每种关系,看成一条边,如果出现奇数边环就不满足. 例如:\(a,b\) 异性 \(a,c\) 异性 \(b,c\)异性 这种情况是不满足的. 相当 ...

  6. 使用Kali Linux进行主机发现实验

    主机发现 [实训目的] 掌握主机扫描的工作原理,学会使用ping等扫描工具,发现网络当中活跃的主机. [场景描述] 在虚拟机环境下配置4个虚拟系统"Win XP1" "W ...

  7. OpenGL 纹理详解

    1. 纹理 在OpenGL中,纹理是一种常用的技术,用于将图像或图案映射到3D模型的表面上,以增加图形的细节和真实感 2. 纹理坐标 纹理坐标在x和y轴上,范围为0到1之间(注意我们使用的是2D纹理图 ...

  8. 数据泄露成LLM应用最大障碍,如何用RPA Agent智能体破解谜题?

    大语言模型数据泄露堪忧,超自动化Agent成解决之道 数据泄露成LLM应用最大障碍,如何用RPA Agent智能体破解谜题? 从RPA Agent智能体安全机制,看AI Agent如何破解LLM应用安 ...

  9. C语言【进制、原反补码、数据类型】

    C语言[进制.原反补码.数据类型] 1.二进制.八进制.十进制.十六进制在C语言中的使用(赋值及输出)? /** 二进制 赋值时以 0b 或 0B 开头: 输出时没有所属占位符, 十六进制整数输出也比 ...

  10. 超实用:通过文字就可以操纵这款AI表格

    公众号「架构成长指南」,专注于生产实践.云原生.分布式系统.大数据技术分享. 工具介绍 今天给大家分享超实用的AI表格ChatExcel,这个工具是由北大团队在2022年3月开始开发的AI表格处理神器 ...