【Python】【OpenCV】OCR识别（二）—

　　对于OCR技术在处理有角度有偏差的图像时是比较困难的，而水平的图像使用OCR识别准确度会高很多，因为文本通常是水平排列的，而OCR算法一般会假设文本是水平的。

　　针对上述情况，所以我们在处理有角度的图象时，需要将图像“摆正”，将使用到getPerspectiveTransform方法和warpPerspective方法。

getPerspectiveTransform：

参数：

src：源图像中的四个点坐标，以浮点数数组或列表的形式表示。这些点应按照逆时针方向指定。
dst：目标图像中对应的四个点坐标，以浮点数数组或列表的形式表示。这些点应按照逆时针方向指定。

返回值：

M：一个3x3的透视变换矩阵，以浮点数NumPy数组的形式返回。可以使用此变换矩阵将源图像中的点映射到目标图像中对应的点。

warpPerspective：

参数：

src：输入图像，可以是8位无符号整数类型、32位浮点类型或16位有符号整数类型。
M：3x3的变换矩阵，可以使用cv2.getPerspectiveTransform()函数计算得到。
dsize：输出图像的大小，以(width, height)的形式指定。可以通过cv2.resize()函数调整大小，也可以直接提供目标大小。
flags：插值方法的标志，可以是cv2.INTER_NEAREST、cv2.INTER_LINEAR、cv2.INTER_CUBIC或cv2.INTER_LANCZOS4之一。
borderMode：用于处理超出边界的像素值的标志，可以是cv2.BORDER_CONSTANT、cv2.BORDER_REPLICATE、cv2.BORDER_REFLECT、cv2.BORDER_WRAP或cv2.BORDER_REFLECT_101之一。

返回值：

dst：输出图像，与dsize参数指定的大小相同。

Code：

 1 height, width = numpy.int0(cv2.minAreaRect(goal_points)[1])

 2 hw_rate = height / width

 3 new_width = 400

 4 new_height = int(new_width * hw_rate)

 5 pts = numpy.float32([[0, 0], [new_width, 0], [new_width, new_height], [0, new_height]])

 6

 7 ll = [i for item in iter(goal_points) for i in item]

 8 if ll[0][0] > ll[1][0]:

 9     ll[0], ll[1] = ll[1], ll[0]

10 ll[2], ll[3] = ll[3], ll[2]

11

12 matrix = cv2.getPerspectiveTransform(numpy.float32(ll), pts)

13 iout = cv2.warpPerspective(image, matrix, (new_width, new_height))

思路：

1、首先我们将approxPolyDP逼近轮廓（goal_points）所返回的四个坐标点传入minAreaRect来获得逼近轮廓的宽高。

2、然后我们求取宽高比，为后续新的图片大小做准备。

3、我们设置一个新的宽（new_width）的值，并根据上一步求得的宽高比得到新的高（new_height）的值。

4、以顺时针坐标顺序，定义新图片的四个坐标点（pts）。

5、将goal_points（此时是三维数组）拆分成二维。

6、通过上一篇博客我们知道了approxPolyDP返回的坐标点是逆时针的，且第一个坐标是变化的，所以我们通过比较第一个坐标的x和第二个坐标的x来确定谁在左上角，并且因为我们定义的新窗口的四个坐标是顺时针，所以需要将第三第四个坐标对调一下，从而符合顺时针的要求。

7、调用getPerspectiveTransform方法和warpPerspective方法，最终得到我们透视变换后的水平图片。

注：关于warpPerspective的dsize参数，我们可以随意定义宽高，比如上述代码中可以直接将（new_width, new_height）替换成（300， 300）对应的pts中的new_width, new_height也需要进行替换，但是我们得到的图片是正方形的，和原图中的感兴趣区域的长方形并不相符，所以最终得到的透视变换图也就不理想的。

【Python】【OpenCV】OCR识别（二）——透视变换的更多相关文章

使用Python进行OCR -- 识别图片中的文字
工具 Tesseract pytesseract tesserocr 朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使 ...
Python OpenCV人脸识别案例
■环境 Python 3.6.0 Pycharm 2017.1.3 ■库.库的版本 OpenCV 3.4.1 (cp36) ■haarcascades下载 https://github.com/ope ...
Python+OpenCV图像处理（二）——打印图片属性、设置图片存储路径、电脑摄像头的调取和显示
一. 打印图片属性.设置图片存储路径代码如下: #打印图片的属性.保存图片位置 import cv2 as cv import numpy as np #numpy是一个开源的Python科学计算库 ...
Python 进行 OCR识别 -- pytesseract库
pip install pytesseract 报错:tesseract is not installed or it's not in your path 下载安装 Tesseract-OCR ht ...
python opencv 人脸识别
def findface(image): import cv2 frame=cv2.imread('n1.jpg') classifier=cv2.CascadeClassifier("h ...
Python+Opencv进行识别相似图片
http://blog.csdn.net/feimengjuan/article/details/51279629
深入学习OpenCV文档扫描及OCR识别（文档扫描，图像矫正，透视变换，OCR识别）
如果需要处理的原图及代码,请移步小编的GitHub地址传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/ComputerVisionPractice 下面 ...
基于Python实现对PDF文件的OCR识别
http://www.jb51.net/article/89955.htm https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-pytho ...
Python+opencv打开修图的正确方式get
先逼逼两句: 图像是 Web 应用中除文字外最普遍的媒体格式. 流行的 Web 静态图片有 JPEG.PNG.ICO.BMP 等.动态图片主要是 GIF 格式.为了节省图片传输流量,大型互联网公司还会 ...
python3使用OCR识别图片
放假三天,闲来无事,想学下python爬虫.本想跟着网上教程操作一遍,奈何安装使用过程中出现一堆问题,并且在网上搜了一堆复制黏贴的答案,关键都不能起作用,最后终于找到一篇生效,为了以后不至于再经历这种 ...

随机推荐

HarmonyOS 4.0 实况窗上线！支付宝实现医疗场景智能提醒
本文转载自支付宝体验科技,作者是蚂蚁集团客户端工程师博欢,介绍了支付宝如何基于 HarmonyOS 4.0 实况窗实现医疗场景履约智能提醒. 1.话题背景 8 月 4 日,华为在 HDC(华为 202 ...
一些对dp突然的理解
突然想到了一些理解,感觉有些模糊,怕忘记,就赶紧记下来就是对于状态的设计用01背包举例子吧,我们设计状态的时候一定是要保证所有可能在最后优秀的子状态在前面的时候是能够保留下来的也就是我们的状态设计要 ...
当个 PM 式程序员「GitHub 热点速览」
本周 GitHub 热点依旧是 GPT 类项目,当中的佼佼者自然是本文收录的 gpt-pilot,一周获得了 7k+ star.此外,像是 LangChain.Autogen 之类的 LLM 工具链项 ...
[ABC201D] Game in Momotetsu World 题解
Game in Momotetsu World 题目大意在一个 \(n\times m\) 的网格中,存在红色和蓝色两种格子,红色格子用 - 表示,蓝色格子用 + 表示. 现在 Takahashi ...
multiset用法汇总
c++语言中,multiset是<set>库中一个非常有用的类型,它可以看成一个序列,插入一个数,删除一个数都能够在O(logn)的时间内完成,而且他能时刻保证序列中的数是有序的,而且序列 ...
实战攻防演练-Linux写入ssh密钥，利用密钥登录
前言密钥形式登录的原理是利用密钥生成器制作一对密钥,一只公钥和一只私钥.将公钥添加到服务器的某个账户上,然后在客户端利用私钥即可完成认证并登录.这样一来,没有私钥,任何人都无法通过 SSH 暴力破解 ...
QT编程过程中遇到的问题
QT编程过程中遇到的问题 (一)QT卡死 (二)mingw转msvc编码问题 (三)内存泄漏问题 1. vld检查内存泄漏问题 2. QTextEdit造成内存泄漏 (end)后面会更新 (一)QT卡 ...
Net 高级调试之八：代码审查及杂项命令
一.简介今天是<Net 高级调试>的第八篇文章.这篇文章设计的内容挺多的,比如:如何查看方法的汇编代码,如何获取方法的描述符,对象同步块的转储,对象方法表的转储,托管堆和垃圾回收器信息的 ...
文心一言 VS 讯飞星火 VS chatgpt （141）-- 算法导论12.1 1题
一.用go语言,对于关键字集合(1,4,5,10,16,17,21),分别画出高度为 2.3.4.5和6的二又搜索树. 文心一言: 以下是用Go语言为给定的关键字集合(1, 4, 5, 10, 16, ...
【译】使用 GitHub Copilot 编写 Git 提交
在花费数小时修复 bug 或更新特性之后,我们开发人员最不愿意做的事情往往是仔细说明 Git 提交的内容.最新的 Visual Studio 预览版可以帮到您.使用新的生成 Git 提交消息特性来帮助 ...

【Python】【OpenCV】OCR识别（二）——透视变换

【Python】【OpenCV】OCR识别（二）——透视变换的更多相关文章

随机推荐

热门专题