图像文字识别(OCR)用什么算法小结

ysyouaremyall 2024-10-31 11:37:20 原文

说明：主要考虑深度学习的方法，传统的方法不在考虑范围之内。

1.文字识别步骤

1.1detection：找到有文字的区域（proposal)。

1.2classification：识别区域中的文字。

2.文字检测

文字检测主要有两条线，两步法和一步法。

2.1两步法：faster-rcnn.

2.2一步法：yolo。相比于两步法，一步法速度更快，但是accuracy有损失。

文字检测按照文字的角度分。

2.1水平文字检测：四个自由度，类似于物体检测。水平文字检测比较好的算法是2016ECCV乔宇老师团队的CTPN。

2.2倾斜文字检测：文本框是不规则的四边形，八个自由度。倾斜文字检测个人比较喜欢的方法是2017CVPR的EAST和Seglink。套路：检测文本框－>用radon hough变换等方法进行文本矫正－>通过投影直方图分割出单行的文本的图片－>最后对单行OCR。

3.文字识别

只考虑了不需要对文字进行分割。

3.1定长的，各个字符之间看成是独立的：multi-digit number。

3.2不定长的：RNN/LSTM/GRU+CTC。白翔老师团队的CRNN写的比较清楚。

3.3不定长的attention-mechanism（CNN+RNN+Attention）:分为hard attention（直接给出hard location，不能直接暴力pb）、soft attention（可以暴力pb）、gradient-base attention。

参考:https://www.zhihu.com/question/20191727

图像文字识别(OCR)用什么算法小结的更多相关文章

文字识别OCR开源框架的对比--Tesseract vs EasyOCR
前言: OCR文字识别在目前有着比较好的应用,也出现了很多的文字识别软件,但软件是面向用户的.对于我们技术人员来说,有时难免需要在计算机视觉任务中加入文字识别,如车牌号识别,票据识别等,因此软件对 ...
【图片识别】java 图片文字识别 ocr （转）
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
java 图片文字识别 ocr
最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为java使用的demo 在此之前,使用这个工具需要在本地安装OCR工具: 下面一个是一定要安装的 ...
py库： Tesseract-OCR（图像文字识别）
http://blog.csdn.net/u012566751/article/details/54094692 Tesseract-OCR入门使用1 http://blog.csdn.net/u01 ...
如何大批量的识别图片上的文字，批量图片文字识别OCR软件系统
软件不需要安装,直接双击打开就可以用,废话不多说直接上图好了,方便说明问题批量图片OCR(批量名片识别.批量照片识别等)识别,然后就下来研究了一下,下面是成果使用步骤:打开单个图片识别,导入文件夹 ...
有道自然语言翻译和文字识别OCR(图片文字识别)接口调用
官网 http://ai.youdao.com 文档地址 http://ai.youdao.com/docs/doc-ocr-api.s#p01 在Python中调用api. #/usr/bin/en ...
python实现中文图片文字识别--OCR about chinese text--tesseract
0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库安装pillow: pip install pillow 安装tesseract: tesseract ...
吴恩达机器学习笔记61-应用实例：图片文字识别(Application Example: Photo OCR)【完结】
最后一章内容,主要是OCR的实例,很多都是和经验或者实际应用有关:看完了,总之,善始善终,继续加油!! 一.图像识别(店名识别)的步骤: 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从 ...
如何精准实现OCR文字识别？
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由云计算基础发表于云+社区专栏前言 2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别-- ...

随机推荐

转载：java中抽象类和接口的作用与区别
abstract class和interface是Java语言中对于抽象类定义进行支持的两种机制,正是由于这两种机制的存在,才赋予了Java强大的面向对象能力. abstract class和inte ...
题解 P2960 【[USACO09OCT]Milkweed的入侵Invasion of the Milkweed】
题目链接首先这道题是一道经典的BFS.非常适合刚刚学习深搜的同学. 现在分析一下这个问题.首先,每周是八个方向.就是一圈. 也就是说入侵的范围关于时间是成辐射型扩散.让求最大时间. 也就是完美的BF ...
51nod1228 序列求和（伯努利数）
题面传送门题解 \(O(n^2)\)预处理伯努利数不知道伯努利数是什么的可以看看这篇文章不过这个数据范围拉格朗日差值应该也没问题--吧--大概-- //minamoto #include< ...
洛谷P2764 最小路径覆盖问题（最大流）
传送门先说做法:把原图拆成一个二分图,每一个点被拆成$A_i,B_i$,若原图中存在边$(u,v)$,则连边$(A_u,B_v)$,然后$S$对所有$A$连边,所有$B$对$T$连边,然后跑一个最大 ...
【BZOJ1053】[HAOI2007]反素数（搜索+数论）
\([POI2002][HAOI2007]\)反素数题目描述对于任何正整数x,其约数的个数记作\(g(x)\).例如\(g(1)=1.g(6)=4\). 如果某个正整数x满足:\(g(x)> ...
SDUT OJ 多项式求和
多项式求和 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Discuss Problem Description 多项式描述 ...
实现bootstrap的dropdown-menu(下拉菜单)点击后不关闭的方法 (转)
实现bootstrap的dropdown-menu(下拉菜单)点击后不关闭的方法问题描述,在下拉菜单中,添加其他元素,例如,原文作者所述的<a>和我自己实际用到的<input> ...
springcloud微服务总结三服务客户端
一 springcloud服务理解: dubbo中服务注册和调用都是都过注解来进行的,dubbo中在service层中调用服务是通过将@service注解改变为dubbo代码架包中的service注解 ...
Qt 学习之路 2（46）：视图和委托
Home / Qt 学习之路 2 / Qt 学习之路 2(46):视图和委托 Qt 学习之路 2(46):视图和委托豆子 2013年3月11日 Qt 学习之路 2 63条评论前面我们介绍了 ...
Qt 学习之路 2（40）：隐式数据共享
Qt 学习之路 2(40):隐式数据共享豆子 2013年1月21日 Qt 学习之路 2 14条评论 Qt 中许多 C++ 类使用了隐式数据共享技术,来最大化资源利用率和最小化拷贝时的资源消耗.当作为 ...