Machine Learning第十一周笔记:photo OCR
博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)
刚刚完毕了Cousera上Machine Learning的最后一周课程。这周介绍了machine learning的一个应用:photo OCR(optimal character recognition,光学字符识别),以下将笔记整理在以下。
Photo OCR
Problem Description and Pipeline
最后几小节介绍机器学习的一个应用——photo OCR(optimal character recognition。光学字符识别),这一样例的内容也能够应用于计算机视觉(computor vision)。photo OCR要解决的问题是怎样让计算机识别出图像中的文字。给定一张图像,photo OCR首先要做的是确定当中文字的位置,例如以下图所看到的:

然后将当中的文字正确转录下来。
photo OCR仍是机器学习的难点之中的一个。它能够帮助盲人“看到”面前的事物,能够帮助汽车自己主动识别道路上的物体。促进自己主动驾驶技术的实现。
为了实现photo OCR,我们要做的几个过程例如以下:
- 文本探測(text detection),确定文本在图像中的位置
- 字符分割(character segmentation),将含有文本的图像片段分割出来,并按一个一个字符切分
- 字符识别(character classification),将图像中的字符准确的识别出来
当然实际的操作可能要复杂得多,但整体上就是这几步,这被称为photo OCR pipeline

Sliding Windows
这一小节介绍photo OCR的一个细节——滑动窗体(sliding windows)。我们使用的路人探測(pedestrain detection)的样例来引出滑动窗体,下图中含有多个路人,随着路人与相机距离的大小。代表路人的矩形尺寸不同,但原理一样。

我们在路人探測中使用监督式学习,我们的数据是一个个图像片段,尺寸为82×36(实际尺寸依据须要选择)。下图给出了分类为y=1的positive example和分类为y=0的negative example。
如果有这样的图像片段数千份。那我们就能够从中训练到一个hypothesis,用于推断新的图像片段中是否含有路人。我们拿上面的那张图像做test set,找出当中的路人。我们从图像的最最左上角选择一个尺寸为82×36的图像片段,成为窗体。推断当中是否有路人。
然后向右滑动窗体,假定步长为4(当然,步长为1精确度最高,但速度下降,依据实际情况调整)。每滑动一次推断一次。滑动最左側之后。再从最左側向下滑动一个步长再向右滑动。直至滑动到整个图像的最最右下角,就扫描完了整张图像。




以下回到photo OCR,此问题的positive examples和negative examples例如以下图所看到的。
然后使用上面讲的滑动窗体去扫描整个图像。找到文本所在的图像片段。


上图是整个过程的一个示意图。以下两张图像中的白色部分相应原始图像中的文本位置,当中右面这张是对左面那张的整合处理(大概应该就是将作图中挨着的白色片段整合成一大块)。接下来是字符分割,我们仍然使用滑动窗体。下图给出了positive examples和negative examples。注意,我们要的positive examples是这样的恰优点在两个字符中间的这样的位置,在这样的位置我们才干准确将字符切分开来。

最后一步是进行字符的识别:

Getting Lots of Data and Artificial Data
这一小节介绍人工数据合成(artificial data synthesis)。下图给出了实际遇到的数据,我们应该能够从这些图像(这里我们使用的都是灰度图像,比彩色的更好一些)片段中准确识别出字符。
另外字符可能会使用多种不同的字体,那怎样得到很多其它的训练样本呢?我们能够将不同字体的不同字符随机的粘贴到不同的背景上得到人工合成的训练样本,以下第二张图为示意。
通过这样的方法,我们能够获得大量与原始数据非常类似的合成数据。


第二种方法是通过将原有的图像片段做扭曲处理来得到新的训练样本。详细例如以下图所看到的:

视频还给出了语音识别通过引入扭曲来人工合成数据的样例,通过对原始录音(original audio)处理,得到以下合成数据:夹杂电话信号不好的杂音的录音(audio on bad cellphone connection)、嘈杂环境下的录音(audio on crowd background)、机器运转环境下的录音(audio on machinery background)。
最后,我们说全部的合成数据应该都是基于原始数据(即原始数据中必须包括有效信息)的,不能向数据集中加入没有意义的噪声。
在添加很多其它训练数据之前。我们应该确保模型是low bias的,由于仅仅有这样的模型才干通过增大training set来改善其性能。
比如,对于神经网络,我们能够通过添加特征数量,模型层数来确保模型是low bias的,然后再增大training set。
视频介绍的最后一个问题是获得数据的时间开销,在实际应用中,我们应该将其作为一个成本来考虑。详细就不写了。(我认为吧。没啥可写的。给出一张截图)

Ceiling Analysis: What Part of the Pipeline to Work on Next
这一小节介绍上限分析(ceiling analysis)。上限分析能够帮助我们分析整个pipeline的哪一步更值得我们去优化,以获得更好的性能。如果我们在test set上測试我们的模型,得到72%的accuracy。第一步。我们用人工去做text detection部分的工作(此时,该部分的accuracy达到100%),此时模型的accuracy提升到89%。第二步,我们再用人工去完毕character segmentation部分的工作(此时该部分的accuracy也达到100%)。然后模型的accuracy达到90%。第三步。我们用人工去完毕character recognition的工作。终于模型的accuracy达到100%。我们得到以下这张表:

分析上面这张表,我们发现通过对pipeline中三个步骤的提升,我们能够分别将模型的accuracy添加17%、1%、10%。前面我们对三个步骤的提升已经达到上限(三个步骤的性能均分别优化到了100%,不能更好),由此得到的三组数据也是上限,这就是上限分析。由此,我们知道对text detection和character recognition两个步骤的优化能够更大程度的改善整个pipeline的性能。所以我们要优先考虑优化这两个步骤。
下图给出了面部识别的pipeline,供我们加深理解。

对该pipeline的上限分析见下图,从这张图我们知道最值得优化的步骤是face detection。

Conclusion
Summary and Thank you
最后一小节。总结了这门课程的全部内容,见下图。

认真学完了这门课程,我们就了解了机器学习的一些基本算法和一些技巧,算是勉强入了门。接下来还有很多其它的东西等待着我们去学习。
Machine Learning第十一周笔记:photo OCR的更多相关文章
- Machine Learning第十周笔记:大规模机器学习
博客已经迁移到Marcovaldo's blog (http://marcovaldong.github.io/) 刚刚完毕了Andrew Ng在Cousera上的Machine Learning的第 ...
- 《Machine Learning Yearing》读书笔记
——深度学习的建模.调参思路整合. 写在前面 最近偶尔从师兄那里获取到了吴恩达教授的新书<Machine Learning Yearing>(手稿),该书主要分享了神经网络建模.训练.调节 ...
- Machine Learning - 第6周(Advice for Applying Machine Learning、Machine Learning System Design)
In Week 6, you will be learning about systematically improving your learning algorithm. The videos f ...
- Machine Learning - 第3周(Logistic Regression、Regularization)
Logistic regression is a method for classifying data into discrete outcomes. For example, we might u ...
- Machine Learning – 第2周(Linear Regression with Multiple Variables、Octave/Matlab Tutorial)
Machine Learning – Coursera Octave for Microsoft Windows GNU Octave官网 GNU Octave帮助文档 (有900页的pdf版本) O ...
- 《Structuring Machine Learning Projects》课堂笔记
Lesson 3 Structuring Machine Learning Projects 这篇文章其实是 Coursera 上吴恩达老师的深度学习专业课程的第三门课程的课程笔记. 参考了其他人的笔 ...
- Machine Learning 第一二周
# ML week 1 2 一.关于machine learning的名词 学习 从无数数据提供的E:experience中找到一个函数使得得到T:task后能够得到P:prediction 监督学习 ...
- Coursera 机器学习 第6章(下) Machine Learning System Design 学习笔记
Machine Learning System Design下面会讨论机器学习系统的设计.分析在设计复杂机器学习系统时将会遇到的主要问题,给出如何巧妙构造一个复杂的机器学习系统的建议.6.4 Buil ...
- Machine Learning - 第7周(Support Vector Machines)
SVMs are considered by many to be the most powerful 'black box' learning algorithm, and by posing构建 ...
随机推荐
- HDU.4694.Important Sisters(支配树)
HDU \(Description\) 给定一张简单有向图,起点为\(n\).对每个点求其支配点的编号和. \(n\leq 50000\). \(Solution\) 支配树. 还是有点小懵逼. 不管 ...
- 如何在Android中的Activity启动第三方应用程序?
如何在点击某个按键后,执行启动第三方应用程序界面? /** * <功能描述> 启动应用程序 * * @return void [返回类型说明] */ private void startU ...
- [模板][P3803]多项式乘法
Description: FFT真的容易忘,所以就放到上面来了 #include<bits/stdc++.h> using namespace std; const int mxn=4e6 ...
- FFT是个啥?
简单来说就是一个计算多项式乘法的东西呀.. 以下内容基本都是在大黑书<算法导论>上的.. 总述 对于项数为$n$的多项式$A(x)$和项数为$m$的多项式$B(x)$,可以如此表达: $$ ...
- python网络编程(十三)
协程-greenlet版 为了更好使用协程来完成多任务,python中的greenlet模块对其封装,从而使得切换任务变的更加简单 安装方式 使用如下命令安装greenlet模块: sudo pip ...
- HTML常用标签2
1 <!DOCTYPE>标签 声明位于文档最前面的位置,处于<html>标签之前.告知浏览器文档使用哪种规范 模式: 1. BackCompat:怪异模式,浏览器使用自己的怪异 ...
- Spring mvc前台后台传值
前台向后台传值: ①同名参数传递:form表单中提交input,Controller方法入参中,直接以同名参数获取 ②不同名参数传递:from表单提交input,Controller方法入参中需要使用 ...
- bootstrap学习总结
bootstrap网站下载: 谷歌浏览器访问:http://github.com/twbs/bootstrap/ 右上角(clone or download) 编译版bootstrap:http ...
- java socket编程中backlog的含义(zz)
使用Java.NET.ServerSocket能够方便的创建一个服务端套接字,这个类的构造函数有一个参数backlog.下面这段代码,在本机的8888端口上建立了一个套接字,backlog设置为5. ...
- Mockito-简单使用使用
参考案例:(本位使用markdown编写) git.oschina实例:https://gitee.com/lhhTestTool/LhhMockito # LhhMockitomock 单元测试 M ...