OCR训练数据生成方法

有的时候我们训练网络的时候，数据集在收集的过程中由于种种原因导致图像收集的不完整，比如某些种类很少，或者没有，这个时候我们就可以考虑自己生成数据集。

这个和data augmentation还不太一样，data augmentation是在数据集上做一些变化，得到更多的数据，数据生成是直接生成一些数据集。

在做OCR识别的时候，因为有些类型的数据量很少，所以就考虑了一下数据生成的方法。

安装 imagemagick 工具

imagemagick 工具，可以用来生成不同字体的图像。

imagemagick安装

生成图像格式

为了让生成的图像更加真实，我做了一下操作

修改字体

添加背景

旋转角度

增加噪点

具体实现

#coding=utf8

import os

import cv2

import pickle

import random

from glob import glob

import numpy as np

# 为图像添加背景

def add_background(img):

	# 从自然场景中选择一些图像，因为我是做OCR，所以我从ICDAR 2015的数据集选择了一些图像

    bg_imgs_path = glob('background/*.jpg')

    bg_img = cv2.imread(bg_imgs_path[random.randint(0, len(bg_imgs_path)-1)])

    bg_img = cv2.cvtColor(bg_img, cv2.COLOR_RGB2GRAY)

    # 这个大概是一个字的像素大小，根据具体场景而定

    start_y = random.randint(0, bg_img.shape[0]-9)

    start_x = random.randint(0, bg_img.shape[1]-9)

    bg_img = cv2.resize(bg_img[start_y:start_y+8, start_x:start_x+8], img.shape)

    beta = 0.5

    # 像素叠加

    return img * (1 - beta) + bg_img * beta

# 随机噪点

def salt_and_pepper(img,noise_num):

    noise_img = img

    for i in range(noise_num):

        randX = random.randint(0, img.shape[0]-1)

        randY = random.randint(0, img.shape[1]-1)

        if random.randint(0, 1) == 0:

            noise_img[randX,randY]=0

        else:

            noise_img[randX,randY]=255

    return noise_img

# 增加噪声，高斯平滑

def add_noise(img):

	# 这里没有增加噪点

    img = salt_and_pepper(img, random.randint(0, 0))

    filter_size = random.randint(0, 3) * 2 + 1

    # 高斯平滑

    img = cv2.GaussianBlur(img, (filter_size, filter_size), sigmaX=0)

    return img

# 旋转图像

def rotate_image(mat, angle):

    # angle in degrees

    # opencv python和c++的接口，这里顺序是相反的

    height, width = mat.shape[:2]

    image_center = (width/2, height/2)

    rotation_mat = cv2.getRotationMatrix2D(image_center, angle, 1.)

    abs_cos = abs(rotation_mat[0,0])

    abs_sin = abs(rotation_mat[0,1])

    bound_w = int(height * abs_sin + width * abs_cos)

    bound_h = int(height * abs_cos + width * abs_sin)

    rotation_mat[0, 2] += bound_w/2 - image_center[0]

    rotation_mat[1, 2] += bound_h/2 - image_center[1]

    rotated_mat = cv2.warpAffine(mat, rotation_mat, (bound_w, bound_h))

    return rotated_mat

# 设置需要生成的数据集列表，格式： index num

# index 表示在种类标签中的索引，也就是第几类，num表示此类图像已有的个数

label_path = 'sup_remain_data.txt'

# 输出目录

local_dir = 'supplement2/'

# 输出生成数据集的标签值

gen_suppl_list = 'supplement2/gen_supplement2.txt'

# 每一类图像都生成总共110张，如果已经有一部分了，只需要生成剩下部分的

pic_num = 110 # 100:10

train_num = 100

test_num = 10

# 设置种类和要生成的图像个数

label_genNum = {}

with open(label_path) as fin:

    lines = fin.readlines()

    for line in lines:

        label, num = line.strip().split(' ')

        label_genNum[label] = pic_num - int(num)

# 读入所有标签种类

std_label = {}

with open('data.txt') as fin:

    lines = fin.readlines()

    for index, line in enumerate(lines):

        std_label[str(index)] = line.strip()

#grav=['NorthWest','North','NorthEast','West','Center','East','SouthWest','South','SouthEast']

bgcolor=['black','white', 'gray', 'gray', 'black', 'white']

fillcolor=['white','black','black', 'white', 'gray', 'gray']

# 这个目录下放当前文字常用字体格式文件

ttfs=glob('ttfs/*')

count = 0

with open(gen_suppl_list, 'w') as fout:

    for label, gen_num in label_genNum.items():

        count += 1

        print count

        for i in range(gen_num):

            img_name = label + '_' + str(i) + '.jpg'

            print str(label) + ' ' + std_label[label] + ' ' + label + '_' + str(i)

            fout.write(str(label) + ' ' + std_label[label] + ' ' + label + '_' + str(i) +'\n')

            if os.path.exists(local_dir+img_name):

                continue

            #index_g = random.randint(0, len(grav)-1)

            index_b = random.randint(0, len(bgcolor)-1)

            index_t = random.randint(0, len(ttfs)-1)

            #font_size = random.randint(20, 40)

            # 设置字体、填充方式、背景颜色、像素点大小、图像输出大小

            system_cmd = 'convert -font {0} -fill {1} -background {2} -pointsize 30 -colorspace Gray -gravity "Center" ' \

            '-size 40x40 label:"{3}" "{4}"'.format(ttfs[index_t], fillcolor[index_b], bgcolor[index_b], std_label[str(label)], local_dir+img_name)

            os.system(system_cmd)

            img = cv2.imread(local_dir+img_name, 0)

            # 几种变化效果叠加，这样生成的图像就是具有多种效果的，不需要单独每种效果生成过多的图像

            img = add_background(img)

            img = add_noise(img)

            img = rotate_image(img, random.randint(-5, 5))

            #cv2.imshow('gen image', img)

            #cv2.waitKey(0)

            cv2.imwrite(local_dir+img_name, img)

print count

print 'language supplement-set 生成完毕...'

OCR训练数据生成方法的更多相关文章

pytorch：EDSR 生成训练数据的方法
Pytorch:EDSR 生成训练数据的方法引言 Winter is coming 正文 pytorch提供的DataLoader 是用来包装你的数据的工具. 所以你要将自己的 (numpy arr ...
谷歌BERT预训练源码解析（一）：训练数据生成
目录预训练源码结构简介输入输出源码解析参数主函数创建训练实例下一句预测&实例生成随机遮蔽输出结果一览预训练源码结构简介关于BERT,简单来说,它是一个基于Transformer架构,结合遮蔽词 ...
tflearn kears GAN官方demo代码——本质上GAN是先训练判别模型让你能够识别噪声，然后生成模型基于噪声生成数据，目标是让判别模型出错。GAN的过程就是训练这个生成模型参数！！！
GAN:通过将样本特征化以后, 告诉模型哪些样本是黑哪些是白, 模型通过训练后, 理解了黑白样本的区别, 再输入测试样本时, 模型就可以根据以往 ...
生成JSON数据--官方方法
官方生成方法: 1)需要什么就给什么,要属性就给属性,要对象就给对象,要集合就给集合 2)添加都是使用put()方法要求: 1.生成如下JSON数据: {"age":4,&quo ...
对抗生成网络-图像卷积-mnist数据生成(代码) 1.tf.layers.conv2d(卷积操作) 2.tf.layers.conv2d_transpose(反卷积操作) 3.tf.layers.batch_normalize(归一化操作) 4.tf.maximum(用于lrelu) 5.tf.train_variable(训练中所有参数) 6.np.random.uniform(生成正态数据
1. tf.layers.conv2d(input, filter, kernel_size, stride, padding) # 进行卷积操作参数说明:input输入数据, filter特征图的 ...
[Oracle]快速生成大量模拟数据的方法
快速生成大量模拟数据的方法: create table TEST(id integer, TEST_NUMBER NUMBER(18,6)); insert into TEST select i+j, ...
QT使用QJson生成解析Json数据的方法
QT中使用json还是比较方便的,下面用例子直接说明举例子之前首先推荐一个在线解析json格式的网站,具体格式用法如下图所示: 之后根据这个格式进行json数据解析. QT使用json需要包含的头文 ...
oracle中生成大批量数据的方法-下
方法五:使用PLSQL的数据生成器首先测试环境建立:dept表 CREATE TABLE dept(deptno NUMBER(6),dname VARCHAR2(20),loc VARCHAR2( ...
tensorflow读取训练数据方法
1. 预加载数据 Preloaded data # coding: utf-8 import tensorflow as tf # 设计Graph x1 = tf.constant([2, 3, 4] ...

随机推荐

升级个人网站框架组件IBatisNet+Castle
<sqlMap namespace="Sequence" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance& ...
js一个数组变为指定长度的多个数组
var dataArr = [0,1,2,3,4,5,6,7,8,9,10]; var newArr = []; var s = parseInt(dataArr.length / 4); var n ...
【BZOJ3144】[Hnoi2013]切糕最小割
[BZOJ3144][Hnoi2013]切糕 Description Input 第一行是三个正整数P,Q,R,表示切糕的长P. 宽Q.高R.第二行有一个非负整数D,表示光滑性要求.接下来是R个P行Q ...
好难忘又伤心一个非常好的学习js群解散了
不知道为什么看到web前端之天天向上这个群解散,好难过.应该可以说,这个群是我见过比较靠谱的群,大家都非常热情帮助.那些管理员管理的非常好,突然解散了.觉得好可惜,也不会因为你是菜鸟不让你加,感觉好可 ...
flask大全
django:重武器,内部包含了非常多组件:ORM.Form.ModelForm.缓存.Session,中间件,信号等... flask:短小精悍.内部没有太多组件,第三方组件非常丰富 1.初识fla ...
海量数据存储之nosql教程（转）
add by zhj: 不错的系列,作者介绍了NoSQL数据库,并重点研究了Memcached和Redis,不知道后续是否还有其它NoSQL数据库的文章海量数据存储之nosql教程之-01基础理论 ...
java 遍历map的方法
package com.jackey.topic; import java.util.ArrayList;import java.util.HashMap;import java.util.Itera ...
0601-Zuul构建API Gateway-API gateway简介、基础使用、路由配置、负载配置
一.API Gateway简介参看:http://www.cnblogs.com/bjlhx/p/8794437.html 二.zuul简介[路由器和过滤器:Zuul] 在微服务架构的组成部分进行路 ...
简明python教程七----面向对象的编程（下）
继承:类之间的类型和子类型关系代码重用:SchoolMember类被称为基本类或超类,而Teacher和Student类被称为导出类或者子类 #!/usr/bin/python #Filename ...
解决 hybird 应用中重复获取 WebView，导致页面元素无法识别的问题
转载地址:http://blog.csdn.net/testman930/article/details/50799532 问题描述在测APP的业务流,WebView和Native模式耦合在一起.例 ...

OCR训练数据生成方法

安装 imagemagick 工具

生成图像格式

具体实现

OCR训练数据生成方法的更多相关文章

随机推荐

热门专题