Keras Data augmentation(数据扩充)

在深度学习中，我们经常需要用到一些技巧(比如将图片进行旋转，翻转等)来进行data augmentation, 来减少过拟合。在本文中，我们将主要介绍如何用深度学习框架keras来自动的进行data augmentation。

keras.preprocessing.image.ImageDataGenerator(featurewise_center=False,

    samplewise_center=False,

    featurewise_std_normalization=False,

    samplewise_std_normalization=False,

    zca_whitening=False,

    zca_epsilon=1e-6,

    rotation_range=0.,

    width_shift_range=0.,

    height_shift_range=0.,

    shear_range=0.,

    zoom_range=0.,

    channel_shift_range=0.,

    fill_mode='nearest',

    cval=0.,

    horizontal_flip=False,

    vertical_flip=False,

    rescale=None,

    preprocessing_function=None,

    data_format=K.image_data_format())

生成批次的带实时数据增益的张量图像数据。数据将按批次无限循环。

参数：
- featurewise_center: 布尔值。将输入数据的均值设置为 0，逐特征进行。
- samplewise_center: 布尔值。将每个样本的均值设置为 0。
- featurewise_std_normalization: 布尔值。将输入除以数据标准差，逐特征进行。
- samplewise_std_normalization: 布尔值。将每个输入除以其标准差。
- zca_epsilon: ZCA 白化的 epsilon 值，默认为 1e-6。
- zca_whitening: 布尔值。应用 ZCA 白化。
- rotation_range: 整数。随机旋转的度数范围。
- width_shift_range: 浮点数（总宽度的比例）。随机水平移动的范围。
- height_shift_range: 浮点数（总高度的比例）。随机垂直移动的范围。
- shear_range: 浮点数。剪切强度（以弧度逆时针方向剪切角度）。
- zoom_range: 浮点数或 [lower, upper]。随机缩放范围。如果是浮点数，[lower, upper] = [1-zoom_range, 1+zoom_range]。
- channel_shift_range: 浮点数。随机通道转换的范围。
- fill_mode: {"constant", "nearest", "reflect" or "wrap"} 之一。输入边界以外的点根据给定的模式填充：
  - "constant": kkkkkkkk|abcd|kkkkkkkk (cval=k)
  - "nearest": aaaaaaaa|abcd|dddddddd
  - "reflect": abcddcba|abcd|dcbaabcd
  - "wrap": abcdabcd|abcd|abcdabcd
- cval: 浮点数或整数。用于边界之外的点的值，当 fill_mode = "constant" 时。
- horizontal_flip: 布尔值。随机水平翻转。
- vertical_flip: 布尔值。随机垂直翻转。
- rescale: 重缩放因子。默认为 None。如果是 None 或 0，不进行缩放，否则将数据乘以所提供的值（在应用任何其他转换之前）。
- preprocessing_function: 应用于每个输入的函数。这个函数会在任何其他改变之前运行。这个函数需要一个参数：一张图像（秩为 3 的 Numpy 张量），并且应该输出一个同尺寸的 Numpy 张量。
- data_format: {"channels_first", "channels_last"} 之一。"channels_last" 模式表示输入尺寸应该为 (samples, height, width, channels)，"channels_first" 模式表示输入尺寸应该为 (samples, channels, height, width)。默认为在 Keras 配置文件 ~/.keras/keras.json 中的 image_data_format 值。如果你从未设置它，那它就是 "channels_last"。

方法:
fit(x): 根据一组样本数据，计算与数据相关转换有关的内部数据统计信息。当且仅当 featurewise_center 或 featurewise_std_normalization 或 zca_whitening 时才需要。
flow(x, y): 传入 Numpy 数据和标签数组，生成批次的增益的/标准化的数据。在生成的批次数据上无限制地无限次循环。
flow_from_directory(directory): 以目录路径为参数，生成批次的增益的/标准化的数据。在生成的批次数据上无限制地无限次循环。

from keras.preprocessing.image import ImageDataGenerator,array_to_img,img_to_array,load_img

datagen=ImageDataGenerator(

    rotation_range=40,

    width_shift_range=0.2,

    height_shift_range=0.2,

    shear_range=0.2,

    zoom_range=0.2,

    horizontal_flip=True,

    fill_mode='nearest'

)

img=load_img("test.jpg")

x=img_to_array(img) # 把PIL图像格式转换成numpy格式

x=x.reshape((1,)+x.shape)

i=0

for batch in datagen.flow(x,batch_size=2,save_to_dir="datagen",save_prefix="cat",save_format="jpeg"):

    i+=1

    if i>10:

        break

其他注意api:

compile

compile(self, optimizer, loss, metrics=None, loss_weights=None, sample_weight_mode=None, weighted_metrics=None, target_tensors=None)

用于配置训练模型。

fit

fit(self, x=None, y=None, batch_size=None, epochs=1, verbose=1, callbacks=None, validation_split=0.0, validation_data=None, shuffle=True, class_weight=None, sample_weight=None, initial_epoch=0, steps_per_epoch=None, validation_steps=None)

以固定数量的轮次（数据集上的迭代）训练模型。

fit_generator

fit_generator(self, generator, steps_per_epoch=None, epochs=1, verbose=1, callbacks=None, validation_data=None, validation_steps=None, class_weight=None, max_queue_size=10, workers=1, use_multiprocessing=False, shuffle=True, initial_epoch=0)

使用 Python 生成器逐批生成的数据，按批次训练模型。

evaluate

evaluate(self, x=None, y=None, batch_size=None, verbose=1, sample_weight=None, steps=None)

在测试模式下返回模型的误差值和评估标准值。

evaluate_generator

evaluate_generator(self, generator, steps=None, max_queue_size=10, workers=1, use_multiprocessing=False)

在数据生成器上评估模型。

predict

predict(self, x, batch_size=None, verbose=0, steps=None)

为输入样本生成输出预测。

predict_generator

predict_generator(self, generator, steps=None, max_queue_size=10, workers=1, use_multiprocessing=False, verbose=0)

为来自数据生成器的输入样本生成预测。

https://keras.io/zh/preprocessing/image/

Keras Data augmentation(数据扩充)的更多相关文章

keras对图像数据进行增强 | keras data augmentation
本文首发于个人博客https://kezunlin.me/post/8db507ff/,欢迎阅读最新内容! keras data augmentation Guide code # import th ...
L22 Data Augmentation数据增强
数据 img2083 链接:https://pan.baidu.com/s/1LIrSH51bUgS-TcgGuCcniw 提取码:m4vq 数据cifar102021 链接:https://pan. ...
常见的数据扩充（data augmentation）方法
G~L~M~R~S 一.data augmentation 常见的数据扩充(data augmentation)方法:文中图片均来自吴恩达教授的deeplearning.ai课程 1.Mirrorin ...
【48】数据扩充（Data augmentation）
数据扩充(Data augmentation) 大部分的计算机视觉任务使用很多的数据,所以数据扩充是经常使用的一种技巧来提高计算机视觉系统的表现.我认为计算机视觉是一个相当复杂的工作,你需要输入图像的 ...
深度学习中的Data Augmentation方法（转）基于keras
在深度学习中,当数据量不够大时候,常常采用下面4中方法: 1. 人工增加训练集的大小. 通过平移, 翻转, 加噪声等方法从已有数据中创造出一批"新"的数据.也就是Data Augm ...
图像数据增强 (Data Augmentation in Computer Vision)
1.1 简介深层神经网络一般都需要大量的训练数据才能获得比较理想的结果.在数据量有限的情况下,可以通过数据增强(Data Augmentation)来增加训练样本的多样性, 提高模型鲁棒性,避免过拟 ...
paper 147：Deep Learning -- Face Data Augmentation（一）
1. 在深度学习中,当数据量不够大时候,常常采用下面4中方法: (1)人工增加训练集的大小. 通过平移, 翻转, 加噪声等方法从已有数据中创造出一批"新"的数据.也就是Data ...
Regularizing Deep Networks with Semantic Data Augmentation
目录概主要内容代码 Wang Y., Huang G., Song S., Pan X., Xia Y. and Wu C. Regularizing Deep Networks with Se ...
论文解读(GraphDA)《Data Augmentation for Deep Graph Learning: A Survey》
论文信息论文标题:Data Augmentation for Deep Graph Learning: A Survey论文作者:Kaize Ding, Zhe Xu, Hanghang Tong, ...

随机推荐

iview-cli 项目、iView admin 跨域问题解决方案
在build 目录的 webpack.dev.config.js 目录中 module.exports = merge(webpackBaseConfig, { devtool: '#source-m ...
Tensorflow学习：（一）tensorflow框架基本概念
一.Tensorflow基本概念 1.使用图(graphs)来表示计算任务,用于搭建神经网络的计算过程,但其只搭建网络,不计算 2.在被称之为会话(Session)的上下文(context)中执行图 ...
[python]一个关于默认参数的老问题和一个有关优化的新问题
一个老问题: def func(defau=[]): defau.append(1) return defau print(func())#print[1] print(func())#print[1 ...
[leetcode greedy]45. Jump Game II
Given an array of non-negative integers, you are initially positioned at the first index of the arra ...
Centos7(Firewall)防火墙开启常见端口命令
使用云服务器的,一定要注意开启安全组配置的响应端口 Centos7默认安装了firewalld,如果没有安装的话,则需要YUM命令安装:firewalld真的用不习惯,与之前的iptable防火墙区别 ...
POJ2104 K-th Number 不带修改的主席树线段树
http://poj.org/problem?id=2104 给定一个序列,求区间第k小通过构建可持久化的点,得到线段树左儿子和右儿子的前缀和(前缀是这个序列从左到右意义上的),然后是一个二分的ge ...
[Arc058E] Iroha and Haiku
[Arc058E] Iroha and Haiku 题目大意问有多少\(n\)个数的正整数序列,每个数在\([1,10]\)之间,满足存在\(x,y,z,w\)使得\(x\to y-1,y\to z ...
在线HTTP速度测试(响应时间测试)及浏览器兼容测试
一.前言网站的响应时间,是判断一个网站是否是好网站的重要的因素之一.百度首页的响应时间在全国各个省份小于10ms.这个响应时间远远好于竞争对手.根据美丽说的技术负责人分析,美丽说访问速度提升10%, ...
hdu 5288 OO’s Sequence（2015多校第一场第1题）枚举因子
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5288 题意:在闭区间[l,r]内有一个数a[i],a[i]不能整除除去自身以外的其他的数,f(l,r ...
【洛谷】NOIP提高组模拟赛Day1【组合数学】【贪心+背包】【网络流判断是否满流以及流量方案】
U41568 Agent1 题目背景 2018年11月17日,中国香港将会迎来一场XM大战,是世界各地的ENLIGHTENED与RESISTANCE开战的地点,某地的ENLIGHTENED总部也想派 ...