caffe 中如何打乱训练数据

第一：

可以选择在将数据转换成lmdb格式时进行打乱；

设置参数--shuffle=1；（表示打乱训练数据）

默认为0，表示忽略，不打乱。

打乱的目的有两个：防止出现过分有规律的数据，导致过拟合或者不收敛。

在caffe中可能会使得，在模型进行测试时，每一个测试样本都输出相同的预测概率值。

或者，直接打乱训练文件的标签文件：train.txt

方法如下：

1）将 train_160309-train.txt按行打乱，每行内容则保持不变，命令：

cd 存放文件的路径
awk 'BEGIN{ 100000*srand();}{ printf "%s %s\n", rand(), $0}' train_160309-train.txt |sort -k1n | awk '{gsub($1FS,""); print $0}'

2）但这样处理后只是在屏幕上输出显示，如果需要将输出写入新的文本train.txt，则在末尾加上 | tee train.txt：

sudo awk 'BEGIN{ 100000*srand();}{ printf "%s %s\n", rand(), $0}' train_160309-train.txt |sort -k1n | awk '{gsub($1FS,""); print $0}' | tee train.txt

3）如果不需要在屏幕上输出显示，直接将输出写入新的文本train.txt，则在末尾将 | tee 换作 > 即可：

sudo awk 'BEGIN{ 100000*srand();}{ printf "%s %s\n", rand(), $0}' train_160309-train.txt |sort -k1n | awk '{gsub($1FS,""); print $0}' > train.txt

附：

1、awk命令详解

2、tee命令详解

参考：https://blog.csdn.net/u010555688/article/details/50475739

caffe 中如何打乱训练数据的更多相关文章

在caffe中使用hdf5的数据
caffe默认使用的数据格式为lmdb文件格式,它提供了把图片转为lmdb文件格式的小程序,但是呢,我的数据为一维的数据,我也要分类啊,那我怎么办?肯定有办法可以转为lmdb文件格式的,我也看了一些源 ...
python numpy 三行代码打乱训练数据
今天发现一个用 numpy 随机化数组的技巧. 需求我有两个数组( ndarray ):train_datasets 和 train_labels.其中,train_datasets 的每一行和 t ...
caffe中python接口的使用
下面是基于我自己的接口,我是用来分类一维数据的,可能不具通用性: (前提,你已经编译了caffe的python的接口) 添加 caffe塻块的搜索路径,当我们import caffe时,可以找到. 对 ...
（原）caffe中通过图像生成lmdb格式的数据
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5909121.html 参考网址: http://www.cnblogs.com/wangxiaocvp ...
CAFFE中训练与使用阶段网络设计的不同
神经网络中,我们通过最小化神经网络来训练网络,所以在训练时最后一层是损失函数层(LOSS), 在测试时我们通过准确率来评价该网络的优劣,因此最后一层是准确率层(ACCURACY). 但是当我们真正要使 ...
caffe中使用crop_size剪裁训练图片
layer { name: "data" type: "Data" top: "data" top: "label" i ...
caffe学习--使用caffe中的imagenet对自己的图片进行分类训练(超级详细版) -----linux
http://blog.csdn.net/u011244794/article/details/51565786 标签: caffeimagenet 2016-06-02 12:57 9385人阅读 ...
sql 中实现打乱数据的排序
sql 中实现打乱数据的排序 order by NEWID()就实现了数据的打乱
caffe 中 python 数据层
caffe中大多数层用C++写成. 但是对于自己数据的输入要写对应的输入层,比如你要去图像中的一部分,不能用LMDB,或者你的label 需要特殊的标记. 这时候就需要用python 写一个输入层. ...

随机推荐

51nod 1129 字符串最大值
首先我们可以想到的是,既然求的是前缀的长度,就意味着一定是从1开始的,那么我们可以直接用下标表示每一个前缀.但是可能存在几个前缀互相包含的情况,比如:abababa我们可以看见的是aba中包含着ab ...
luogu P2024 食物链
题目描述动物王国中有三类动物 A,B,C,这三类动物的食物链构成了有趣的环形.A 吃 B,B 吃 C,C 吃 A. 现有 N 个动物,以 1 - N 编号.每个动物都是 A,B,C 中的一种,但是我 ...
【函数式权值分块】【块状链表】bzoj3065 带插入区间K小值
显然是块状链表的经典题.但是经典做法的复杂度是O(n*sqrt(n)*log^2(n))的,出题人明确说了会卡掉. 于是我们考虑每个块内记录前n个块的权值分块. 查询的时候差分什么的,复杂度就是O(n ...
python3 Django框架报错（备忘录）
这篇博客主要总结的学习Django框架中,遇到的报错如何去解决问题: 1.decimal.InvalidOperation: decimal.InvalidOperation: [<class ...
python3 开发面试题（字典和拷贝）5.30
""" 问:执行完下面的代码后, l,m的内容分别是什么? """ def func(m): for k,v in m.items(): m ...
[CF915F]Imbalance Value of a Tree
[CF915F]Imbalance Value of a Tree 题目大意: 一棵$n(n\le10^6)$个结点的树,每个结点有一个权值$w_i$.定义$I(i,j)$为$i$到\ ...
【R笔记】R语言中的字符串处理函数
内容概览尽管R是一门以数值向量和矩阵为核心的统计语言,但字符串同样极为重要.从医疗研究数据里的出生日期到文本挖掘的应用,字符串数据在R程序中使用的频率非常高.R语言提供了很多字符串操作函数,本文仅简 ...
十. 图形界面(GUI)设计6.文本框和文本区
在图形界面中,文本框和文本区是用于信息输入输出的组件. 文本框文本框(JTextField)是界面中用于输入和输出一行文本的框.JTextField类用来建立文本框.与文本框相关的接口是Action ...
Oracle TRCA 工具说明 10046
本篇文章主要介绍了"Oracle TRCA 工具说明 ",主要涉及到Oracle TRCA 工具说明方面的内容,对于Oracle TRCA 工具说明感兴趣的同学可以参考一 ...
基于tiny4412的u-boot移植（二）
作者信息作者:彭东林邮箱:pengdonglin137@163.com QQ: 405728433 平台介绍开发环境:win7 64位 + VMware11 + Ubuntu14.04 64位 ...

caffe 中如何打乱训练数据

caffe 中如何打乱训练数据的更多相关文章

随机推荐

热门专题