解决的目标问题:多分类问题,比如车辆的外形和颜色,苹果的大小和颜色;多任务:车牌角点的定位和车牌的颜色。定位在技术上属于回归,车牌颜色判断则属于分类。
  
  技术点
  
  caffe默认是单输入任务单标签的,也就是一个样本,其任务只有一个,标签只有一个,比如图片是什么颜色,图片是什么物体。
  
  # ${caffe_src_root}/tools/convert_imageset.cpp 第121行
  
  status = ReadImageToDatum(root_folder + lines[line_id].first,
  
  lines[line_id].second, resize_height, resize_width, is_color,
  
  enc, &datum);
  
  ## 其中 ReadImageToDatum的定义如下 ${caffe_src_root}/include/caffe/util/io.hpp
  
  bool ReadImageToDatum(const string& filename, const int label,
  
  const int height, const int width, const bool is_color,
  
  const std::string & encoding, Datum* datum);
  
  ## ${caffe_src_root}/src/caffe/util/io.cpp 中的该函数实现,涉及到Datum的定义,需要把Datum定义修改成也要支持多标签
  
  bool ReadImageToDatum(const string& filename, const int label,
  
  const int height, const int width, const bool is_color,
  
  const std::string & encoding, Datum* datum) {
  
  cv::Mat cv_img = ReadImageToCVMat(filename, height, width, is_color);
  
  if (cv_img.data) {
  
  if (encoding.size()) {
  
  if ( (cv_img.channels() == 3) == is_color && !height && !width &&
  
  matchExt(filename, encoding) )
  
  return ReadFileToDatum(filename, label, datum);
  
  std::vector<uchar> buf;
  
  cv::imencode("."+encoding, cv_img, buf);
  
  datum->set_data(std::string(reinterpret_cast<char*>(&buf[0]),
  
  buf.size()));
  
  datum->set_label(label);
  
  datum->set_encoded(true);
  
  return true;
  
  }
  
  CVMatToDatum(cv_img, datum);
  
  datum->set_label(label);
  
  return true;
  
  } else {
  
  return false;
  
  }
  
  }
  
  为了支持多任务,多标签,首先要解决输入问题。比如一个样本 定义如下:
  
  vehicle/1.jpg 0 1
  
  修改源码支持多标签
  
  其中第一个属性是车辆外形,0代表sedian,第二个属性是车身颜色,1代表白色。假如图片是60x60的RGB图像, 如果是单任务多属性输入,一个简单的更改方案是把ReadImageToDatum函数修改成如下定义,并修改相关的实现函数和convert_imageset.cpp
  
  bool ReadImageToDatum(const string& filename, const vector<int> & labels,
  
  const int height, const int width, const bool is_color,
  
  const std::string & encoding, Datum* datum);
  
  faster rcnn采用自定义的python输入层作用训练输入,输入有多个labels,检测目标的roi,其中bbox_targets, bbox_inside_weights, bbox_outside_weights是作为SmoothL1Loss损失函数的输入。自定义python输入层的源码参考 py-faster-rcnn/lib/roi_data_layer/
  
  name: "VGG_ILSVRC_16_layers"
  
  layer {
  
  name: 'data'
  
  type: 'Python'
  
  top: 'data'
  
  top: 'rois'
  
  top: 'labels'
  
  top: 'bbox_targets'
  
  top: 'bbox_inside_www.jiahuayulpt.com weights'
  
  top: 'bbox_outside_weights'
  
  python_param {
  
  module: 'roi_data_www.baohuayule.net/ layer.layer'
  
  layer: 'RoIDataLayer'
  
  param_str: "'num_classes': 21"
  
  }
  
  }
  
  从https://github.com/HolidayXue/CodeSnap/blob/master/convert_multilabel.cpp源码修改,保存到${caffe_root}/tools/convert_multi_label_www.yongshi123.cn imageset.cpp,重新编译caffe工程,在${caffe_root}目录下运行该工具,
  
  .build_release/tools/convert_multi_label_imageset.bin -resize_width=256 -resize_height=256 ~/my\ workspace/bounding-box-tool/mlds/train.list /train-data/vehicle-type-color-dataset/
  
  多数据源输入支持多标签
  
  假设对于HxW的RGB图像,转换成caffe的blob定义上1x3xHxW,对于一个任务的有n个标签,则其blob定义是1xnx1x1,每个任务对应一个blob,???那么可以在在第二维度对两个blob进行拼接???
  
  拼接之后再从第二维度对blob进行切分操作,切分出多个blob,作为每个属性训练任务的输入
  
  拼接之后进行常规的卷积操作,只是在最后的每个任务的损失函数之前的fc层再切分,如下图
  
  训练
  
  参考faster-rcnn的模型,可以看到损失函数是相互独立的,但多了一个weight参数,猜测是caffe在训练时,按下面的公式计算总的损失
  
  Lt = w1*L1 + w2 * L2
  
  faster-rcnn中经过一系列卷积层后,连接了一个ROIPooling层,再接上FC6、FC7层,从最后一个FC7层一分为2,分别接一个cls_score的FC层和名为loss_cls的SoftMaxWithLoss,接bbox_pred的FC层和名为loss_bbox的SmoothL1Loss的回归层
  
  参考:
  
  https://arxiv.org/abs/1604.02878v1
  
  https://kpzhang93.github.io/MTCNN_face_detection_alignment/index.html?from=timeline&isappinstalled=1
  
  https://kpzhang93.github.io/MTCNN_face_www.078886.cn detection_alignment/paper/spl.pdf
  
  https://github.com/happynear/MTCNN_face_detection_alignment
  
  https://github.com/naritapandhe/Gender-Age-Classification-CNN
  
  https://github.com/cunjian/multitask_CNN
  
  https://zhuanlan.zhihu.com/p/22190532
  
  https://github.com/rbgirshick/ www.tiaotiaoylzc.com py-faster-rcnn/blob/master/models/pascal_voc/VGG16/fast_rcnn/train.prototxt
  
  ${caffe_source_root}/examples/pascal-multilabel-with-datalayer.ipynb
  
  http://www.cnblogs.com/yymn/articles/7741741.html
  
  https://yq.aliyun.com/ziliao/572047
  
  https://blog.csdn.net/u013010889/article/details/53098346
  
  caffe网络在线可视化工具: http://www.yongshiyule178.com ethereon.github.io/netscope/#/editor

caffe多任务、多标签的更多相关文章

  1. Caffe实现多标签输入,添加数据层(data layer)

    因为之前遇到了sequence learning问题(CRNN),里面涉及到一张图对应多个标签.Caffe源码本身是不支持多类标签数据的输入的. 如果之前习惯调用脚本create_imagenet.s ...

  2. caffe读取多标签的lmdb数据

    问题描述: lmdb文件支持数据+标签的形式,但是却只能写入一个标签,引入多标签的解决方法有很多,这儿详细说一下我的办法:制作多个data数据,分别加入一个标签.我的方法只适用于标签数量较少的情况,标 ...

  3. caffe实现多任务学习

    Github: https://github.com/Haiyang21/Caffe_MultiLabel_Classification Blogs  1. 采用多label的lmdb+Slice L ...

  4. 多标签caffe重新编译

    说明: Caffe自带的图像转LMDB接口只支持单label,对于多label的任务,可以使用HDF5的格式,也可以通过修改caffe代码来实现.本篇文章介绍怎么通过修改DataLayer来实现带Mu ...

  5. MachineLN博客目录

    MachineLN博客目录 https://blog.csdn.net/u014365862/article/details/78422372 本文为博主原创文章,未经博主允许不得转载.有问题可以加微 ...

  6. Caffe-SSD相关源码说明和调试记录

    1      对Blob的理解及其操作: Blob是一个四维的数组.维度从高到低分别是: (num_,channels_,height_,width_) 对于图像数据来说就是:图片个数,彩色通道个数, ...

  7. 下载imagenet2012数据集,以及label说明

    updated@2018-12-07 15:22:08 官方下载地址:http://www.image-net.org/challenges/LSVRC/2012/nonpub-downloads , ...

  8. caffe 根据txt生成多标签LMDB数据

    1. 前提: 已经准备好train.txt, test.txt文件, 格式如下 此处有坑, 如果是windows下生成txt, 换行符为\r\n, 需要替换成 \n才能在linux运行. 可以使用se ...

  9. Multi label 多标签分类问题(Pytorch,TensorFlow,Caffe)

    适用场景:一个输入对应多个label,或输入类别间不互斥 调用函数: 1. Pytorch使用torch.nn.BCEloss 2. Tensorflow使用tf.losses.sigmoid_cro ...

随机推荐

  1. STM32驱动ILI9341控制器控制TFTLCD显示

    STM32驱动ILI9341控制器控制TFTLCD显示 一.用STM32控制TFTLCD显示的编程方法,在编程驱动TFTLCD液晶显示器之前,我们先熟悉以下概念: 1.色彩深度,这是一个与TFTLCD ...

  2. jQueryMobile的按钮样式

    好吧,已经学了jQueryMobile一年了,今天心血来潮,想要写一篇关于jQueryMobile的博客文章,记得去年暑假在公司实习jQueryMobile,想一想真是怀念当时还是菜鸟的自己,年轻就是 ...

  3. 20155210 Exp2 后门原理与实践

    20155210 Exp2 后门原理与实践 1.Windows获得Linux Shell 在windows下,打开CMD,使用ipconfig指令查看本机IP 如图: 然后使用ncat.exe程序,n ...

  4. 基于.NET Standard的分布式自增ID算法--美团点评LeafSegment

    概述 前一篇文章讲述了最流行的分布式ID生成算法snowflake,本篇文章根据美团点评分布式ID生成系统文章,介绍另一种相对更容易理解和编写的分布式ID生成方式. 实现原理 Leaf这个名字是来自德 ...

  5. Win7 64位操作系统连接HP 1010打印机完美解决方案

    工作的第一天就遇到问题,新电脑无法连接老式的HP1010打印机,64位Windows7系统无法连接32位XP网络共享打印机,而32位WIN7就可以. 这里分享个简单的解决方法:        先去下载 ...

  6. NO--12模拟服务器端请求之node.js

    最近几天项目上线,工作比较忙,没时间更博了,好在今天有点时间并且同事问道我一个问题,正好一块解决 使用 Vue 写项目肯定会遇到一个问题,如何模拟服务端请求数据,那这就需要用到 node.js 了. ...

  7. 炸弹人的Alpha版使用说明

    本游戏是一款手机游戏,学生可以在无聊时打发时间,放松心情.现在只有三关,但游戏运行还算可以. 注意事项: 目前游戏还有一些不好的地方,游戏无法暂停,如果游戏任务死亡,则无法重开. 游戏后面的关卡还需要 ...

  8. 集美大学1414班软件工程个人作业2——个人作业2:APP案例分析

    一.作业链接 个人作业2:APP案例分析 二.博文要求 通过分析你选中的产品,结合阅读<构建之法>,写一篇随笔,包含下述三个环节的所有要求.  第一部分 调研, 评测 下载软件并使用起来, ...

  9. Alpha版本冲刺(十)

    目录 组员情况 组员1(组长):胡绪佩 组员2:胡青元 组员3:庄卉 组员4:家灿 组员5:凯琳 组员6:翟丹丹 组员7:何家伟 组员8:政演 组员9:黄鸿杰 组员10:刘一好 组员11:何宇恒 展示 ...

  10. div z-index无论设置多高都不起作用

    这种情况发生的条件有三个: 1.父标签position属性为relative: 2.当前标签无position属性(relative,absolute,fixed): 3.当前标签含有浮动(float ...