3D U-Net卷积神经网络

3D U-Net这篇论文的诞生主要是为了处理一些块状图（volumetric images），基本的原理跟U-Net其实并无大差，因为3D U-Net就是用3D卷积操作替换了2D的，不过在这篇博文中我会按照论文的结构大概介绍一下整体的原理及结构运用。当然在原本的论文中，论文作者为了证实框架的可执行性及实验的最终结果，是设立了两组不同的实验的，一个是半自动设置（即：人为地利用算法对3D图像中地某些切片（slices）进行标注然后再放入模型中去跑程序），而另外一种情况则是作者假设有代表性地，稀疏地标注训练集是存在地，直接将数据输入模型进行end-to-end地训练，这部分地处理我将不详细描述，有兴趣的朋友或者小伙伴请点击下面论文链接进行下载阅读理解，在博文中将主要讲述3D U-Net的结构及特征。

论文地址：https://arxiv.org/abs/1606.06650

1. 介绍（Introduction)

生物医学影像（biomedical images）很多时候都是块状的，也就是说是由很多个切片构成一整张图的存在。如果是用2D的图像处理模型去处理3D本身不是不可以，但是会存在一个问题，就是不得不将生物医学影像的图片一个slice一个slice成组的（包含训练数据和标注好的数据）的送进去设计的模型进行训练，在这种情况下会存在一个效率问题，因而很多时候处理块状图的时候会让任感到不适，并且数据预处理的方式也相对比较繁琐（tedious）。

所以，论文的作者就提出来了3D -Net模型，模型不仅解决了效率的问题，并且对于块状图的切割只要求数据中部分切片被标注即可（可参考下图说明）。

2. 模型结构（Network Architecture）

整个3D U-Net的模型是基于之前U-Net（2D）创建而来，同样包含了一个encoder部分和一个decoder部分，encoder部分是用来分析整张图片并且进行特征提取与分析，而与之相对应的decoder部分是生成一张分割好的块状图。论文中使用的输入图像的大小是132 * 132 * 116，整个网络的结构前半部分（analysis path）包含及使用如下卷积操作：

a. 每一层神经网络都包含了两个 3 * 3 * 3的卷积(convolution)

b. Batch Normalization（为了让网络能更好的收敛convergence）

c. ReLU

d. Downsampling：2 * 2 * 2的max_polling，步长stride = 2

而与之相对应的合成路径（synthesis path）则执行下面的操作：

a. upconvolution: 2 * 2 * 2，步长=2

b. 两个正常的卷积操作：3 * 3 * 3

c. Batch Normalization

d. ReLU

e. 于此同时，需要把在analysis path上相对应的网络层的结果作为decoder的部分输入，这样子做的原因跟U-Net博文提到的一样，是为了能采集到特征分析中保留下来的高像素特征信息，以便图像可以更好的合成。

整体的一个网络结构如下图所示，其实可以看出来跟2D结构的U-Net是基本一样，唯一不同的就是全部2D操作换成了3D，这样子做了之后，对于volumetric image就不需要单独输入每个切片进行训练，而是可以采取图片整张作为输入到模型中（PS：但是当图像太大的时候，此时需要运用random crop的技巧将图片随机裁切成固定大小模块的图片放入搭建的模型进行训练，当然这是后话，之后将会在其他文章中进行介绍）。除此之外，论文中提到的一个亮点就是，3D U-Net使用了weighted softmax loss function将未标记的像素点设置为0以至于可以让网络可以更多地仅仅学习标注到的像素点，从而达到普适性地特点。

3. 训练细节（Training）

3D U-Net同样采用了数据增强（data augmentation）地手段，主要由rotation、scaling和将图像设置为gray，于此同时在训练数据上和真实标注的数据上运用平滑的密集变形场(smooth dense deformation field)，主要是通过从一个正态分布的随机向量样本中选取标准偏差为4的网格，在每个方向上具有32个体素的间距，然后应用B样条插值(B-Spline Interpolation，不知道什么是B样条插值法的可以点连接进行查看，在深度学习模型的创建中有时候也不需要那么复杂，所以这里仅限了解，除非本身数学底子很好已经有所了解)，B样条插值法比较笼统地说法就是在原本地形状上找到一个类似地形状来近似（approximation）。之后就对数据开始进行训练，训练采用的是加权交叉熵损失（weighted cross-entropy loss function）以至于减少背景的权重并增加标注到的图像数据部分的权重以达到平衡的影响小管和背景体素上的损失。

实验的结果是用IoU（intersection over union）进行衡量的，即比较生成图像与真实被标注部分的重叠部分。3D U-Net的IoU的具体公式如下：

IoU = True Positives / (True Positives + Falese Negatives + False Positives)

4. 总结

论文针对肾脏的生物医学影像的分割结果达到了IoU=86.3%的结果。3D U-Net的诞生在医学影像分割，特别是那些volumetric images都是由很大帮助的，因为它很大程度上解决了3D图像一个个slice送入模型进行训练的尴尬局面，也大幅度的提升训练效率，并且保留了FCN和U-Net本来具备的优秀特征。在这里附上一个个人看到不错的代码实现（非原作者的，原作是用Caffe实现的）：https://github.com/ellisdg/3DUnetCNN

3D U-Net卷积神经网络的更多相关文章

卷积神经网络 CNN
卷积神经网络与普通的神经网络十分相似:他们都由神经元构成,这些神经元拥有可学习的权重和偏差.每一个神经元接收一些输入,执行点积运算并以非线性可选择地跟随它.整个网络仍然表征一个单个可微分的分数函数:从 ...
基于3D卷积神经网络的行为识别：3D Convolutional Neural Networks for Human Action Recognition
简介: 这是一片发表在TPAMI上的文章,可以看见作者有余凯(是百度的那个余凯吗?) 本文提出了一种3D神经网络:通过在神经网络的输入中增加时间这个维度(连续帧),赋予神经网络行为识别的功能. 相应提 ...
基于3D卷积神经网络的人体行为理解（论文笔记）（转）
基于3D卷积神经网络的人体行为理解(论文笔记) zouxy09@qq.com http://blog.csdn.net/zouxy09 最近看Deep Learning的论文,看到这篇论文:3D Co ...
硕毕论文_基于 3D 卷积神经网络的行为识别算法研究
论文标题:基于 3D 卷积神经网络的行为识别算法研究来源/作者机构情况: 中国地质大学(北京),计算机学院,图像处理方向解决问题/主要思想贡献: 1. 使用张量CP分解的原理, ...
了解1D和3D卷积神经网络 | Keras
当我们说卷积神经网络(CNN)时,通常是指用于图像分类的2维CNN.但是,现实世界中还使用了其他两种类型的卷积神经网络,即1维CNN和3维CNN.在本指南中,我们将介绍1D和3D CNN及其在现实世界 ...
lecture5-对象识别与卷积神经网络
Hinton第五课突然不知道object recognition 该翻译成对象识别好,还是目标识别好,还是物体识别好,但是鉴于范围性,还是翻译成对象识别吧.这一课附带了两个论文<Convolu ...
Deep learning with Theano 官方中文教程（翻译）（四）—— 卷积神经网络（CNN）
供大家相互交流和学习,本人水平有限,若有各种大小错误,还请巨牛大牛小牛微牛们立马拍砖,这样才能共同进步!若引用译文请注明出处http://www.cnblogs.com/charleshuang/. ...
卷积神经网络(CNN)前向传播算法
在卷积神经网络(CNN)模型结构中,我们对CNN的模型结构做了总结,这里我们就在CNN的模型基础上,看看CNN的前向传播算法是什么样子的.重点会和传统的DNN比较讨论. 1. 回顾CNN的结构在上一 ...
deeplearning.ai 卷积神经网络 Week 4 特殊应用：人脸识别和神经风格转换听课笔记
本周课程的主题是两大应用:人脸检测和风格迁移. 1. Face verification vs. face recognition Verification: 一对一的问题. 1) 输入:image, ...
第十三章——卷积神经网络（CNN）
卷积神经网络(Convolutional neural networks,CNNs)来源于对大脑视觉皮层的研究,并于1980s开始应用于图像识别.现如今CNN已经在复杂的视觉任务中取得了巨大成功,比如 ...

随机推荐

2018.8.2 Juint测试介绍及其命名的规范
JUnit - 测试框架什么是 Junit 测试框架? JUnit 是一个回归测试框架,被开发者用于实施对应用程序的单元测试,加快程序编制速度,同时提高编码的质量.JUnit 测试框架能够轻松完成以 ...
Spring 上下文操作工具类 ContextUtils
ContextUtils.java package com.java.config; import org.springframework.beans.BeansException; import o ...
Spring常用配置 Scope
Bean的Scope Scope描述的是Spring容器如何新建Bean的实例的.Spring的Scope有以下几种,通过@Scope注解来实现. 1.Singleton:一个Spring容器中 ...
Ubuntu 12.04 the system is running in low-graphics mode
1.出现问题如图所示: 2.解决方案: Ctrl + Alt + F1 df -h 输入密码,到了这一步,也是可以使用terminal,那么没有图形界面也是可以的 cd /etc/X11 sudo c ...
ssh框架复习
1.Hibernate中实体类的创建规则是什么? 2.hibernate中实体类的三种状态? 三种状态: 1. new 出来一个新对象 TakeTime takeTime = new TakeTime ...
this以及执行上下文概念的重新认识
在理解this的绑定过程之前,必须要先明白调用位置,调用位置指的是函数在代码中被调用的位置,而不是声明所在的位置. (ES6的箭头函数不在该范围内,它的this在声明时已经绑定了,而不是取决于调用时. ...
Delphi 编写DLL动态链接库文件的知识
一.DLL动态链接库文件的知识简介: Windows的发展要求允许同时运行的几个程序共享一组函数的单一拷贝.动态链接库就是在这种情况下出现的.动态链接库不用重复编译或链接,一旦装入内存,Dlls函数可 ...
java的八种基本数据类型
据说表格的方式一目了然一. java数据类型的取值范围如下: 注意:long型后如果不加 L 则默认为int型,float型如果不加 F 则默认为double型: 注意!注意!注意 ...
课时16.HTML-XHTML-HTML5区别（了解）
简而言之 HTML语法非常宽松容错性强: XHTML更为严格,它要求标签必须小写,必须严格闭合,标签中的属性必须使用引号引起等等. HTML5是HTML的下一个版本所以除了非常宽松容错性强以外,还增加 ...
python简介,数据类型,input,if语句
1. python的起源 python的创始人为吉多·范罗苏姆(龟叔Guido van Rossum),1989年的圣诞节期间,龟叔为了在阿姆斯特丹打发时间决心开发一个新的脚本程序解释器,作为A ...

3D U-Net卷积神经网络

3D U-Net卷积神经网络的更多相关文章

随机推荐

热门专题