3d图像识别基础论文：pointNet阅读笔记

PointNet 论文阅读：

主要思路：输入独立的点云数据，进行变换不变性处理（T-net）后，通过pointNet网络训练后，最后通过最大池化和softMax分类器，输出评分结果。

摘要：

相较于之前其他处理点云数据的论文，将数据转换为三维体素网格或者图象集合，pointNet最大的不同是，对于点云数据，会直接进行处理，而非将点云数据进行格式化处理，从而避免了将点云数据格式化后，产生的unnecessarily voluminous以及像素点失真的问题。

点云的问题：

无序。与图像中的像素阵列或体积网格中的体素阵列不同，点云是一组没有特定顺序的点。换句话说，处理N个3D点集合就会有n！种排列方式。

处理方法：

提出了三种方法:

1）将输入排序为规范的顺序;（对于扰动不稳定）

2）将输入作为一个序列来训练一个RNN，但是用各种排列来增加训练数据; （顺序无法被完全忽视）

3）使用简单的对称函数来汇总每个点的信息。

首先采取mlp提取特征（只有*和+的对称函数）并且采用最大池化函数，导致输出结果不受集合中点的排列顺序影响。

深度网络模拟通用对称函数：

输入总共n个点的无序云图点集（{x1，x2 … , xn}）, 通用函数f 输出该云图分类（汽车，书桌，飞机）。其中h函数用MLP网络模拟：g用最大池化模拟。

2.点之间的相互作用。点来自具有距离度量的空间。这意味着点不是孤立的，相邻点形成一个有意义的子集。因此，该模型需要能够从附近的点捕获局部结构，以及局部结构之间的组合相互作用。分割和语义分析需要考虑到点之间的相互作用。

处理方法：在分割网络中，将局部特征和全局特征连接，并进行进一步的特征提取，最终提取的结果与局部和全局特征相关。

3.变换下的不变性。作为一个几何对象，点集的学习表示对某些变换应该是不变的。例如，旋转点和平移点不应该修改全局点云类别或点的分割。对于一个3D图像，当我们进行例如旋转、上移等操作时，不论是目标分类还是部分分割，都应保证其结果不变。

处理方法：论文作者提出了在进行特征提取之前，先对点云数据进行对齐的方式来保证不变性。对齐操作是通过训练一个小型的网络（T-net，类似于大型网络，由点独立特征提取，最大池化和全连接层的基本模块组成）来得到转换矩阵，并将之和输入点云数据相乘来实现.相当于在数据预处理阶段直接进行处理，保证其后的结果不变性。

4.点云具有稀疏性（信息点提取）。

处理方法：网络高效地学习一组优化功能/标准，选择点云的信息点，并对其选择原因进行编码。

方法：

网络分析：

1.三个初始纬度。 2.T-net对齐处理 3.最大池化合并特征，解决无序性 4.连接全局和局部特征 4.softmax分类器

两个定理：

和神经网络一样，该网络也可以拟合任意的连续集合函数。

对噪声和缺失的鲁棒性。

创新点：

对称函数处理无序性处理。
t-net微型网络进行变换不变性处理。
全局变量和局部变量合并处理相关性。

应用：神经网络对于无序的信息点的处理。

问题：

1.正则项：相较于前一个3 * 3变换矩阵，后面的变换矩阵为64 * 64 = 4096，由于变换矩阵过大，通过添加正则项，使变换矩阵近似于正交矩阵，此时所需要的参数将大大减少。

2.T-net网络实现的细节：（如何具体实现对齐和变换不变性）。

3.两个定理的证明过程。

3d图像识别基础论文：pointNet阅读笔记的更多相关文章

关于 AlphaGo 论文的阅读笔记
这是Deepmind 公司在2016年1月28日Nature 杂志发表论文 <Mastering the game of Go with deep neural networks and tre ...
论文阅读笔记“Attention-based Audio-Visual Fusion for Rubust Automatic Speech recognition”
关于论文的阅读笔记论文的题目是“Attention-based Audio-Visual Fusion for Rubust Automatic Speech recognition”,翻译成中文为 ...
论文阅读笔记（七）【TIP2018】：Video-Based Person Re-Identiﬁcation by Simultaneously Learning Intra-Video and Inter-Video Distance Metrics
是由一篇 IJCAI2016 扩的期刊. 该篇会议论文的阅读笔记[传送门] 期刊扩充的部分:P-SI2DL 1.问题描述: 在会议论文中介绍的SI2DL方法采用了视频三元组作为视频关系(是否匹配)的逻 ...
[论文阅读笔记] GEMSEC，Graph Embedding with Self Clustering
[论文阅读笔记] GEMSEC: Graph Embedding with Self Clustering 本文结构解决问题主要贡献算法原理参考文献 (1) 解决问题已经有一些工作在使用学习 ...
[论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximati
[论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximation 本文结构解决问题主要贡献主要 ...
[论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings
[论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 本文结构解决问题主要贡献算法原理参考文 ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...

随机推荐

pgm12
作为 inference 部分的小结,我们这里对 machine learning 里面常见的三个 model 的 inference 问题进行整理,当然很幸运的是他们都存在 tractable 的算 ...
BZOJ1163&BZOJ1339[Baltic2008]Mafia——最小割
题目描述匪徒准备从一个车站转移毒品到另一个车站,警方准备进行布控. 对于每个车站进行布控都需要一定的代价,现在警方希望使用最小的代价控制一些车站,使得去掉这些车站后,匪徒无法从原定的初始点到达目标 ...
C# == 和 Equals
先看一下解释 msdn对于 == 的解释: 对于预定义的值类型,如果操作数的值相等,则相等运算符 (==) 返回 true,否则返回 false. 对于 string 以外的引用类型,如果两个操作数引 ...
Leetcode 237.删除链表中的节点 By Python
请编写一个函数,使其可以删除某个链表中给定的(非末尾)节点,你将只被给定要求被删除的节点. 现有一个链表 -- head = [4,5,1,9],它可以表示为: 4 -> 5 -> 1 - ...
05 Zabbix triggers--action--event
点击返回:自学Zabbix之路点击返回:自学Zabbix4.0之路点击返回:自学zabbix集锦 05 Zabbix triggers--action--event 动作action: 在配置好监 ...
HGOI 20190303 题解
/* 记一串数字真难. 5435 今天比赛又是hjcAK的一天. 今天开题顺序是312,在搞T1之前搞了T3 昨天某谷月赛真是毒瘤. 但是讲评的同学不错,起码T4看懂了... 构造最优状态然后DP的思 ...
SharePoint “File not found” 错误
Troubleshooting the SharePoint "File not found" Error Have you ever come across a "Fi ...
Python数据类型（字典和集合）
1.5 Dictionary(字典) 在Python中,字典用放在花括号{}中一系列键-值对表示.键和值之间用冒号分隔,键-值对之间用逗号分隔. 在字典中,你想存储多少个键-值对都可以.每个键都与一个 ...
「loj3057」「hnoi2019」校园旅行
题目一个n个点m条边的无向图,每个点有0 / 1 的标号; 有q个询问,每次询问(u,v)直接是否存在回文路径(可以经过重复的点和边); $1 \le n \le 5 \times 10^3 , ...
vs2010中使用 git
在没有使用git之前的,我很苦恼.因为我的代码有时在办公室做,有时也带回家做.做了一些时间,放在哪,要用的时间就不知道家里的还是办公室的是新版本了.甚至出现了旧版本把新版本覆盖的乌龙事情.有了git只 ...

3d图像识别基础论文：pointNet阅读笔记

3d图像识别基础论文：pointNet阅读笔记的更多相关文章

随机推荐

热门专题