对比各种local aggregation的结构

结构的分类

相比于处理image的网络，点云处理的网络其实有两个重要和核心。一个是网络框架的设计，另一个就是local aggregation的设计。网络框架方面，其实完全可以借用针对image设计的框架，例如ResNet或者DenseNet这种。所以目前大多数文章的关注重点是在local aggregation上。之前看到一篇综述，对local aggregation上做了综述（传送门）。那本文所对比的local aggregation的方法其实都属于一个大类，Point-based。

本文给出了一个local aggregation的通用公式：
在这里插入图片描述其中 $\Delta p_{ij}$ 是位置差， $f_j$ 是特征，G是计算新特征的函数，R是reduction函数。那么在这些部分，都可以进行改动。

G的输入可以包括：位置差， $f_j$ ， $f_i$ ， $f_j-f_i$ ，位置的二阶关系等等。
R可以是：SUM，AVG，MAX等
而G的类型则是local aggregation方法分类的重点：

Point-wise MLP：最基本的特点根据点对（i，j）的位置关系及其特征，也就是G的输入，使用MLP直接计算点j的新特征。
Adaptive Weight based Method：根据点对（i，j）的位置关系及其特征，计算点j的权重，然后用权重去乘以点j的特征来得到j的新特征
Pseudo Grid Feature based Methods：是把点投影到规则的grid上面，可以使用3维的grid，也可以使用高维的grid，但这种方法不直观而且不是主流。

文章中还详细的计算了这三类方法的时间复杂度和空间复杂度，可以看出，这三类方法的复杂度基本一样（如果把grid的数量假设为与点的数量相当）

结构对比的结果

该论文使用了ResNet类似结构的深层次网络，在网络结构和模型复杂度的差不多的情况下，来比较不同local aggregation结构的效果。具体的结果可以看原论文，这里我记录一下我认为有启发的结论。

1、ResNet的深度结构还是比较有用的，使用非常简单的local aggregation结构配上ResNet的网络结构，也可能产生比较好的结果。
2、在Point-wise MLP Methods和Adaptive Weight based Method中，G中均是使用一层FC的效果最好。
3、仅使用相对位置作为G的输入看起来是一个好的选择，增加其他类型的特征并不一定会涨点。
4、Max pooling看起来也是一个好的选择。
5、在ResNet中，把 $\gamma$ 增大，往往会带来效果的提升。

PosPool

本文提出了一个local aggregation的方法，该方法没有其它的学习参数。最简单的具体做法就是把feature分成3份，每一份乘以 $\Delta x_{ij}$ ， $\Delta y_{ij}$ ， $\Delta z_{ij}$ 中三个分量以以一个，然后再concat起来。
在这里插入图片描述
我认为这个思想的来源是31文献：《Attention is all you need》。从形式上看，这也是一个attention的结构。

【论文阅读】【点云处理】A Closer Look at Local Aggregation Operators in Point Cloud Analysis

文章目录

对比各种local aggregation的结构

结构的分类

结构对比的结果

PosPool

猜你喜欢