我认为的本篇文章最大的贡献是公平的对比了各种类型的local aggregation的结构。本篇博客仍然不翻译该论文,只是记录一些我觉得重要的东西。
对比各种local aggregation的结构
结构的分类
相比于处理image的网络,点云处理的网络其实有两个重要和核心。一个是网络框架的设计,另一个就是local aggregation的设计。网络框架方面,其实完全可以借用针对image设计的框架,例如ResNet或者DenseNet这种。所以目前大多数文章的关注重点是在local aggregation上。之前看到一篇综述,对local aggregation上做了综述(传送门)。那本文所对比的local aggregation的方法其实都属于一个大类,Point-based。
本文给出了一个local aggregation的通用公式:
其中 Δ p i j \Delta p_{ij} Δpij是位置差, f j f_j fj是特征,G是计算新特征的函数,R是reduction函数。那么在这些部分,都可以进行改动。
G的输入可以包括:位置差, f j f_j fj, f i f_i fi, f j − f i f_j-f_i fj−fi,位置的二阶关系等等。
R可以是:SUM,AVG,MAX等
而G的类型则是local aggregation方法分类的重点:
- Point-wise MLP:最基本的特点根据点对(i,j)的位置关系及其特征,也就是G的输入,使用MLP直接计算点j的新特征。
- Adaptive Weight based Method:根据点对(i,j)的位置关系及其特征,计算点j的权重,然后用权重去乘以点j的特征来得到j的新特征
- Pseudo Grid Feature based Methods:是把点投影到规则的grid上面,可以使用3维的grid,也可以使用高维的grid,但这种方法不直观而且不是主流。
文章中还详细的计算了这三类方法的时间复杂度和空间复杂度,可以看出,这三类方法的复杂度基本一样(如果把grid的数量假设为与点的数量相当)
结构对比的结果
该论文使用了ResNet类似结构的深层次网络,在网络结构和模型复杂度的差不多的情况下,来比较不同local aggregation结构的效果。具体的结果可以看原论文,这里我记录一下我认为有启发的结论。
1、ResNet的深度结构还是比较有用的,使用非常简单的local aggregation结构配上ResNet的网络结构,也可能产生比较好的结果。
2、在Point-wise MLP Methods和Adaptive Weight based Method中,G中均是使用一层FC的效果最好。
3、仅使用相对位置作为G的输入看起来是一个好的选择,增加其他类型的特征并不一定会涨点。
4、Max pooling看起来也是一个好的选择。
5、在ResNet中,把 γ \gamma γ增大,往往会带来效果的提升。
PosPool
本文提出了一个local aggregation的方法,该方法没有其它的学习参数。最简单的具体做法就是把feature分成3份,每一份乘以 Δ x i j \Delta x_{ij} Δxij, Δ y i j \Delta y_{ij} Δyij, Δ z i j \Delta z_{ij} Δzij中三个分量以以一个,然后再concat起来。
我认为这个思想的来源是31文献:《Attention is all you need》。从形式上看,这也是一个attention的结构。