news 2026/4/16 12:42:56

【论文精读(二十)】PosPool:点云算子的大一统与“极简主义”的反击(ECCV 2020)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文精读(二十)】PosPool:点云算子的大一统与“极简主义”的反击(ECCV 2020)

Liu, Z., Hu, H., Cao, Y., Zhang, Z., & Tong, X. (2020). A Closer Look at Local Aggregation Operators in Point Cloud Analysis. ECCV.

博主导读
在点云深度学习的江湖里,各路门派为了刷榜(SOTA),练就了各种花哨的武功。今天你搞一个“动态图卷积”,明天我搞一个“自适应注意力”,后天他搞一个“伪网格卷积”。算子越设计越复杂,公式越写越长。
但这就带来了一个千古迷案:你的模型效果好,到底是因为你设计的算子牛,还是因为你偷偷加深了网络、调优了参数?
这篇 ECCV 2020 的PosPool就像一位“武林督查”,它搭建了一个统一的擂台,把各大门派的算子(PointNet++, KPConv, DGCNN 等)全都拉上来,脱掉它们各自的“外衣”(不同的 Backbone),只穿“内裤”(算子本身)进行公平对决。
结果令人大跌眼镜:那些花里胡哨的复杂设计,在深层网络里竟然和最简单的操作差不多!
作者更是杀人诛心,反手甩出一个**“零参数”**的算子PosPool:甚至不需要神经网络,只需要把坐标乘一下,就能吊打一众复杂的 SOTA。
论文:A Closer Look at Local Aggregation Operators in Point Cloud Analysis


1. 痛点:群魔乱舞的算子江湖

在本文出现之前,点云领域的论文画风通常是这样的:

  • Point-wise MLP 派(如 PointNet++):我要拼接坐标和特征,再过 3 层 MLP!
  • Pseudo Grid 派(如 KPConv):我要在空间撒点,算核函数权重!
  • Adaptive Weight 派(如 SpiderCNN):我要用相对位置算注意力矩阵!

存在的问题
大家发论文时,为了证明自己强,往往会用不同的网络架构(Backbone)、不同的邻域大小、不同的采样策略。

  • 结果:这本账根本算不清。作为读者,我们不知道分数的提升是来自于算子的创新,还是来自于工程 Trick 的堆砌

本文的灵魂拷问
如果把大家都放在完全相同深层残差网络 (Deep Residual Network)里,那些复杂的算子还能打吗?


2. 照妖镜:通用的深层残差网络 (The Arena) 🏟️

为了公平起见,作者搭建了一个标准的ResNet-50 风格的点云网络。

  • 结构:5 个阶段 (Stage),每个阶段堆叠多个残差块 (Residual Block)。
  • 变量控制:在这个架构里,除了Local Aggregation (局部聚合层)这一块可以换不同的算子,其他的(如 1x1 Conv、BN、ReLU、采样策略)全部锁死,保持一致

这就好比让所有赛车手都开同一辆五菱宏光,只准换轮胎,看看到底谁的轮胎抓地力强。


3. 打假现场:复杂的算子真的好吗?

作者复现并测试了三大主流算子,得出了几个颠覆性的结论:

3.1 Point-wise MLP 派(代表:PointNet++)

  • 以前的经验:MLP 至少要 3 层(隐藏层)才能拟合复杂函数。

打脸结论:在深层 ResNet 里,1 层 FC (全连接) 效果最好!
*原因:深层网络本身就有强大的拟合能力,算子内部搞太复杂反而容易过拟合,还增加了计算量。

3.2 Adaptive Weight 派(代表:SpiderCNN, DGCNN)

  • 以前的经验:要用多层感知机算权重,还得加 SoftMax 归一化。
  • 打脸结论
    1. 也是1 层 FC 最好
    2.SoftMax 有毒!加了 SoftMax 反而掉点。
    *原因:SoftMax 会让权重变成正数且和为 1,这相当于一个低通滤波器,会导致特征过度平滑 (Over-smoothing),丢失高频细节。

最终结论
只要参数调得对(Sweet Spot),各大门派的性能其实半斤八两。那些复杂的几何设计,在强大的深层网络面前,并没有显示出明显的优势。


4. 极简主义:PosPool 的降维打击 (The Ultimate Weapon) ⚔️

既然复杂的算子没用,作者心想:那我就搞个最简单的,看看底线在哪里。
于是,PosPool (Position Pooling)诞生了。

4.1 原理:简单到令人发指

PosPool 甚至没有可学习的参数(No learnable weights)!

它的逻辑只有一步:把特征和坐标乘起来
假设邻居特征是f j f_jfj(维度D DD),相对坐标是Δ p i j = ( Δ x , Δ y , Δ z ) \Delta p_{ij} = (\Delta x, \Delta y, \Delta z)Δpij=(Δx,Δy,Δz)
G ( Δ p i j , f j ) = Concat ( f j 0 ⋅ Δ x , f j 1 ⋅ Δ y , f j 2 ⋅ Δ z ) G(\Delta p_{ij}, f_j) = \text{Concat}(f_j^0 \cdot \Delta x, \quad f_j^1 \cdot \Delta y, \quad f_j^2 \cdot \Delta z)G(Δpij,fj)=Concat(fj0Δx,fj1Δy,fj2Δz)

  • 分组:把特征切成 3 段。
  • 乘法:第一段乘x xx,第二段乘y yy,第三段乘z zz
  • 聚合:求平均 (Avg Pooling)。

4.2 为什么有效?

  • 显式编码:它直接把几何信息(坐标)注入到了特征通道里,而不是让网络去“猜”几何关系。
  • 无参:因为没有参数,所以完全不过拟合,训练速度飞快,显存占用极低。

5. 实验结果:以无招胜有招 🏆

作者用这个“零参数”的 PosPool,在三大数据集上跑了一圈,结果非常凡尔赛:

  1. PartNet (细粒度分割):这是最难的数据集。
    • PosPool 跑出了53.8 mIoU
    • 之前的 SOTA (PointCNN) 只有 46.4。
    • 直接提升了 7.4 个点!
  2. ModelNet40 & S3DIS
    • PosPool 的表现和最复杂的 KPConv、DGCNN持平甚至略优
  3. 鲁棒性
    • 当网络变浅、变窄时,PosPool 的性能非常稳定,而那些复杂算子(如 Adaptive Weight)性能会发生雪崩。

6. 总结 (Conclusion)

这篇论文是点云领域的**“奥卡姆剃刀”**,它告诉我们:

  1. 别再卷算子了:算子的微小改进,往往会被网络架构的差异掩盖。要比就放在统一的 ResNet 下比。
  2. 大道至简:PosPool 证明了,最本质的显式几何编码(乘坐标),比隐式的学习(MLP)更有效、更鲁棒。
  3. 深层网络是王道:这篇论文也侧面证明了,与其在算子上雕花,不如把网络做深(Deep Residual),让大数据去教网络做人。

如果你正在设计点云网络,不妨试试 PosPool,说不定能帮你省下一半的显存,还能涨点!


📚 参考文献

[1] Liu, Z., Hu, H., Cao, Y., Zhang, Z., & Tong, X. (2020). A Closer Look at Local Aggregation Operators in Point Cloud Analysis. ECCV.


💬 互动话题:

  1. 关于复杂性:你觉得现在的 CV 论文是不是越来越卷“复杂性”了?为什么简单的 PosPool 这种 idea 很难发在顶会(除非效果极其炸裂)?
  2. 关于 Transformer:这篇论文发表在 Transformer 统治点云之前(2020)。你觉得现在的 Point Transformer 相比于 PosPool,本质上的优势在哪里?是算子更强,还是架构更强?

📚 附录:点云网络系列导航

🔥欢迎订阅专栏:【点云特征分析_顶会论文代码硬核拆解】持续更新中…

本文为 CSDN 专栏【点云特征分析_顶会论文代码硬核拆解】原创内容,转载请注明出处。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:27:05

5分钟原型开发:用Node.js验证你的产品创意

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 快速生成一个Node.js的在线协作白板原型,基本功能包括:1. 实时多人协作绘图 2. 不同颜色画笔选择 3. 画布清空功能 4. 简易用户昵称显示。使用Socket.io实现…

作者头像 李华
网站建设 2026/4/16 14:40:45

提供专属技术支持:帮助客户顺利对接GLM-4.6V-Flash-WEB API

提供专属技术支持:帮助客户顺利对接GLM-4.6V-Flash-WEB API 在今天这个AI应用快速落地的时代,越来越多企业希望将视觉理解能力嵌入到自己的产品中——无论是智能客服自动识别用户上传的截图,还是财务系统自动解析发票内容。但现实往往很骨感&…

作者头像 李华
网站建设 2026/4/16 12:57:00

AMD Ryzen Threadripper实战案例:工作站级性能实现

当你的工作站不再“卡顿”:深度拆解 AMD Ryzen Threadripper 的工程实战哲学从“等渲染”到“秒出图”:一个3D艺术家的觉醒时刻凌晨两点,工作室的灯还亮着。一位资深3D动画师正盯着屏幕右下角的进度条——第47帧,预计剩余时间&…

作者头像 李华
网站建设 2026/4/16 13:15:02

使用Jupyter Notebook运行GLM-4.6V-Flash-WEB推理脚本的注意事项

使用 Jupyter Notebook 运行 GLM-4.6V-Flash-WEB 推理脚本的实践指南 在多模态大模型迅速普及的今天,如何快速验证一个视觉语言模型的实际能力,已成为开发者和研究人员的核心诉求。传统部署方式往往涉及复杂的环境配置、依赖管理和服务编排,极…

作者头像 李华
网站建设 2026/4/16 13:15:04

GLM-4.6V-Flash-WEB商业授权用户专享Token折扣政策

GLM-4.6V-Flash-WEB商业授权用户专享Token折扣政策 在当前AI应用快速向生产环境渗透的背景下,多模态能力正从“炫技演示”走向“真实落地”。尤其是在图文理解、视觉辅助决策和内容合规审核等场景中,企业不再满足于模型“能不能看懂图”,而是…

作者头像 李华