陈的博客

【日报】2026-04-20 横向数据精修了一下，然后训了个模型。着重重新读了下 Attention on the Sphere 和 Spherical SO(3) Equivariant Local Attention精准修这两篇。也看了下第一篇的代码，挺有意思。顺带着快速过了挺多模型的结构。之前注意到一个挺奇怪的现象：全景领域整体性能普遍比平面任务差，但不同子任务和“平面 SOTA”之间的差距其实差别很大。比如像深度估计，大概也就落后一两代；姿态估计差距更小；分割也还能跟上，可能只是晚个几年。但目标检测就很反常。我大致统计了一下，从 Fast R-CNN 到 DETR（2015–2024）这些标志性模型在 COCO 上的 AP，然后拿去对比全景领域的 SOTA。结果有点离谱：到 2026 年，全景目标检测的最好结果，甚至还不如十年前 Fast R-CNN 在平面数据上的表现。当然，这种对比不完全公平——平面用的是 COCO，而全景常见的是 PANDORA、Stanford 2D3D 这类数据集，分布和标注都有差异。但即便考虑这些因素，这个 gap 还是大得有点不正常。然后我回头看了下其他全景任务，发现一个比较一致的现象：只要指标比较“现代”的方法，基本都用了 ViT 系 backbone。比如 Swin-T、DINOv2、PVT-L 这些。一个比较直观的解释是：ViT 的 patch 表示更容易去建模不同位置的畸变关系，而卷积本身是基于平移等变性的假设，在球面（或者说 SO(3)）上其实并不成立，等于是强行套了一个不合适的归纳偏置。基于这个观察，我打算先做一个比较直接的验证：用 Swin-T + FPN + detection head 跑一个 baseline，看看在全景检测上能不能把指标先拉到一个“正常”的区间。其他更复杂的全景建模方法，先暂时不考虑。

2026年4月20日

2026年4月20日
【日报】2026-04-17 上午讨论了下，下午可视化横向+算法升级+数据标注后处理。kent分布实验稍微跑了下。但是：全景目标检测效果差是loss的问题吗？

2026年4月17日

2026年4月17日
【日报】2026-04-15 前天下午和师兄还讨论了下他的idea——flow matching相关的，感觉很有意思。昨天调了调kent的参数，感觉训的起来了。今天想看看flow matching 和强化学习到底有啥区别，之前和师兄聊的时候感觉好像有点像🤔。事实上sph2pob已经把loss做得比较好了，无论是大尺度还是小尺度：截屏2026-04-16 11.50.05.png 全景检测效果差感觉已经不是loss的问题了，做这个还有啥意义吗？

2026年4月15日

2026年4月15日
【日报】2026-04-14 今天继续修正kent loss的代码。做了下明天上课汇报ppt。

2026年4月14日

2026年4月14日
【日报】2026-04-13 78服务器还是有问题，还在用74。今天推进了下kent分布的那个实验。花了一下午+一晚上试着用Agent做PPT，经验：不要让Agent做细排版，很浪费时间，虽然他也能做好。

2026年4月13日

2026年4月13日