-
【日报】2026-04-22 上课,写作业。
2026年4月22日 -
【日报】2026-04-21 ViT做backbone似乎的确比较好。我有点想做个什么PanoDETR:用ViT+设计过的transformer,然后在patch划分与embedding上做些处理,或许还有query上? 横向遇到一个技术上的分歧点:是先去雾再把图像输入给模型还是让模型在烟雾数据集里训练。先去雾可能影响最终帧率。此外,横向新增的5000张图片非常有参考价值——覆盖场景广、多镜头、多环境、数据量大。事实上,如果能给他们全标注好,我认为这个横向就可以干完了。
2026年4月21日 -
【日报】2026-04-20 横向数据精修了一下,然后训了个模型。 着重重新读了下 Attention on the Sphere 和 Spherical SO(3) Equivariant Local Attention精准修 这两篇。也看了下第一篇的代码,挺有意思。顺带着快速过了挺多模型的结构。 之前注意到一个挺奇怪的现象:全景领域整体性能普遍比平面任务差,但不同子任务和“平面 SOTA”之间的差距其实差别很大。 比如像深度估计,大概也就落后一两代;姿态估计差距更小;分割也还能跟上,可能只是晚个几年。但目标检测就很反常。 我大致统计了一下,从 Fast R-CNN 到 DETR(2015–2024) 这些标志性模型在 COCO 上的 AP,然后拿去对比全景领域的 SOTA。结果有点离谱:到 2026 年,全景目标检测的最好结果,甚至还不如十年前 Fast R-CNN 在平面数据上的表现。 当然,这种对比不完全公平——平面用的是 COCO,而全景常见的是 PANDORA、Stanford 2D3D 这类数据集,分布和标注都有差异。但即便考虑这些因素,这个 gap 还是大得有点不正常。 然后我回头看了下其他全景任务,发现一个比较一致的现象:只要指标比较“现代”的方法,基本都用了 ViT 系 backbone。比如 Swin-T、DINOv2、PVT-L 这些。 一个比较直观的解释是:ViT 的 patch 表示更容易去建模不同位置的畸变关系,而卷积本身是基于平移等变性的假设,在球面(或者说 SO(3))上其实并不成立,等于是强行套了一个不合适的归纳偏置。 基于这个观察,我打算先做一个比较直接的验证:用 Swin-T + FPN + detection head 跑一个 baseline,看看在全景检测上能不能把指标先拉到一个“正常”的区间。其他更复杂的全景建模方法,先暂时不考虑。
2026年4月20日 -
【日报】2026-04-17 上午讨论了下,下午可视化横向+算法升级+数据标注后处理。kent分布实验稍微跑了下。但是:全景目标检测效果差是loss的问题吗?
2026年4月17日 -
【日报】2026-04-15 前天下午和师兄还讨论了下他的idea——flow matching相关的,感觉很有意思。昨天调了调kent的参数,感觉训的起来了。今天想看看flow matching 和强化学习到底有啥区别,之前和师兄聊的时候感觉好像有点像🤔。 事实上sph2pob已经把loss做得比较好了,无论是大尺度还是小尺度: 截屏2026-04-16 11.50.05.png 全景检测效果差感觉已经不是loss的问题了,做这个还有啥意义吗?
2026年4月15日