• 【日报】2026-04-28 UE5+GS是否能扩展全景数据集呢?这几天看了下insta的全景无人机,感觉很有意思。最近follow的两篇paper也是insta团队做的。 对于全景,即使我能验证出是数据规模太小导致指标低,有有啥用呢?然后我该做啥?感觉好像单说明这点并不能有啥paper,做大规模数据标注自动标注出全景数据集?insta团队的dense360就这么干了,但是数据集迟迟没有发布。做跨域?有好多人都在做,就是目标检测可能不太多?一时半会不知道要干啥了。 下午和师兄讨论了会,晚上打算还是先推推kent loss的小实验。数据量的初期实验还在跑: image.png

    Comment Image 1
    2026年4月28日
  • 【日报】2026-04-27 今天打算先跑些小数据集fast rcnn啥的,再把横向数据集解决了。要是有空,看看攒着的一堆论文。 感觉都好久没认真看论文了。 还在跑faster rcnn+coco子集。同时想把它改成一个全面点的实验。 横向还在下数据。 看了一堆数据集的论文。 打算跑这些,但又感觉有点问题,表格画的也有问题,把球面的和平面的放一块了,实际不是这样的。 image.png

    Comment Image 1
    2026年4月27日
  • 【日报】2026-04-22 上课,写作业。

    2026年4月22日
  • 【日报】2026-04-21 ViT做backbone似乎的确比较好。我有点想做个什么PanoDETR:用ViT+设计过的transformer,然后在patch划分与embedding上做些处理,或许还有query上? 横向遇到一个技术上的分歧点:是先去雾再把图像输入给模型还是让模型在烟雾数据集里训练。先去雾可能影响最终帧率。此外,横向新增的5000张图片非常有参考价值——覆盖场景广、多镜头、多环境、数据量大。事实上,如果能给他们全标注好,我认为这个横向就可以干完了。

    2026年4月21日
  • 【日报】2026-04-20 横向数据精修了一下,然后训了个模型。 着重重新读了下 Attention on the Sphere 和 Spherical SO(3) Equivariant Local Attention精准修 这两篇。也看了下第一篇的代码,挺有意思。顺带着快速过了挺多模型的结构。 之前注意到一个挺奇怪的现象:全景领域整体性能普遍比平面任务差,但不同子任务和“平面 SOTA”之间的差距其实差别很大。 比如像深度估计,大概也就落后一两代;姿态估计差距更小;分割也还能跟上,可能只是晚个几年。但目标检测就很反常。 我大致统计了一下,从 Fast R-CNN 到 DETR(2015–2024) 这些标志性模型在 COCO 上的 AP,然后拿去对比全景领域的 SOTA。结果有点离谱:到 2026 年,全景目标检测的最好结果,甚至还不如十年前 Fast R-CNN 在平面数据上的表现。 当然,这种对比不完全公平——平面用的是 COCO,而全景常见的是 PANDORA、Stanford 2D3D 这类数据集,分布和标注都有差异。但即便考虑这些因素,这个 gap 还是大得有点不正常。 然后我回头看了下其他全景任务,发现一个比较一致的现象:只要指标比较“现代”的方法,基本都用了 ViT 系 backbone。比如 Swin-T、DINOv2、PVT-L 这些。 一个比较直观的解释是:ViT 的 patch 表示更容易去建模不同位置的畸变关系,而卷积本身是基于平移等变性的假设,在球面(或者说 SO(3))上其实并不成立,等于是强行套了一个不合适的归纳偏置。 基于这个观察,我打算先做一个比较直接的验证:用 Swin-T + FPN + detection head 跑一个 baseline,看看在全景检测上能不能把指标先拉到一个“正常”的区间。其他更复杂的全景建模方法,先暂时不考虑。

    2026年4月20日