-
【日报】2026-03-23 看了篇paper Attention on the Sphere。技术性没那么强,主要是在工程量上——写了些cuda算子。还在看几篇别的。
2026年3月23日 -
【日报】2026-03-20 找师兄交接了下顺带快速聊了一下全景相关。今天没怎么看论文,六点起太困了,根本看不进去。整理了些有用的小东西,周一周二能系统性的做好。 周末徒步。
2026年3月20日 -
【日报】2026-03-19 一天课。稍微看了看球谐函数。服务器又坏了,以后还是在原来的服务器上吧。
2026年3月19日 -
【日报】2026-03-18 上课。稍微忙了点学生会的事。 在跟着学2DRoPE的推导,因为我感觉如果是基于transformers架构去做全景,球面坐标系下的类似旋转位置编码的东西肯定绕不开。球谐函数得看起来。还稍微问了问物理系朋友什么SO3群什么不可交换啥的群论的东西,过两天等我思路具体了再去问问,现在一头雾水。
2026年3月18日 -
【日报】2026-03-17 又看了一篇综述。 A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision 。 他提到“the current focus remains on unsupervised domain adaptation (UDA) for panoramic semantic segmentation.”,正好我最近也很感兴趣unsupervised domain adaptation。我的服务器师兄还在修,辛苦师兄了。 当然,因为我非常喜欢DINOv3,在接触全景的第一件事就是可视化了下DINOv3在全景/普通图像下的效果对比: dinov3_heatmap_export_9028b93f5cf34ec08022a3e3f32b6879.png 可以看到,在极点附近DINOv3效果很差,因为DINO的RoPE位置编码在极点附近与实际的空间坐标差的太多了。我想我之后会去了解下别的位置编码啥的。全景还有好多基础要打,不像遥感,基本就是CV老一套照搬。 我感觉我做东西太希望直接形成一套完整的工作流了,这导致初期工作量过大、难以在前期可视化效果、灵活性低,感觉还是得灵活点。
2026年3月17日