陈的博客

【日报】2026-06-16 横向感觉检测部分能做的基本都做的差不多了。

2026年6月16日

2026年6月16日
【日报】2026-06-11 最近全景越思考越感觉不知道做啥好。能做的东西有很多，做了真正有用的却很少——整个全景领域应用场景都很尴尬。毕竟Insta、Meta、Apple Vision Pro都没能撑起全景方向。平面图像>单鱼眼镜头>双鱼眼镜头>全景。应用场景有哪些？VR、全景视频、全景无人机、全景监控。最近看阿里几个员工写的长文，提到做产品要讲究“发心”。“发心”，放到科研领域就是motivation，不是某篇Paper的Motavation，是“做“这篇paper的motivation。想发A会、想毕业、希望改善某项技术、”我觉得这里或许能这样做“，这些都是科研的”发心“。但我感觉在全景领域我缺少一个所谓的”发心“。自然语言处理、平面CV、自动控制，他们都有各自宏大的终极目标，全景领域呢？起码对我来说，最大的目标是赶上平面CV。深入挖掘下去，我发现全景领域在做的无非是：“全景拆成平面可能要切成20个平面跑20轮平面模型，我在全景上只要1轮。” 但是到底哪里有需要整个球面场景都被需要的场合呢？我仔细研究了下insta、VR，发现即使是这些场景里，有用的也都只是一个小区域，那也就都可以等价为一个切平面。这次横向倒还是有点意思，用普通的相机覆盖不全场景，需要鱼眼相机。但这也不是全景，而且处理起来还是用的平面的技术，加上个校畸。但似乎也就局限于此了。做个大规模的数据集，我感觉能做下去对全景方向还是挺有意义的。但是全景方向的意义，我还没想明白。或许具身智能、世界模型又需要全景吧？毕竟对人来说，消费的往往只是一个小平面，对机器人、世界模型来说就不一样了。

2026年6月11日

2026年6月11日
【日报】2026-06-09 今天公众号刷到一篇cvpr 我一看，这去年我研究点监督的时候也考虑过这样用DINOv3。这篇文章主要解决了DINOv3存在位置bias的问题，他的做法是提取出这个bias然后投影到正交补空间上，我当时的是认为这些是2D RoPE特性导致的，然后直接去除了RoPE编码。去年的组会PPT。当时做的是点监督，那时候也在想，如果能拿到一个物体的mask我估计就能很方便的出mask了，但是没往那方向做。看来选对Task很重要。此外，之前我整体实现思路也远不如它，导致我最终分割效果非常差。

2026年6月9日

2026年6月9日
【日报】2026-06-05 明天考一门，周四考两门，下周日考一门。今天解决了全景数据集解析问题。

2026年6月5日

2026年6月5日
【日报】2026-06-02 在研究auto-research。这几天要开始复习了，也不是太有时间干活。

2026年6月2日

2026年6月2日