• 虚惊一场

    Comment Image 1
    北京市 怀柔区
    2026年1月6日 上午 11时16分❤️
  • 【日报】2026-01-06 一天课,复习。

    2026年1月6日
  • 【日报】2026-01-05 复习。 昨天整了元旦拍的照片: collage_export_9BB9BE2F-2CAE-48BE-BBE4-22F66FF29F2A.JPG collage_export_C735989D-703D-4C86-BEF0-0D297092E525.JPG collage_export_14C7AB9C-906A-4E50-B81A-F06511A40864.JPG

    Comment Image 1Comment Image 2Comment Image 3
    2026年1月5日
  • 【日报】2026-01-04 元旦啥也没干,跨了个年,去徒步了两天。 跟着国科大的徒步协会徒步还是蛮有趣的,吃饭、看风景的时候都充满了学术色彩——比如看到遍地风车,第一反应是思考风车的规格和选址是如何选择的。遗憾队里没有大气所的为我们解答。认识了三个装备智能实验室的学长,有一个是杭电毕业的。 到九号前我都要全力复习期末考,所以可能不会看论文?之前闲的没事把各种常规目标检测模型比如Faster RCNN、DETR、FCOS啥的全接了个DINOv3的backbone玩,但还没跑看效果,可以跑跑看。还要把我的东西从74全部迁移到78号机。 之前看的InfoSAM感觉非常有价值,整体设计的大巧不工——简单的结构,精彩的推导,巧妙的loss。我想研究下。

    2026年1月4日
  • 【日报】2025-12-30 今天又仔细重新读了读SAM3代码,发现之前看错了好多。SAM3比我之前以为的还要工程好多。简而言之SAM3内嵌了一个DETR,还将其与原来的SAM Mask Decoder深度集成在了一起。 截屏2025-12-30 14.49.59.png 感觉SAM3有点像是阶段性收尾工作了,把SAM系列、DETR系列还有CLIP系列(PEcore)都集成起来了。之后呢?感觉是DINO系列也要集成进去了?感觉Meta大力推视觉相关科研,搞这些是为了找到一个方便的把现实转换到“元宇宙”的方法。但是今天Meta收购了manus,是想转战LLM了吗?自家的LLaMA、LLaVA好像有点疲软,元宇宙也没做起来。 今天看到Meta还做了个SAM-Audio,挺有趣的。之前有关注过他们做的ImageBind:把视觉听觉文本还有些啥模态做了个对齐。他现在是用PEaudio来encode音频信息。 截屏2025-12-30 15.28.46.png

    Comment Image 1Comment Image 2Comment Image 3
    2025年12月30日