陈的博客

虚惊一场

2026年1月6日上午 11时16分
北京市怀柔区 ❤️

北京市怀柔区
2026年1月6日上午 11时16分❤️
【日报】2026-01-06 一天课，复习。

2026年1月6日

2026年1月6日
【日报】2026-01-05 复习。昨天整了元旦拍的照片： collage_export_9BB9BE2F-2CAE-48BE-BBE4-22F66FF29F2A.JPG collage_export_C735989D-703D-4C86-BEF0-0D297092E525.JPG collage_export_14C7AB9C-906A-4E50-B81A-F06511A40864.JPG

2026年1月5日

2026年1月5日
【日报】2026-01-04 元旦啥也没干，跨了个年，去徒步了两天。跟着国科大的徒步协会徒步还是蛮有趣的，吃饭、看风景的时候都充满了学术色彩——比如看到遍地风车，第一反应是思考风车的规格和选址是如何选择的。遗憾队里没有大气所的为我们解答。认识了三个装备智能实验室的学长，有一个是杭电毕业的。到九号前我都要全力复习期末考，所以可能不会看论文？之前闲的没事把各种常规目标检测模型比如Faster RCNN、DETR、FCOS啥的全接了个DINOv3的backbone玩，但还没跑看效果，可以跑跑看。还要把我的东西从74全部迁移到78号机。之前看的InfoSAM感觉非常有价值，整体设计的大巧不工——简单的结构，精彩的推导，巧妙的loss。我想研究下。

2026年1月4日

2026年1月4日
【日报】2025-12-30 今天又仔细重新读了读SAM3代码，发现之前看错了好多。SAM3比我之前以为的还要工程好多。简而言之SAM3内嵌了一个DETR，还将其与原来的SAM Mask Decoder深度集成在了一起。截屏2025-12-30 14.49.59.png 感觉SAM3有点像是阶段性收尾工作了，把SAM系列、DETR系列还有CLIP系列（PEcore）都集成起来了。之后呢？感觉是DINO系列也要集成进去了？感觉Meta大力推视觉相关科研，搞这些是为了找到一个方便的把现实转换到“元宇宙”的方法。但是今天Meta收购了manus，是想转战LLM了吗？自家的LLaMA、LLaVA好像有点疲软，元宇宙也没做起来。今天看到Meta还做了个SAM-Audio，挺有趣的。之前有关注过他们做的ImageBind：把视觉听觉文本还有些啥模态做了个对齐。他现在是用PEaudio来encode音频信息。截屏2025-12-30 15.28.46.png

2025年12月30日

2025年12月30日