• 【日报】2026-01-04 元旦啥也没干,跨了个年,去徒步了两天。 跟着国科大的徒步协会徒步还是蛮有趣的,吃饭、看风景的时候都充满了学术色彩——比如看到遍地风车,第一反应是思考风车的规格和选址是如何选择的。遗憾队里没有大气所的为我们解答。认识了三个装备智能实验室的学长,有一个是杭电毕业的。 到九号前我都要全力复习期末考,所以可能不会看论文?之前闲的没事把各种常规目标检测模型比如Faster RCNN、DETR、FCOS啥的全接了个DINOv3的backbone玩,但还没跑看效果,可以跑跑看。还要把我的东西从74全部迁移到78号机。 之前看的InfoSAM感觉非常有价值,整体设计的大巧不工——简单的结构,精彩的推导,巧妙的loss。我想研究下。

    2026年1月4日
  • 【日报】2025-12-30 今天又仔细重新读了读SAM3代码,发现之前看错了好多。SAM3比我之前以为的还要工程好多。简而言之SAM3内嵌了一个DETR,还将其与原来的SAM Mask Decoder深度集成在了一起。 截屏2025-12-30 14.49.59.png 感觉SAM3有点像是阶段性收尾工作了,把SAM系列、DETR系列还有CLIP系列(PEcore)都集成起来了。之后呢?感觉是DINO系列也要集成进去了?感觉Meta大力推视觉相关科研,搞这些是为了找到一个方便的把现实转换到“元宇宙”的方法。但是今天Meta收购了manus,是想转战LLM了吗?自家的LLaMA、LLaVA好像有点疲软,元宇宙也没做起来。 今天看到Meta还做了个SAM-Audio,挺有趣的。之前有关注过他们做的ImageBind:把视觉听觉文本还有些啥模态做了个对齐。他现在是用PEaudio来encode音频信息。 截屏2025-12-30 15.28.46.png

    Comment Image 1Comment Image 2Comment Image 3
    2025年12月30日
  • 【日报】2025-12-29 117ce71fadd312062a25f020ff3c3e9a.png 今天看到个很有趣的Training-free GRPO,思想是拿query+experiences来做输入,动态更新experiences而不是模型。那我们是不是更进一步可以[Instruct]+[Learnable Tokens]做模型输入,冻结模型,对token进行GRPO,然后再decode看看[Learnable Tokens]到底学到了什么。查了下发现这就是RL prompt tuning。看着很有趣,稍微看两眼。有点想自己复现个玩玩。改几行代码就行了应该。最近还是复习为主。

    Comment Image 1
    2025年12月29日
  • 【日报】2025-12-26 复习。忙元旦晚会。周六元旦晚会周日复习。 下周考试,元旦过完还有考试。

    2025年12月26日
  • 【日报】2025-12-25

    2025年12月25日