• 【日报】2025-12-30 今天又仔细重新读了读SAM3代码,发现之前看错了好多。SAM3比我之前以为的还要工程好多。简而言之SAM3内嵌了一个DETR,还将其与原来的SAM Mask Decoder深度集成在了一起。 截屏2025-12-30 14.49.59.png 感觉SAM3有点像是阶段性收尾工作了,把SAM系列、DETR系列还有CLIP系列(PEcore)都集成起来了。之后呢?感觉是DINO系列也要集成进去了?感觉Meta大力推视觉相关科研,搞这些是为了找到一个方便的把现实转换到“元宇宙”的方法。但是今天Meta收购了manus,是想转战LLM了吗?自家的LLaMA、LLaVA好像有点疲软,元宇宙也没做起来。 今天看到Meta还做了个SAM-Audio,挺有趣的。之前有关注过他们做的ImageBind:把视觉听觉文本还有些啥模态做了个对齐。他现在是用PEaudio来encode音频信息。 截屏2025-12-30 15.28.46.png

    Comment Image 1Comment Image 2Comment Image 3
    2025年12月30日
  • 【日报】2025-12-29 117ce71fadd312062a25f020ff3c3e9a.png 今天看到个很有趣的Training-free GRPO,思想是拿query+experiences来做输入,动态更新experiences而不是模型。那我们是不是更进一步可以[Instruct]+[Learnable Tokens]做模型输入,冻结模型,对token进行GRPO,然后再decode看看[Learnable Tokens]到底学到了什么。查了下发现这就是RL prompt tuning。看着很有趣,稍微看两眼。有点想自己复现个玩玩。改几行代码就行了应该。最近还是复习为主。

    Comment Image 1
    2025年12月29日
  • 【日报】2025-12-26 复习。忙元旦晚会。周六元旦晚会周日复习。 下周考试,元旦过完还有考试。

    2025年12月26日
  • 【日报】2025-12-25

    2025年12月25日
  • 【日报】2025-12-24 今天不知道干啥。 DINOfeature感觉已经了解的差不多了。SAM架构也了解完了。 是不是该学学SITS相关的了?

    Comment Image 1
    2025年12月24日