-
【日报】2025-12-29 117ce71fadd312062a25f020ff3c3e9a.png 今天看到个很有趣的Training-free GRPO,思想是拿query+experiences来做输入,动态更新experiences而不是模型。那我们是不是更进一步可以[Instruct]+[Learnable Tokens]做模型输入,冻结模型,对token进行GRPO,然后再decode看看[Learnable Tokens]到底学到了什么。查了下发现这就是RL prompt tuning。看着很有趣,稍微看两眼。有点想自己复现个玩玩。改几行代码就行了应该。最近还是复习为主。
2025年12月29日 -
【日报】2025-12-26 复习。忙元旦晚会。周六元旦晚会周日复习。 下周考试,元旦过完还有考试。
2025年12月26日 -
【日报】2025-12-25
2025年12月25日 -
【日报】2025-12-24 今天不知道干啥。 DINOfeature感觉已经了解的差不多了。SAM架构也了解完了。 是不是该学学SITS相关的了?
2025年12月24日 -
【日报】2025-12-23 复习模式识别与机器学习,下午晚上上课。 马上到“期末月”了,每周都有期末考,跟凌迟似的。
2025年12月23日