-
bro wtf…?
北京市 怀柔区 10°C,晴2025年11月13日 下午 16时15分😨 -
【日报】2025-11-13 又是一天课,给GRPO上了个KL约束项,好像能训练了。 试着写了个RLVF(Reinforce Learning with VLM Feedback) ,在之前RLHF版本基础上进行。花了几块钱调用API与一下午的努力后我发现VLM还是不太能适应这种人做都有点难的选择题。老老实实手动点点,然后赶紧去跑指标吧。 截屏2025-11-13 18.05.49.png 发现一个大错,我写的采样是伯努利分布,应该用Beta分布的,全部重新来过。
2025年11月13日 -
【日报】2025-11-12 今天就晚上没课,写了点作业,也完成了使用GRPO来筛选DINOv3 特征的代码。 GRPO是真难训练。主要是超参数难调。让GPT写了个Sweep帮我筛超参,不知道啥时候跑得完。考虑了下维度贡献度/筛选问题能不能变成连续01规划问题或者类似问题,好像不行,RL就是比较合理的做法。 其实感觉有点跑偏了,赶紧用dino标完数据看看效果才是最重要的。
2025年11月12日 -
【日报】2025-11-11 一天课,没干啥事。 Patch RoPE显然与图像scale不等价,但是哪个好呢?还没试过。
2025年11月11日 -
【日报】2025-11-10 AAAI周六出分,一觉醒来朋友圈多了三篇中稿,一个是研一的,一个是大四的。研一的中了一篇一作poster,大四的中了一篇一作poster一篇二作oral。两篇3DGS超分,一篇3DGS多模态融合。 Patch RoPE真的等价于图像scale吗?
2025年11月10日