-
reward曲线比人生还曲折belike:
北京市 怀柔区 6°C,晴朗无云2025年11月13日 晚上 21时1分🧑💻 -
bro wtf…?
北京市 怀柔区 10°C,晴2025年11月13日 下午 16时15分😨 -
【日报】2025-11-13 又是一天课,给GRPO上了个KL约束项,好像能训练了。 试着写了个RLVF(Reinforce Learning with VLM Feedback) ,在之前RLHF版本基础上进行。花了几块钱调用API与一下午的努力后我发现VLM还是不太能适应这种人做都有点难的选择题。老老实实手动点点,然后赶紧去跑指标吧。 截屏2025-11-13 18.05.49.png 发现一个大错,我写的采样是伯努利分布,应该用Beta分布的,全部重新来过。
网页链接2025年11月13日 -
【日报】2025-11-12 今天就晚上没课,写了点作业,也完成了使用GRPO来筛选DINOv3 特征的代码。 GRPO是真难训练。主要是超参数难调。让GPT写了个Sweep帮我筛超参,不知道啥时候跑得完。考虑了下维度贡献度/筛选问题能不能变成连续01规划问题或者类似问题,好像不行,RL就是比较合理的做法。 其实感觉有点跑偏了,赶紧用dino标完数据看看效果才是最重要的。
网页链接2025年11月12日 -
【日报】2025-11-11 一天课,没干啥事。 Patch RoPE显然与图像scale不等价,但是哪个好呢?还没试过。
网页链接2025年11月11日