• reward曲线比人生还曲折belike:

    Comment Image
    北京市 怀柔区 6°C,晴朗无云
    2025年11月13日 晚上 21时1分🧑‍💻
  • bro wtf…?

    Comment Image
    北京市 怀柔区 10°C,晴
    2025年11月13日 下午 16时15分😨
  • 【日报】2025-11-13 又是一天课,给GRPO上了个KL约束项,好像能训练了。 试着写了个RLVF(Reinforce Learning with VLM Feedback) ,在之前RLHF版本基础上进行。花了几块钱调用API与一下午的努力后我发现VLM还是不太能适应这种人做都有点难的选择题。老老实实手动点点,然后赶紧去跑指标吧。 截屏2025-11-13 18.05.49.png 发现一个大错,我写的采样是伯努利分布,应该用Beta分布的,全部重新来过。

    网页链接
    2025年11月13日
  • 【日报】2025-11-12 今天就晚上没课,写了点作业,也完成了使用GRPO来筛选DINOv3 特征的代码。 GRPO是真难训练。主要是超参数难调。让GPT写了个Sweep帮我筛超参,不知道啥时候跑得完。考虑了下维度贡献度/筛选问题能不能变成连续01规划问题或者类似问题,好像不行,RL就是比较合理的做法。 其实感觉有点跑偏了,赶紧用dino标完数据看看效果才是最重要的。

    网页链接
    2025年11月12日
  • 【日报】2025-11-11 一天课,没干啥事。 Patch RoPE显然与图像scale不等价,但是哪个好呢?还没试过。

    网页链接
    2025年11月11日