陈的博客

reward曲线比人生还曲折belike：

2025年11月13日晚上 21时1分
北京市怀柔区 6°C，晴朗无云 🧑‍💻

北京市怀柔区 6°C，晴朗无云
2025年11月13日晚上 21时1分🧑‍💻
bro wtf…?

2025年11月13日下午 16时15分
北京市怀柔区 10°C，晴 😨

北京市怀柔区 10°C，晴
2025年11月13日下午 16时15分😨
【日报】2025-11-13 又是一天课，给GRPO上了个KL约束项，好像能训练了。试着写了个RLVF(Reinforce Learning with VLM Feedback) ，在之前RLHF版本基础上进行。花了几块钱调用API与一下午的努力后我发现VLM还是不太能适应这种人做都有点难的选择题。老老实实手动点点，然后赶紧去跑指标吧。截屏2025-11-13 18.05.49.png 发现一个大错，我写的采样是伯努利分布，应该用Beta分布的，全部重新来过。
网页链接
2025年11月13日

2025年11月13日
【日报】2025-11-12 今天就晚上没课，写了点作业，也完成了使用GRPO来筛选DINOv3 特征的代码。 GRPO是真难训练。主要是超参数难调。让GPT写了个Sweep帮我筛超参，不知道啥时候跑得完。考虑了下维度贡献度/筛选问题能不能变成连续01规划问题或者类似问题，好像不行，RL就是比较合理的做法。其实感觉有点跑偏了，赶紧用dino标完数据看看效果才是最重要的。
网页链接
2025年11月12日

2025年11月12日
【日报】2025-11-11 一天课，没干啥事。 Patch RoPE显然与图像scale不等价，但是哪个好呢？还没试过。
网页链接
2025年11月11日

2025年11月11日