-
【日报】2025-11-18
2025年11月18日 -
【日报】2025-11-17 太累了,前三天没写日报。 周五应该跑了个实验然后看了篇论文 Progressive Exploration-Conformal Learning for Sparsely Annotated Object Detection in Aerial Images,有点意思(?)但搞不懂为啥他要上RL,感觉是纯算法问题? 我的强化学习DINO维度筛选有点结果了,但还要再过一会才能出东西。目前是发现One-shot会过拟合,现在试试3-shots。还有个问题就是多尺度问题。 昨天看到IBM有篇文章有点意思,找时间看看。
2025年11月17日 -
reward曲线比人生还曲折belike:
北京市 怀柔区 6°C,晴朗无云2025年11月13日 晚上 21时1分🧑💻 -
bro wtf…?
北京市 怀柔区 10°C,晴2025年11月13日 下午 16时15分😨 -
【日报】2025-11-13 又是一天课,给GRPO上了个KL约束项,好像能训练了。 试着写了个RLVF(Reinforce Learning with VLM Feedback) ,在之前RLHF版本基础上进行。花了几块钱调用API与一下午的努力后我发现VLM还是不太能适应这种人做都有点难的选择题。老老实实手动点点,然后赶紧去跑指标吧。 截屏2025-11-13 18.05.49.png 发现一个大错,我写的采样是伯努利分布,应该用Beta分布的,全部重新来过。
2025年11月13日