• 【日报】2025-10-23 一天课。 下周三个小组作业。除此之外还有两个小组作业。

    网页链接
    2025年10月23日
  • 【日报】2025-10-22 今天看看Learning Globally Optimized Object Detector via Policy Gradient (CVPR 2018, 29 Cites) ,我的视角和这篇很像。初步看了下他是在Fast RCNN基础上加了mAP的策略梯度来RL。用的公式和我一样也都是 ⁍ 。但我之前尝试的 点监督RL 并没work,为啥呢?它的 ⁍又是怎么设计的呢?我之前几次尝试的是引入一个Learnable Parameter,但感觉有点生硬。 反正先看看再说。 不出我所料,核心问题就是出在对于⁍的设计上。它是在一个Pre-trained Model的基础上进行其他工作,因此他有一个假设:cls_head是准确的——所以他能用cls_head进行Softmax后相乘得到 ⁍的合理估计。而我的初衷是直接从头开始训练,不涉及任何预训练,这就导致我没有恰当的方式估计 ⁍。或许我可以在SSP基础上加上policy继续训练?但是最近好忙,而且策略还得重新设计,有点懒得折腾。更根本的:点监督**是否真的需要**使用强化学习呢,使用的强化学习策略会不会有等价的BP表示而根本就不需要用RL呢? 还有一篇 A Reinforcement Learning Agent Controlled Multi-branch Small Object Detection Framework (ICASSP 2025)的,我也比较感兴趣,有空稍微看看。

    网页链接
    2025年10月22日
  • 【日报】2025-10-21 一天课。 今天看到一则趣闻:一个研究生抱怨他导师突发奇想让他研究用神经网络判断大数是不是质数。初见这个问题,我也感觉很好笑,好笑之余和同学打趣说不如把它当成序列预测问题用transformers/llm架构让GPT来写一写。 结果不出所料,它根本不收敛。它在理论上能收敛吗,有明确回归目标吗?还是模型结构问题,神经网络是否能模拟常规判断质数的算法?即使做出来了又有哪些应用场景?acc不是100%似乎真没人敢用,因为质数判断一般应该是用在基础领域,需要完全可靠,但是他不可能100%。 还好我不是那个研究生,不用考虑这些。

    网页链接
    2025年10月21日
  • 【日报】2025-10-20 点监督RL 应该还是可行的,但是工作太大了,缺乏很多基础,所以放弃了。 看看论文吧。 西湖大学的朋友一边正常上课一边猛让codex帮他写代码,一边用几T图像自己训7B的DINOv3,而我却苦于iPad不方便连Easy Connect,上课时只得老老实实专心听讲,时间不等人啊。 今天论文也没看,一天课,在忙小组作业。

    网页链接
    2025年10月20日
  • 国科大是真爽啊 离景区近还没人 还免票

    Comment Image
    北京市 怀柔区 10°C,大部多云
    2025年10月18日 下午 13时16分🥰