-
【日报】2025-10-28 今天老老实实学RL、上课、写课程作业。 组会朱浩师兄提出的rename class name很有意思。DINOv3应该算是fundamental model,对于特定的Task,专门训一个特定的Head来完成它应该是最自然的方案。不过能training-free 自然更好。 LLM/VLM/CLIP/DINO/SAM的结构差异很大,训练方式也不同,都是针对各自的task来设计的。CLIP是为了构建一个“图像域”与“文本域”的映射/匹配关系,所以自然对文本更鲁棒。LLM就不用说了,是在“文本域”的序列预测。而VLM为了能够接受“图像域”的信息,设计了一个“投影层”,将CLIP的“图像域”的encoder投影到LLM的语义空间,再end2end微调,这样达到了接收图像输入。而DINO就更不一样了,它的初衷就是fundamental model,所以他的目标就是让特征空间分布尽可能的丰富。对于DINOv3,它用Gram锚定来保证高维空间信息丰富,Teacher-Student架构保证feature在pixel-wise对齐与全局语义能和局部语义对齐,就没怎么考虑“分割”这个down-stream task。而SAM则是纯粹为了能够接收各种prompt进行分。所以在我看来让fundamental model强行有segment model的效果,我感觉有违它的初衷,可能并不是解决了一个他的“痛点”?反而可能那些看似“工程”的拼接工作——用SAM分割、DINO获得/增强对应feature(这块我没了解)、CLIP判断语义——更加合理。**当然,这个工作确实很创新、很有效,而且也很有意义。** 关于 点监督RL确实像我之前说的,可能需要在anchor-based的上来。选了卜东波老师的算法设计课,他课上也一直在讲RL相关成果,非常精彩。
2025年10月28日 -
【日报】2025-10-27 之前三天在忙小组作业、学生工作还有爬山。 基本上把市面上为数不多的目标检测+RL的给看了一圈。
2025年10月27日 -
【日报】2025-10-23 一天课。 下周三个小组作业。除此之外还有两个小组作业。
2025年10月23日 -
【日报】2025-10-22 今天看看Learning Globally Optimized Object Detector via Policy Gradient (CVPR 2018, 29 Cites) ,我的视角和这篇很像。初步看了下他是在Fast RCNN基础上加了mAP的策略梯度来RL。用的公式和我一样也都是 ⁍ 。但我之前尝试的 点监督RL 并没work,为啥呢?它的 ⁍又是怎么设计的呢?我之前几次尝试的是引入一个Learnable Parameter,但感觉有点生硬。 反正先看看再说。 不出我所料,核心问题就是出在对于⁍的设计上。它是在一个Pre-trained Model的基础上进行其他工作,因此他有一个假设:cls_head是准确的——所以他能用cls_head进行Softmax后相乘得到 ⁍的合理估计。而我的初衷是直接从头开始训练,不涉及任何预训练,这就导致我没有恰当的方式估计 ⁍。或许我可以在SSP基础上加上policy继续训练?但是最近好忙,而且策略还得重新设计,有点懒得折腾。更根本的:点监督**是否真的需要**使用强化学习呢,使用的强化学习策略会不会有等价的BP表示而根本就不需要用RL呢? 还有一篇 A Reinforcement Learning Agent Controlled Multi-branch Small Object Detection Framework (ICASSP 2025)的,我也比较感兴趣,有空稍微看看。
2025年10月22日 -
【日报】2025-10-21 一天课。 今天看到一则趣闻:一个研究生抱怨他导师突发奇想让他研究用神经网络判断大数是不是质数。初见这个问题,我也感觉很好笑,好笑之余和同学打趣说不如把它当成序列预测问题用transformers/llm架构让GPT来写一写。 结果不出所料,它根本不收敛。它在理论上能收敛吗,有明确回归目标吗?还是模型结构问题,神经网络是否能模拟常规判断质数的算法?即使做出来了又有哪些应用场景?acc不是100%似乎真没人敢用,因为质数判断一般应该是用在基础领域,需要完全可靠,但是他不可能100%。 还好我不是那个研究生,不用考虑这些。
2025年10月21日