-  【日报】2025-10-30 今天一天课。 网页链接2025年10月30日
-  【日报】2025-10-29 干了点活、写了点作业。 PPTPPTPPTPPT,全是PPT,小组作业还要开题中期答辩啥的,感觉像是在帮别的所打工。怎么会有这种课,上课放20年前视频,作业是帮老师的研究生干活(大概)。哎,选都选了,就当拓展知识面了,反正到最后应该还是简单机器学习。 点监督RL 在anchor free的fcos上不知怎么回事没复现出来,我直接按原文在Faster RCNN上复现一下吧。为什么我要复现这么老的东西?主要是太久没看到有效果的东西需要有点正向激励,来证明我的代码能力起码是没问题的。否则都不敢写下去了。当然也是积累点经验,里面很多方法还是很有参考价值的。 网页链接2025年10月29日
-  AI时代如何教学?卜老师确实站在这方面教学最前沿。 不是一刀切的禁止使用、查AI率,而是将AI融入教学中来。教算法,教用神经网络优化算法,教如何让AI寻找算法,教人应该如何用AI设计算法—这才是AI时代学校该做的,这也是这门课正在教的。从用神经网络剪枝np-hard问题,到用强化学习优化矩阵乘法,将AI真正结合进教学底层逻辑,卜老师无疑是做了很多优秀的探索。 开学几次讲话的时候,国科大校长、计算所所长等几位学术大牛也都分别强调了要拥抱AI,接受AI,将AI合理的结合进学术生活中。这门课就是个非常好的例子。  北京市 怀柔区 10°C,大部多云2025年10月28日 晚上 21时43分📚 北京市 怀柔区 10°C,大部多云2025年10月28日 晚上 21时43分📚
-  【日报】2025-10-28 今天老老实实学RL、上课、写课程作业。 组会朱浩师兄提出的rename class name很有意思。DINOv3应该算是fundamental model,对于特定的Task,专门训一个特定的Head来完成它应该是最自然的方案。不过能training-free 自然更好。 LLM/VLM/CLIP/DINO/SAM的结构差异很大,训练方式也不同,都是针对各自的task来设计的。CLIP是为了构建一个“图像域”与“文本域”的映射/匹配关系,所以自然对文本更鲁棒。LLM就不用说了,是在“文本域”的序列预测。而VLM为了能够接受“图像域”的信息,设计了一个“投影层”,将CLIP的“图像域”的encoder投影到LLM的语义空间,再end2end微调,这样达到了接收图像输入。而DINO就更不一样了,它的初衷就是fundamental model,所以他的目标就是让特征空间分布尽可能的丰富。对于DINOv3,它用Gram锚定来保证高维空间信息丰富,Teacher-Student架构保证feature在pixel-wise对齐与全局语义能和局部语义对齐,就没怎么考虑“分割”这个down-stream task。而SAM则是纯粹为了能够接收各种prompt进行分。所以在我看来让fundamental model强行有segment model的效果,我感觉有违它的初衷,可能并不是解决了一个他的“痛点”?反而可能那些看似“工程”的拼接工作——用SAM分割、DINO获得/增强对应feature(这块我没了解)、CLIP判断语义——更加合理。**当然,这个工作确实很创新、很有效,而且也很有意义。** 关于 点监督RL确实像我之前说的,可能需要在anchor-based的上来。选了卜东波老师的算法设计课,他课上也一直在讲RL相关成果,非常精彩。 网页链接2025年10月28日
-  【日报】2025-10-27 之前三天在忙小组作业、学生工作还有爬山。 基本上把市面上为数不多的目标检测+RL的给看了一圈。 网页链接2025年10月27日