陈的博客

【日报】2025-11-06 转战DINOv3三天，天天都有有趣的事。今天试了下用强化学习来筛选对于一个特定的物体类别，到底用哪些DINO feature、权重分别是多少，能较好的区分出他们。还是直接先放图。看着挺有效的。使用RL筛选相关维度，看着挺有效的。但是遇到了几个问题：对于桥梁、篮球场这些background，似乎无法用同一算法有效表达是否要将原图也加入输出feature中？ RoPE对模型到底要不要加上之后还要做一个SFT版本来计算特征。是否有方法能量化DINO feat的表征能力？ Patch RoPE?

2025年11月6日

2025年11月6日
【日报】2025-11-05 今天跟师兄讨论了挺多东西，就不一一列举了。说说DINO吧，这是我目前用点监督生成的，以后打算用类似方法做伪框。 7b5e221e0969772d11231be6a88a86a0.png 然后我又手动选择了两个维度，用他们生成： 70316581aee8c02fded27ef057131018.png 算法算的还不如我手挑的——要不做个RL agent辅助做一个通用DINO feature layer选择Agent？能做吗？RL方面能非常完美的契合，task能吗？RLHF吗？

2025年11月5日

2025年11月5日
【日报】2025-11-04 昨天我说“如何排列Patch”，当时实际上只是为了解决DINO输出feature细粒度不够的问题，但好像现在能延伸出一些有趣的问题。（昨天日报好像没发出来，在附件和网页端都有存档）今天dino玩的东西有点多，得到了一个阶段性结论：对于较小的DINOv3，可能去掉RoPE能更好的用模型查询相关信息。截屏2025-11-04 21.03.04.png 东西比较多，就放图片里了：幻灯片1.png 幻灯片2.png 幻灯片3.png 幻灯片4.png 幻灯片5.png 幻灯片6.png 幻灯片7.png 幻灯片8.png 幻灯片9.png 幻灯片10.png 邮件里可能看不到，PDF附件和网页里应该可以。这个应该能作为点监督的一个小trick，当然，还是得强调，对于较小的DINOv3可能能这么做，对原始的7B就不一定了，模型比较大，还没下载好还没测试。而且也没有量化去掉RoPE以后feature表征能力是否下降。验证完在7b模型上是否有效以后，我想着重看看DINOv3的特征在各个维度上是否有一定的可解释性，还有RoPE对Attention的具体影响。先看看相关论文。

2025年11月4日

2025年11月4日
eva剧场版影院上映，哭爽了。再见了，所有的EVANGELION。

2025年11月2日下午 15时40分
北京市怀柔区 11°C，晴 🥰

北京市怀柔区 11°C，晴
2025年11月2日下午 15时40分🥰
【日报】2025-10-31 今天上课，然后折腾了下小组作业：看人机交互的论文。西湖大学的朋友今天跟我讨论了一下DINO.txt，感觉还是挺有意思的。他参考DINO.txt的方法试了下，拿CLIP的text encoder加上一个投影层，让它来训练DINOv3的[CLS] token。不知道效果如何，但可玩性很高。讨论的时候我有两个疑问：1、为什么Meta自己训练DINOv3的时候不用ImageBind、CLIP这种的text encoder监督[CLS] token？2、为啥DINO.txt从头开始训练了一个text encoder，而不是使用CLIP的encoder？对于问题一，我感觉可能是和Meta家的长线战略以及DINOv3的定位有关？对于问题二，我怀疑是DINO.txt出的时候VLM架构还没有普及，现在习以为常的“二阶段+投影层”策略在当时还是一个未知领域，他们不敢这么做。当然，以上两个回答都只是我想当然的，也没具体考证过。

2025年10月31日

2025年10月31日