• 【日报】2025-11-05 今天跟师兄讨论了挺多东西,就不一一列举了。 说说DINO吧,这是我目前用点监督生成的,以后打算用类似方法做伪框。 7b5e221e0969772d11231be6a88a86a0.png 然后我又手动选择了两个维度,用他们生成: 70316581aee8c02fded27ef057131018.png 算法算的还不如我手挑的——要不做个RL agent辅助做一个通用DINO feature layer选择Agent? 能做吗?RL方面能非常完美的契合,task能吗?RLHF吗?

    网页链接
    2025年11月5日
  • 【日报】2025-11-04 昨天我说“如何排列Patch”,当时实际上只是为了解决DINO输出feature细粒度不够的问题,但好像现在能延伸出一些有趣的问题。(昨天日报好像没发出来,在附件和网页端都有存档) 今天dino玩的东西有点多,得到了一个阶段性结论:对于较小的DINOv3,可能去掉RoPE能更好的用模型查询相关信息。 截屏2025-11-04 21.03.04.png 东西比较多,就放图片里了: 幻灯片1.png 幻灯片2.png 幻灯片3.png 幻灯片4.png 幻灯片5.png 幻灯片6.png 幻灯片7.png 幻灯片8.png 幻灯片9.png 幻灯片10.png 邮件里可能看不到,PDF附件和网页里应该可以。这个应该能作为点监督的一个小trick,当然,还是得强调,对于较小的DINOv3可能能这么做,对原始的7B就不一定了,模型比较大,还没下载好还没测试。而且也没有量化去掉RoPE以后feature表征能力是否下降。 验证完在7b模型上是否有效以后,我想着重看看DINOv3的特征在各个维度上是否有一定的可解释性,还有RoPE对Attention的具体影响。先看看相关论文。

    网页链接
    2025年11月4日
  • eva剧场版影院上映,哭爽了。 再见了,所有的EVANGELION。

    Comment Image
    北京市 怀柔区 11°C,晴
    2025年11月2日 下午 15时40分🥰
  • 【日报】2025-10-31 今天上课,然后折腾了下小组作业:看人机交互的论文。 西湖大学的朋友今天跟我讨论了一下DINO.txt,感觉还是挺有意思的。他参考DINO.txt的方法试了下,拿CLIP的text encoder加上一个投影层,让它来训练DINOv3的[CLS] token。不知道效果如何,但可玩性很高。讨论的时候我有两个疑问:1、为什么Meta自己训练DINOv3的时候不用ImageBind、CLIP这种的text encoder监督[CLS] token?2、为啥DINO.txt从头开始训练了一个text encoder,而不是使用CLIP的encoder?对于问题一,我感觉可能是和Meta家的长线战略以及DINOv3的定位有关?对于问题二,我怀疑是DINO.txt出的时候VLM架构还没有普及,现在习以为常的“二阶段+投影层”策略在当时还是一个未知领域,他们不敢这么做。当然,以上两个回答都只是我想当然的,也没具体考证过。

    网页链接
    2025年10月31日
  • 【日报】2025-10-30 今天一天课。

    网页链接
    2025年10月30日