-
【日报】2026-03-18 上课。稍微忙了点学生会的事。 在跟着学2DRoPE的推导,因为我感觉如果是基于transformers架构去做全景,球面坐标系下的类似旋转位置编码的东西肯定绕不开。球谐函数得看起来。还稍微问了问物理系朋友什么SO3群什么不可交换啥的群论的东西,过两天等我思路具体了再去问问,现在一头雾水。
2026年3月18日 -
【日报】2026-03-17 又看了一篇综述。 A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision 。 他提到“the current focus remains on unsupervised domain adaptation (UDA) for panoramic semantic segmentation.”,正好我最近也很感兴趣unsupervised domain adaptation。我的服务器师兄还在修,辛苦师兄了。 当然,因为我非常喜欢DINOv3,在接触全景的第一件事就是可视化了下DINOv3在全景/普通图像下的效果对比: dinov3_heatmap_export_9028b93f5cf34ec08022a3e3f32b6879.png 可以看到,在极点附近DINOv3效果很差,因为DINO的RoPE位置编码在极点附近与实际的空间坐标差的太多了。我想我之后会去了解下别的位置编码啥的。全景还有好多基础要打,不像遥感,基本就是CV老一套照搬。 我感觉我做东西太希望直接形成一套完整的工作流了,这导致初期工作量过大、难以在前期可视化效果、灵活性低,感觉还是得灵活点。
2026年3月17日 -
【日报】2026-03-16 看全景论文。我用的服务器不知道为啥似乎炸了。 果然,全景也需要Domain Adaptation,但是我服务器炸了,Domain Adaptation的代码都在那台服务器。 目前有几个比较感兴趣的方向:Cross-View Geo-Localization、Domain Adaptation和Semantic Mapping。这两个方向我后续都有点想往Visual Understanding方向走,但我打算先看看DINOv3的SAT版本的效果如何。对于技术路线,我更希望是Transformer-base的。
2026年3月16日 -
【日报】2026-03-13 今天问了下师兄全景相关内容,给我推荐了几篇论文,周末读读。 这周懒得徒步。
2026年3月13日 -
【日报】2026-03-12 “为什么偏偏是 OpenClaw 火了?” OpenClaw刚火那阵,我在Mac上装过一个。不到半小时搞定,然后花了一个小时想:它能做什么?有什么是Claude Code这种agent做不到的?想完之后,我又花了几分钟把它删掉了。 后来回头想想,我觉得OpenClaw火起来,其实不在于它有多好用,而更像是因为一句话:“让普通人也有机会接触最前沿的AI。” 今年春节我回了一趟湖北的县城和乡下,好多年没去了。往年回去无非是吃几道不太习惯的菜,和不太熟的亲戚拜个年,刷刷手机,年就过去了。今年却有点不一样,好些父辈的亲戚操着湖北方言来问我:“DeepSeek是啥?”“元宝好用不?”“什么叫幻觉?”这些问题基本都来自我父亲那一辈。 这让我第一次明显意识到:就算是在基层县城,中年人甚至老年人,对LLM这种新鲜事的好奇心也远比我之前想象得要强。 其实在这样的社会背景下,元宝、豆包、千问早就不算什么新鲜东西了。上至比我大几十岁的长辈,下至小我十岁的表弟,很多人都在用。论用户规模,这些产品把OpenClaw甩出去几条街。如果单纯从用户基数来看,它们才是真正意义上的“爆火”。 那为什么偏偏是OpenClaw,成了现象级话题? 我后来慢慢觉得,关键在于它满足的是普通人对AI的想象,而不只是需求。 过年那几天,我听亲戚聊过不少关于AI的用法:有人想让AI帮自己写文章赚钱,有人希望AI能帮自己炒股,还有人问能不能“自动做生意”。这些想法未必现实,但它们确实存在。 像我们这些多少接触过AI的人,大概还能比较清楚地意识到LLM的能力边界,而元宝、豆包、千问这些产品其实也是如此,它们的产品设计往往比较克制,不会轻易开放明显超出能力范围的入口。 OpenClaw就不太一样了。它的核心设计其实很简单:**让LLM去扮演一个角色。**至于这个角色到底能不能完成任务、能力边界在哪里,似乎没人太在意,它自己也没有特别强调。恰恰是这种开放性,加上LLM本身就带有一定的角色扮演能力,很容易击中很多人对AI的想象:它看起来真的像是在“变成某个角色替你干活”。至于干得好不好,反而没有那么重要。 但如果只是满足想象,它未必会变成一个现象。OpenClaw真正被炒热,其实还因为它提供了一种机会感。 于是就出现了一个很有意思的景象:那些点击即用的元宝、豆包、千问,需要春节发红包、做活动来拉新;而OpenClaw这种需要自己折腾安装的东西,却有人抢着去学怎么装,甚至出现了收费安装、代装服务,还有志愿者上门帮人装。一个看起来门槛不高、又带点“最前沿”的窗口,自然就让很多人觉得自己也可以参与进来。 普通人看到的是机会——一个终于可以让AI“听自己使唤”、扮演某种角色帮自己赚钱或做事的机会;科技博主看到的是流量——一个全民陌生、人人想学、教程供不应求的窗口期;模型厂商看到的是生意——用户自发传播,不用花钱买数据,还能靠API调用收费回本。 于是每一层人都在这件事里找到了自己的位置,也都在不自觉地为这把火添了一把柴。 到最后,大家都在谈论这个“爆款”。在各种动机交织之下,一场几乎是“自发完成的造神”就这样发生了。 至于那些每天用Claude Code这种agent的人,大概只是远远看着,然后像我当时一样,顺手把那个客户端删掉了。 - 在科研领域,我用Claude的工作流很简单: 1、创建各个文件夹并放入各种内容 2、写一份详细的CLAUDE.md 相关文档以中文为默认 ## 目录约定 checkpoints 存放各类下载的ckpt ckpts 存放自己模型的ckpt configs 储存实验config(yaml) docs 相关文档,所有调研内容等都存这里 InfoSAM 参考的核心代码,需要参考其relation module、Gram矩阵等设计 mmcv 辅助,仅参考,实验代码应遵守transformers风格而不是mmcv风格 mmrotate 辅助,仅参考。 Oriented-DETR baseline,但是需移植到transformers架构中 Rotated_IoU 最优先使用的rotated iou 计算代码库 references 存着之前其他项目的代码,**和所有相关论文**,参考,要将里面的rotated deformable detr和oriented detr相关移植到transformers里,同时将相关的train val test代码在合适时候移植入src中我们的项目配置中 scripts 存放各种sh启动脚本 src 项目代码实现目录,遵守transformers风格而不是mmcv风格 transformers 我们自己的transfomrers仓库,fork自hugging face,我们要实现rotated deformable detr和oriented detr等。 tools 辅助py脚本等 ## 要求 执行完task及时更新docs里的文档和CLAUDE.md ## 项目目标 使用Info蒸馏(参考infoSAM)将oriented-detr从DOTA迁移到RSAR DOTA 六类数据 + Oriented DETR (teacher) -- info distill --> RSAR 六类数据 + Oriented DETR (student) 路线(已完成需在后面打勾标记): 1、实现rotated deformable detr(在references/transformers-ref中有实现,直接照搬,并更新文档) ✓ 2、在transformers库中移植Oriented-DETR(在references/transformers-ref中有实现,结合需求合理的移植,并更新文档) ✓ 3、测试 ✓ 4、搭建SFT训练框架与常规蒸馏框架,dataloader等 ✓ 5、实现2种Gram(具体参考docs中路线方案),并搭建info蒸馏框架(需仔细参考InfoSAM) 6、训练 其中Loss设计与relation module设计思路完全遵循InfoSAM的来,Gram矩阵选择参考docs中的设计规划 所有开发工作在HuggingFace Transformers框架下进行。先完成Oriented-DETR的Transformers移植,再在此基础上实现蒸馏,RSAR数据通过统一的datasets接口接入。 ## 具体思路 1、拿Oriented-DETR在dota上训练(只筛选与RSAR相同的六个类),训练时尽可能load Oriented-DETR的ckpt,或者尝试load Deformable-DETR 的ckpt,两者后续都要进行测试。 2、这之后,用RSAR微调一个版本 3、再使用Info蒸馏进行训练。 3、配置环境(或者让claude来配置) 4、让Claude对路线中的每一步逐步进入plan mode并实现。 在这期间,我又需要龙虾、需要multi-agent做什么呢?读取当天天气?看我的待办?上小红书进行角色扮演?读取一份15kb的system prompt——其中夹杂着各种各样用得到用不到的skill?亦或者让它在飞书跟我实时汇报进度?(顺带烧掉我十几、几十块钱?)
2026年3月12日