陈的博客

【日报】2026-03-17 又看了一篇综述。 A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision 。他提到“the current focus remains on unsupervised domain adaptation (UDA) for panoramic semantic segmentation.”，正好我最近也很感兴趣unsupervised domain adaptation。我的服务器师兄还在修，辛苦师兄了。当然，因为我非常喜欢DINOv3，在接触全景的第一件事就是可视化了下DINOv3在全景/普通图像下的效果对比： dinov3_heatmap_export_9028b93f5cf34ec08022a3e3f32b6879.png 可以看到，在极点附近DINOv3效果很差，因为DINO的RoPE位置编码在极点附近与实际的空间坐标差的太多了。我想我之后会去了解下别的位置编码啥的。全景还有好多基础要打，不像遥感，基本就是CV老一套照搬。我感觉我做东西太希望直接形成一套完整的工作流了，这导致初期工作量过大、难以在前期可视化效果、灵活性低，感觉还是得灵活点。

2026年3月17日

2026年3月17日
【日报】2026-03-16 看全景论文。我用的服务器不知道为啥似乎炸了。果然，全景也需要Domain Adaptation，但是我服务器炸了，Domain Adaptation的代码都在那台服务器。目前有几个比较感兴趣的方向：Cross-View Geo-Localization、Domain Adaptation和Semantic Mapping。这两个方向我后续都有点想往Visual Understanding方向走，但我打算先看看DINOv3的SAT版本的效果如何。对于技术路线，我更希望是Transformer-base的。

2026年3月16日

2026年3月16日
【日报】2026-03-13 今天问了下师兄全景相关内容，给我推荐了几篇论文，周末读读。这周懒得徒步。

2026年3月13日

2026年3月13日
【日报】2026-03-12 “为什么偏偏是 OpenClaw 火了？” OpenClaw刚火那阵，我在Mac上装过一个。不到半小时搞定，然后花了一个小时想：它能做什么？有什么是Claude Code这种agent做不到的？想完之后，我又花了几分钟把它删掉了。后来回头想想，我觉得OpenClaw火起来，其实不在于它有多好用，而更像是因为一句话：“让普通人也有机会接触最前沿的AI。” 今年春节我回了一趟湖北的县城和乡下，好多年没去了。往年回去无非是吃几道不太习惯的菜，和不太熟的亲戚拜个年，刷刷手机，年就过去了。今年却有点不一样，好些父辈的亲戚操着湖北方言来问我：“DeepSeek是啥？”“元宝好用不？”“什么叫幻觉？”这些问题基本都来自我父亲那一辈。这让我第一次明显意识到：就算是在基层县城，中年人甚至老年人，对LLM这种新鲜事的好奇心也远比我之前想象得要强。其实在这样的社会背景下，元宝、豆包、千问早就不算什么新鲜东西了。上至比我大几十岁的长辈，下至小我十岁的表弟，很多人都在用。论用户规模，这些产品把OpenClaw甩出去几条街。如果单纯从用户基数来看，它们才是真正意义上的“爆火”。那为什么偏偏是OpenClaw，成了现象级话题？我后来慢慢觉得，关键在于它满足的是普通人对AI的想象，而不只是需求。过年那几天，我听亲戚聊过不少关于AI的用法：有人想让AI帮自己写文章赚钱，有人希望AI能帮自己炒股，还有人问能不能“自动做生意”。这些想法未必现实，但它们确实存在。像我们这些多少接触过AI的人，大概还能比较清楚地意识到LLM的能力边界，而元宝、豆包、千问这些产品其实也是如此，它们的产品设计往往比较克制，不会轻易开放明显超出能力范围的入口。 OpenClaw就不太一样了。它的核心设计其实很简单：**让LLM去扮演一个角色。**至于这个角色到底能不能完成任务、能力边界在哪里，似乎没人太在意，它自己也没有特别强调。恰恰是这种开放性，加上LLM本身就带有一定的角色扮演能力，很容易击中很多人对AI的想象：它看起来真的像是在“变成某个角色替你干活”。至于干得好不好，反而没有那么重要。但如果只是满足想象，它未必会变成一个现象。OpenClaw真正被炒热，其实还因为它提供了一种机会感。于是就出现了一个很有意思的景象：那些点击即用的元宝、豆包、千问，需要春节发红包、做活动来拉新；而OpenClaw这种需要自己折腾安装的东西，却有人抢着去学怎么装，甚至出现了收费安装、代装服务，还有志愿者上门帮人装。一个看起来门槛不高、又带点“最前沿”的窗口，自然就让很多人觉得自己也可以参与进来。普通人看到的是机会——一个终于可以让AI“听自己使唤”、扮演某种角色帮自己赚钱或做事的机会；科技博主看到的是流量——一个全民陌生、人人想学、教程供不应求的窗口期；模型厂商看到的是生意——用户自发传播，不用花钱买数据，还能靠API调用收费回本。于是每一层人都在这件事里找到了自己的位置，也都在不自觉地为这把火添了一把柴。到最后，大家都在谈论这个“爆款”。在各种动机交织之下，一场几乎是“自发完成的造神”就这样发生了。至于那些每天用Claude Code这种agent的人，大概只是远远看着，然后像我当时一样，顺手把那个客户端删掉了。 - 在科研领域，我用Claude的工作流很简单： 1、创建各个文件夹并放入各种内容 2、写一份详细的CLAUDE.md 相关文档以中文为默认 ## 目录约定 checkpoints 存放各类下载的ckpt ckpts 存放自己模型的ckpt configs 储存实验config（yaml） docs 相关文档，所有调研内容等都存这里 InfoSAM 参考的核心代码，需要参考其relation module、Gram矩阵等设计 mmcv 辅助，仅参考，实验代码应遵守transformers风格而不是mmcv风格 mmrotate 辅助，仅参考。 Oriented-DETR baseline，但是需移植到transformers架构中 Rotated_IoU 最优先使用的rotated iou 计算代码库 references 存着之前其他项目的代码，**和所有相关论文**，参考，要将里面的rotated deformable detr和oriented detr相关移植到transformers里，同时将相关的train val test代码在合适时候移植入src中我们的项目配置中 scripts 存放各种sh启动脚本 src 项目代码实现目录，遵守transformers风格而不是mmcv风格 transformers 我们自己的transfomrers仓库，fork自hugging face，我们要实现rotated deformable detr和oriented detr等。 tools 辅助py脚本等 ## 要求执行完task及时更新docs里的文档和CLAUDE.md ## 项目目标使用Info蒸馏（参考infoSAM）将oriented-detr从DOTA迁移到RSAR DOTA 六类数据 + Oriented DETR (teacher) -- info distill --> RSAR 六类数据 + Oriented DETR (student) 路线（已完成需在后面打勾标记）： 1、实现rotated deformable detr（在references/transformers-ref中有实现，直接照搬，并更新文档） ✓ 2、在transformers库中移植Oriented-DETR（在references/transformers-ref中有实现，结合需求合理的移植，并更新文档） ✓ 3、测试 ✓ 4、搭建SFT训练框架与常规蒸馏框架，dataloader等 ✓ 5、实现2种Gram（具体参考docs中路线方案），并搭建info蒸馏框架(需仔细参考InfoSAM) 6、训练其中Loss设计与relation module设计思路完全遵循InfoSAM的来，Gram矩阵选择参考docs中的设计规划所有开发工作在HuggingFace Transformers框架下进行。先完成Oriented-DETR的Transformers移植，再在此基础上实现蒸馏，RSAR数据通过统一的datasets接口接入。 ## 具体思路 1、拿Oriented-DETR在dota上训练（只筛选与RSAR相同的六个类），训练时尽可能load Oriented-DETR的ckpt，或者尝试load Deformable-DETR 的ckpt，两者后续都要进行测试。 2、这之后，用RSAR微调一个版本 3、再使用Info蒸馏进行训练。 3、配置环境（或者让claude来配置） 4、让Claude对路线中的每一步逐步进入plan mode并实现。在这期间，我又需要龙虾、需要multi-agent做什么呢？读取当天天气？看我的待办？上小红书进行角色扮演？读取一份15kb的system prompt——其中夹杂着各种各样用得到用不到的skill？亦或者让它在飞书跟我实时汇报进度？（顺带烧掉我十几、几十块钱？）

2026年3月12日

2026年3月12日
【日报】2026-03-11 打算过几天找师兄了解，先自己看看全景相关的。智能驾驶、无人机、机器人机器狗这些似乎是挺好的切入点。全景视觉几何、全景图像理解（目标检测、语义分割）、全景3D理解（全景3D理解、全景深度估计）、全景+VR/AR、全景 + 自动驾驶。目前看到有这些领域。我对自己数学很没自信，太粗心细节老是算错，所以应该尽量避免全景视觉几何这种侧重计算的，而应该把落脚点放在图像理解3D理解这种。

2026年3月11日

2026年3月11日