论文简读：《ChangeDINO: DINOv3-Driven Building Change Detection in Optical Remote Sensing Imagery》

【PDF:ChangeDINO DINOv3-Driven Building Change Detection in Optical Remote Sensing Imagery.pdf】

概览

该工作提出了一种端到端的多尺度Siamese框架，其架构设计体现了”强先验+精细推理”的思想。主要包含四个关键模块：

DINOv3预训练编码器：语义注入
密集特征融合模块（DFFM）：跨层级信息聚合
空间-光谱差分Transformer解码器（S2DT）：核心创新
可学习形态学模块（LMM）：边界精细化

DINOv3预训练编码器

简要地来说，它把MobileNet的后4层feature作为Multi-Scale Features，将它与DINOv3的第 5、11、17、 23的patch进行Project后concat起来作为最后的feature。我感觉很奇怪，纯 ViT 本来只有一个 patch grid，怎么能用它来作为所谓的“Multi-Scale Features”呢？这么concat起来真的合乎逻辑吗？我问了GPT，它回答说：

对 ViT 做 “伪多尺度” 本来就是主流 trick

纯 ViT 本来只有一个 patch grid（这里是 32×32），业界常用的方法有：

选多个层（深度）作为不同“语义层级”，用插值/池化/卷积构成多尺度特征，再接 FPN / U-Net decoder。

比如一些 ViT segmentation / detection 论文、DPT、某些 SegFormer-like 结构也会类似地对 ViT 特征做上/下采样，构建 “FPN-like” 金字塔，然后和 CNN 套路保持一致。

我还是对这个做法保持怀疑🤨，但因为我目前不涉及这方面内容，暂且搁置，日后如果遇到再探讨。

密集特征融合模块（DFFM）

为了更好的融合特征，他使用了深度可分离卷机（depthwise–separable convolution）和 CBAM Attention。为啥使用深度可分离卷机呢？他也没说。可能就是为了加速训练吧？简单来说，它用了“Depthwise Convolution”对每个维度独立卷机，接着使用“Pointwise Convolution”对跨维度的同一poison卷机，比原来的同时对所有维度同一位置卷机轻量化了一点。而CBAM Attention则比较有趣：

进行完这些操作就得到了最终的Feature。

空间-光谱差分Transformer解码器（S2DT）

用不同时间的两个feature相减就得到了最后需要使用的feature。拿到feature后就该完成自己的task了： Remote sensing change detection 。这块我不懂，不过他用到了Differential transformer，这还是蛮有趣的。它是在LLM里用来“降噪”的transformer。他说这个差分注意力机制

well suited here for filtering illumination-induced or misregistration artifacts and other irrelevant responses.

其他地方看着挺常规的。

可学习形态学模块（LMM）

最后的这个LMM就是在试着优化传统用来平滑、侵蚀、扩张最终生成mask的算法。原来一般都是拿3*3的矩阵直接卷机，这里它引入了可学习变量怎么算了一下。

消融实验

本着对他设计模块效果的质疑，我直接略过了效果，直接看他的消融实验：

三个模块全去掉，只使用DINO feature在LEVIR-CD上效果感觉已经很不错了，其他的感觉有点像个添头，但毕竟也提升了两三个点，其实也挺多的了。

最后附上效果：