全景图像(equirectangular/360°/omnidirectional)已成为计算机视觉研究的重要数据形式,涵盖目标检测、语义分割、房间布局估计、全景分割等核心任务。本报告系统梳理了 50+ 个关键数据集,按任务类型分类呈现,为基于 DETR/DINO 等 Transformer 架构在球面位置编码下的全景图像研究提供完整的数据集参考。室内场景以 Stanford2D3D、Matterport3D、Structured3D、ZInD 为基石,室外场景以 DensePASS、WildPASS、KITTI-360 为代表,而 360-Indoor 和 PANDORA 则是目前 360° 目标检测领域仅有的两个专用基准数据集。
一、360° 目标检测数据集
目标检测是 DETR 类架构最直接的应用场景。目前专门为全景图像设计的目标检测数据集数量有限,360-Indoor 和 PANDORA 是该领域最核心的两个基准。PANDORA 首次引入了旋转边界视场(RBFoV)标注,对处理等距柱状投影中极区附近物体的严重畸变至关重要。Sph2Pob(IJCAI 2023)等方法将球面框转换为平面旋转框,使得常规 OBB 检测器可直接应用于全景图像。
| 数据集 | 年份 | 规模 | 类别数 | 场景 | 图像格式 | 标注类型 | 论文/链接 | 特色 |
|---|---|---|---|---|---|---|---|---|
| 360-Indoor | 2019/2020 | ~3,000张图,~89,148个标注框 | 37 | 室内 | 等距柱状投影 (1920×960) | BFoV (θ,φ,α,β) | WACV 2020; aliensunmin.github.io/project/360-dataset | 首个大规模360°室内检测数据集,平均每张27个框;5个超类组织 |
| PANDORA | 2022 | 3,000张图,94,353个标注框 | 47 | 室内 | 等距柱状投影 (1920×960) | RBFoV (θ,φ,α,β,γ) | ECCV 2022; github.com/tdsuper/SphericalObjectDetection | 首个带旋转标注的全景检测数据集;扩展360-Indoor增加10类+旋转角γ;含R-CenterNet基线 |
| Pano-RSOD | 2021 | 9,402张图,50,255+标注 | 4 (车辆/行人/交通标志/导向箭头) | 室外(道路) | 360°全景 | 边界框 | 相关论文见ProQuest | 聚焦交通场景;涵盖城区、十字路口、立交桥等多种道路场景 |
| ICPR 2018 360 Det | 2018 | 903帧,7,199标注 | ~10 (兼容COCO子集) | 室内外 | 等距柱状投影 (3840×1920) | BFoV + BBox + 3D容器框 | ICPR 2018; github.com/uenian33/360_object_detection_dataset | 早期基准;三种标注格式;来自YouTube VR视频 |
| WHU全景数据集 | ~2019 | 600张街景全景图,5,636标注 | — | 室外(街景) | 等距柱状投影 | 边界框 | 武汉大学 | 车载全景相机采集;用于网格球面CNN方法 |
| FishEye8K | 2023 | 8,000张图,157K框 | 5 (行人/自行车/轿车/公交/卡车) | 室外(交通监控) | 鱼眼 (1080×1080, 1280×1280) | PASCAL VOC/COCO/YOLO格式 | CVPRW 2023; github.com/MoyoG/FishEye8K | 首个开放的鱼眼交通监控检测数据集;含YOLOv5/v7/v8基线 |
显著物体检测(SOD)相关数据集:
| 数据集 | 年份 | 规模 | 场景 | 图像格式 | 论文/链接 | 特色 |
|---|---|---|---|---|---|---|
| 360-SOD | 2019 | 500张等距柱状图,像素级掩码 | 混合 | 等距柱状投影 | JSTSP 2020; arXiv:1909.04913 | 首个360°显著物体检测数据集 |
| F-360iSOD | 2020 | 107张图,1,165个显著物体,72类 | 混合 | 等距柱状投影 | arXiv:2001.07960 | 基于真实眼动注视图引导标注 |
| ODI-SOD | — | 6,263张高分辨率图,像素级标注 | 混合 | 等距柱状投影 (1024×512) | github.com/iCVTEAM/ODI-SOD | 最大规模360° SOD数据集 |
| SHD360 | 2021 | 37,403视频帧,41场景类别 | 混合 | 等距柱状投影 | arXiv:2105.11578 | 首个360°视频显著人体检测数据集;实例级掩码 |
| PAVS10K | 2023 | 67个4K视频,10,465标注帧 | 混合 | 等距柱状投影 (4K) | github.com/YeeZ93/PAV-SOD | 首个全景视听显著物体检测数据集 |
二、360° 语义分割数据集
全景语义分割是当前研究最活跃的方向之一。该领域形成了两大范式:Pin2Pan(针孔→全景域适应,代表工作 DensePASS/Trans4PASS)和 Syn2Real(合成→真实域适应,代表数据集 SynPASS)。室内场景以 Stanford2D3D 的 13类设置为标准基准,室外则以 DensePASS 的 19类(与 Cityscapes 兼容)为主要评测集。WildPASS 因覆盖全球65个城市的极端多样性,成为泛化能力评估的核心测试平台。
| 数据集 | 年份 | 规模 | 类别数 | 场景 | 图像格式 | 论文/链接 | 特色 |
|---|---|---|---|---|---|---|---|
| Stanford2D3D | 2017 | 1,413张全景图,6区域,271房间 | 13 | 室内(教育/办公) | 等距柱状投影 (1024×512) | arXiv:1702.01105; buildingparser.stanford.edu | 室内全景分割/深度估计标准基准;含深度图、法线图、全局XYZ坐标 |
| Matterport3D | 2017 | 10,800全景视图,194,400 RGB-D图,90栋建筑 | 40 | 室内(住宅/商业) | 天空盒/立方体图→可渲染等距柱状 | 3DV 2017; niessner.github.io/Matterport | 建筑级真实扫描;2D/3D实例级语义分割;Habitat模拟器支持;MatterportLayout子集含2,295张布局标注 |
| Structured3D | 2020 | ~196K全景图,3,500场景,21,835房间 | 40 (NYUv2) | 室内(合成) | 等距柱状投影 (1024×512) | ECCV 2020; structured3d-dataset.org | 最大合成室内全景数据集;多光照/家具配置;广泛用于预训练 |
| DensePASS | 2021 | 100张标注 + 2,000张未标注 | 19 (与Cityscapes一致) | 室外(驾驶) | 等距柱状投影 | ITSC 2021; github.com/chma1024/DensePASS | Pin2Pan域适应核心基准;SOTA ~59% mIoU |
| WildPASS | 2021 | 500张标注 + 2,000张未标注,65个城市 | 6-8 (导航关键类) | 室外(全球多样) | 等距柱状投影 (2048×400) | TIP 2021; github.com/elnino9ykl/WildPASS | 覆盖所有有人居住大洲;含恶劣天气/夜间;泛化能力评估首选 |
| PASS | 2019/2020 | 1,050张(400张精标注) | 4 | 室外(校园/十字路口) | 全景环形(PAL系统) | T-ITS 2020; github.com/elnino9ykl/PASS | 开创针孔训练→全景部署范式;紧凑PAL镜头系统 |
| SynPASS | 2022/2023 | 9,080张 | 22 | 室外(合成城市) | 等距柱状投影 (1024×2048) | IJCV 2023; github.com/jamycheung/Trans4PASS | Syn2Real范式;含多种天气(云/雾/雨/晴)+昼/夜 |
| BlendPASS | 2024 | 人工标注遮挡感知全景分割 | — | 室外 | 等距柱状投影 | ECCV 2024 | 首个同时处理全景FoV + 遮挡感知(amodal) + 跨域适应的数据集 |
| 360BEV-Matterport | 2024 | 基于MP3D,20类 | 20 | 室内 | 等距柱状投影 (512×1024) → BEV (500×500) | WACV 2024; jamycheung.github.io/360BEV | 首个全景→BEV语义映射基准;360Mapper达44.32% mIoU |
| 360BEV-Stanford | 2024 | 基于Stanford2D3D,14类 | 14 | 室内 | 等距柱状投影 (512×1024) → BEV (500×500) | WACV 2024; 同上 | 同上;45.78% mIoU |
| 匹兹堡户外全景 | 2021 | 600张,像素级标注 | 20 (7大类) | 室外(城市) | 全景图像 | Signal Image and Video Processing 2021 | cvrg-iyte.github.io/datasets/ |
三、场景理解与房间布局估计数据集
房间布局估计是全景图像最成熟的研究方向之一,形成了从 PanoContext 的长方体假设到 ZInD 的任意形状布局的完整演进路径。ZInD 以 71,474 张全景图成为最大规模的真实世界布局标注数据集,且独特地包含长方体、曼哈顿和非曼哈顿三种布局类型的真实分布。标准评测指标为 3D IoU、2D IoU、角点误差和像素误差。近年来多视图布局估计(MVL)成为新趋势,MP3D-FPE 和 HM3D-MVL 提供了相应基准。
| 数据集 | 年份 | 规模 | 布局类型 | 场景 | 图像格式 | 论文/链接 | 特色 |
|---|---|---|---|---|---|---|---|
| PanoContext | 2014 | ~500张(客厅/卧室) | 长方体(cuboid) | 室内 | 等距柱状投影 | ECCV 2014(Oral); panocontext.cs.princeton.edu | 全景3D场景理解开创性数据集;含3D物体边界框;常用90/10训练/测试分割(LayoutNet) |
| Stanford2D3D (布局) | 2017/2019 | ~552张全景布局标注 | 曼哈顿 | 室内 | 等距柱状投影 | HorizonNet扩展标注 | HorizonNet/LED2-Net/LGT-Net等方法的标准评测集 |
| MatterportLayout | 2019 | 2,295张 RGB-D全景 | 通用曼哈顿 | 室内 | 等距柱状投影 | Zou et al. (LayoutNet v2) | 源自MP3D;非长方体布局;含复杂房间形状 |
| AtlantaLayout | 2020 | MP3D子集+额外场景 | 亚特兰大世界(非曼哈顿) | 室内 | 等距柱状投影 | ECCV 2020; github.com/crs4/AtlantaNet | 放宽曼哈顿假设;支持倾斜天花板 |
| Structured3D (布局) | 2020 | ~196K图像 | 任意形状 | 室内(合成) | 等距柱状投影 | ECCV 2020 | 最大规模布局预训练数据集;含角点坐标、平面图 |
| ZInD | 2021 | 71,474张全景,1,524套住宅,2,500+平面图 | 长方体+曼哈顿+非曼哈顿 | 室内(真实未装修住宅) | 等距柱状投影 | CVPR 2021; github.com/zillow/zind | 最大真实世界布局数据集;覆盖20个美国城市;含门/窗/开口标注、天花板类型 |
| HoliCity | 2020 | 6,300张 (13312×6656) | 城市3D结构 | 室外(伦敦) | 等距柱状投影 | arXiv:2008.03286; holicity.io | 城市级3D结构学习;与伦敦CAD模型对齐(>20km²);含深度/法线/消失点/线框 |
| MP3D-FPE | 2022 | 20K训练 + 2.2K测试 | 多视图布局 | 室内(合成) | 等距柱状投影 | RA-L 2022 | 多视图布局估计基准 |
| HM3D-MVL | 2024 | 20K训练 + 2.2K测试 | 多视图布局 | 室内(合成) | 等距柱状投影 | ECCV 2024; mvlchallenge.github.io | 新一代多视图布局基准 |
| ZInD-MVL | 2024 | — | 多视图布局 | 室内(真实) | 等距柱状投影 | huggingface.co/datasets/EnriqueSolarte/mvl_datasets | 基于ZInD的真实多视图布局 |
| Ev-Layout | 2025 | 2,500序列,771K+ RGB图,100亿事件数据,39K布局标注 | 事件相机布局 | 室内 | 等距柱状投影 + 事件流 | arXiv:2503.08370 | 首个大规模事件相机多模态布局数据集;支持快速运动和复杂光照 |
| ToF-360 | 2025 | 179张等距柱状RGB图,4场景 | 含布局标注 | 室内 | 等距柱状投影 RGB-D (ToF) | CVPRW 2025; huggingface.co/datasets/COLE-Ricoh/ToF-360 | 最宽FoV的3D场景数据集;飞行时间传感器提供高精度深度 |
全景3D场景总体理解(Total Scene Understanding):
| 数据集 | 年份 | 任务 | 特色 |
|---|---|---|---|
| DeepPanoContext (iGibson-Synthetic) | 2021 | 布局+3D物体检测+网格重建 | ICCV 2021;合成全景场景 |
| PanoContext-Former (ReplicaPano) | 2024 | 布局+旋转物体框+物体形状 | CVPR 2024;基于Replica的真实全景数据 |
四、全景分割(Panoptic Segmentation)数据集
全景分割(语义+实例)在360°图像上的研究起步较晚,但近两年快速发展。Waymo Open PVPS 是目前规模最大的全景视频全景分割数据集(10万张标注),而 JRDB-PanoTrack 首次将开放世界全景分割引入机器人场景,支持71个类别。WildPPS 虽然规模较小(80张),但作为首个专用全景全景分割数据集具有开创意义。
| 数据集 | 年份 | 规模 | 类别数 | 场景 | 图像格式 | 论文/链接 | 特色 |
|---|---|---|---|---|---|---|---|
| WildPPS | 2021 | 80张全景图,40个城市 | 4 (Stuff: 道路/人行道; Thing: 行人/车辆) | 室外 | 等距柱状投影 | IV 2021 / T-ITS 2023; github.com/alexanderjaus/PPS | 首个全景全景分割数据集;Cityscapes标注格式 |
| Waymo Open PVPS | 2022 | 100,000张标注,2,860序列,5摄像头 | 28 | 室外(自动驾驶) | 多摄像头全景拼接 | ECCV 2022; waymo.com/open | 最大规模全景视频全景分割数据集;跨摄像头+跨时间一致标注;DeepLab基线 |
| JRDB-PanoTrack | 2024 | 20,000张(4,000全景),428,000个全景掩码,27,000条轨迹 | 71 (60 thing + 11 stuff) | 室内外(机器人) | 5摄像头拼接全景 + 3D点云 | CVPR 2024; jrdb.erc.monash.edu/dataset/panotrack | 开放世界全景分割+跟踪;每张最多245个掩码;OSPA评测指标 |
五、360° 深度估计数据集
深度估计是全景图像的另一核心任务,对 DETR 类架构的特征表示学习也有重要参考价值。Pano3D 作为全面基准已取代早期的 3D60 数据集,修复了已知的亮度信息泄露问题。2024年的”360° in the Wild”首次提供了大规模(25K张)的真实世界全景深度数据。
| 数据集 | 年份 | 规模 | 场景 | 图像格式 | 论文/链接 | 特色 |
|---|---|---|---|---|---|---|
| 3D60 | 2018-2019 | 多模态渲染(MP3D+Stanford2D3D+SunCG) | 室内 | 等距柱状投影(单目+双目) | vcl3d.github.io/3D60 | 早期全景深度基准;已被Pano3D取代(已知亮度泄露问题) |
| PanoSUNCG | 2018 | 103场景,25,000+ RGB-D全景 | 室内(合成) | 等距柱状投影 (512×1024) + 立方体图 | arXiv:1811.05304 | 首个360°室内视频深度数据集;因SUNCG许可问题可能不再可获取 |
| Pano3D | 2021 | MP3D + GibsonV2多分割 (1024×512) | 室内 | 等距柱状投影 | OmniCV@CVPR 2021; vcl3d.github.io/Pano3D | 全面深度基准;评估精度/边界/平滑度等多维指标;支持零样本跨数据集迁移 |
| 360° in the Wild | 2024 | 25,000张含深度+相机位姿 | 室内外(极度多样) | 等距柱状投影 | arXiv:2406.18898 | 最大真实世界360°深度数据集;来自互联网360°视频 |
| PAIR360 | 2024 | 52序列,7区域 | 室外(校园) | 8K等距柱状投影 + 6鱼眼 + LiDAR + GPS/IMU | RA-L 2024; airlabkhu.github.io/PAIR-360-Dataset | 首个8K分辨率室外多模态360°数据集 |
六、360° 视觉目标跟踪与视频分割数据集
这是2023年以来快速兴起的新方向。360VOT(ICCV 2023)开创了全向目标跟踪基准,其后续 360VOTS 和 PanoVOS 分别将任务扩展到视频物体分割领域。2025年的 Leader360V 以 10,000+ 标注视频序列成为迄今最大规模的真实世界360°视频数据集。
| 数据集 | 年份 | 规模 | 类别数 | 任务 | 图像格式 | 论文/链接 | 特色 |
|---|---|---|---|---|---|---|---|
| 360VOT | 2023 | 120序列,~113K高分辨率帧 | 32 | 单目标跟踪 | 等距柱状投影 | ICCV 2023; github.com/HuajianUP/360VOT | 首个全向跟踪基准;4种GT格式(BBox/rBBox/BFoV/rBFoV);20个SOTA跟踪器评测 |
| 360VOTS | 2024 | 120跟踪序列 + 290分割序列 | 62 (分割) | 跟踪+视频物体分割 | 等距柱状投影 | T-PAMI 2024; arXiv:2404.13953 | 扩展360VOT加入VOS组件 |
| PanoVOS | 2024 | 150个全景视频,~19,000实例掩码 | 人/动物/物体 | 视频物体分割 | 等距柱状投影 | ECCV 2024; github.com/shilinyan99/PanoVOS | 首个长时全景VOS数据集;揭示现有VOS模型在内容不连续性上的失败 |
| Leader360V | 2025 | 10,000+标注视频序列 | — | 实例分割+跟踪 | 等距柱状投影 | arXiv:2506.14271 | 最大规模真实世界360°视频数据集;SAM2+LLM自动标注流水线 |
七、自动驾驶与城市场景全景数据集
自动驾驶领域虽然多数数据集使用多摄像头拼接而非原生等距柱状投影,但其360°视觉覆盖的设计理念与全景图像研究高度契合。KITTI-360 的两个180°鱼眼相机提供了完整的360°视觉覆盖,是目前少数在自动驾驶场景中原生支持全向视觉的数据集。
| 数据集 | 年份 | 规模 | 场景 | 图像格式 | 论文/链接 | 特色 |
|---|---|---|---|---|---|---|
| KITTI-360 | 2021/2022 | 320K图像(>150K语义标注),73.7km | 室外(郊区驾驶) | 透视立体相机 + 2×180°鱼眼 | PAMI 2022; cvlibs.net/datasets/kitti-360 | KITTI继承者;鱼眼相机提供360°覆盖;10亿3D点 |
| WoodScape | 2019 | 10,000+语义标注(40类),100,000+总图 | 室外(欧洲驾驶) | 4×190°鱼眼(360°覆盖) | ICCV 2019(Oral); woodscape.valeo.com | Valeo首个大规模鱼眼自动驾驶数据集;9个任务 |
| SynWoodScape | 2022 | 80,000张合成鱼眼图 | 室外(CARLA合成) | 4鱼眼(同WoodScape配置) | IROS 2022; arXiv:2203.05056 | 补充WoodScape缺失的光流/深度GT |
| nuScenes | 2019/2020 | 1.4M摄像头图像,1,000场景 | 室外(波士顿/新加坡) | 6×针孔(360°覆盖) + 5雷达 + 1激光雷达 | CVPR 2020; nuscenes.org | 非等距柱状投影,但6摄像头覆盖完整360°;nuScenes-360变体可拼接为全景 |
| OmniCity | 2023 | 100K+像素级标注,25K地理位置 | 室外(纽约) | 街景全景 + 卫星图 | CVPR 2023; city-super.github.io/omnicity | 首个含精细建筑实例分割的街景全景数据集 |
| StreetLearn | 2018 | ~143,000 Google街景全景(曼哈顿+匹兹堡) | 室外(城市) | 等距柱状投影 (~1664×832) | NeurIPS 2018; Google DeepMind | RL导航训练;含街道连接图;已停止发布 |
八、综合性/基础性全景数据集
这些数据集跨越多个任务类别,在全景视觉研究生态中起基础性作用。SUN360 作为最早的大规模全景数据库,至今仍被广泛引用;HM3D 以 1,000 栋建筑级3D重建成为具身智能领域最大的全景可渲染数据集。
| 数据集 | 年份 | 规模 | 场景 | 图像格式 | 论文/链接 | 特色 |
|---|---|---|---|---|---|---|
| SUN360 | 2012 | ~67,000+全景图,80+场景类 | 室内外 | 等距柱状投影 (9104×4552) | CVPR 2012; people.csail.mit.edu/jxiao/SUN360 | 最早大规模全景数据库之一;PanoContext源数据;广泛用于光照估计 |
| Gibson / Gibson V2 | 2018/2019 | 572栋建筑,~1,500楼层 | 室内(真实扫描) | 3D网格→可渲染等距柱状 | gibsonenv.stanford.edu | 导航/具身AI基础数据集 |
| Replica | 2019 | 18个高保真重建场景 | 室内 | 3D网格→可渲染等距柱状 | Facebook Research | 极高几何保真度 |
| HM3D | 2021 | 1,000栋建筑,112,500m²可导航 | 室内(真实扫描) | 3D网格→可渲染等距柱状 | NeurIPS 2021; aihabitat.org/datasets/hm3d | 超越MP3D/Gibson/Replica的规模和保真度 |
| ScanNet | 2017 | 1,513场景,2.5M视图 | 室内 | RGB-D视频帧(非原生全景) | CVPR 2017; scan-net.org | ScanNet++(ICCV 2023, 460场景)新增全景相机(panocam)图像 |
| 360+x | 2024 | 2,152视频(464×360°),8.58M帧,67.78小时 | 室内外(28类,17城市) | 等距柱状投影 (5760×2880) + 第三人称 + 第一人称 | CVPR 2024; x360dataset.github.io | 首个全景+多视角+多模态数据集;含音频/双耳延迟/位置/文本 |
| Pano-AVQA | 2021 | 5,400个360°视频片段 | 混合 | 等距柱状投影视频 | ICCV 2021; github.com/HS-YN/PanoAVQA | 视听问答+空间推理;含边界框定位 |
| Laval Indoor HDR | 2017 | HDR全景图集合 | 室内 | 等距柱状投影 (HDR) | Gardner et al. | 室内光照估计基准 |
| Laval Outdoor HDR | 2019 | HDR户外全景图集合 | 室外 | 等距柱状投影 (HDR) | Hold-Geoffroy et al. | 户外光照估计基准 |
九、对 DETR/DINO 类全景架构的实用建议
基于上述数据集调研,以下是针对基于 DETR/DINO + 球面位置编码架构的具体建议:
目标检测任务的数据集选择高度受限。 360-Indoor 和 PANDORA 是目前仅有的两个专用全景目标检测基准,且均以室内场景为主。PANDORA 的 RBFoV 标注(含旋转角 γ)与球面位置编码天然契合,建议优先使用。室外检测可参考 Pano-RSOD(4类道路目标)或将 FishEye8K 作为补充基准。
关键的标注格式差异需要注意。 全景目标检测使用 BFoV(Bounding Field-of-View)而非传统矩形框,定义为球面坐标 (θ, φ, α, β),PANDORA 进一步扩展为 RBFoV (θ, φ, α, β, γ)。Sph2Pob(IJCAI 2023)提出的球面框→平面旋转框转换范式值得关注,可使 DETR 的 Hungarian 匹配直接适配全景场景。IoU 计算需采用球面 IoU(Unbiased IoU, AAAI 2022)或 FoV-IoU(2023)等专用指标。
预训练与域适应策略。 Structured3D(196K 合成全景图)是预训练的首选数据源;COCO-Stuff164k 可作为开放词汇全景分割的源域(参见 OOOPS, ECCV 2024)。Pin2Pan(针孔→全景)和 Syn2Real(合成→真实)两种域适应范式均已被验证有效。
完整的相关方法参考:
- Sph2Pob(IJCAI 2023):球面框→平面旋转框,适配现有OBB检测器
- PanoFormer(ECCV 2022):Transformer处理等距柱状投影的深度估计
- Trans4PASS/DPPASS(CVPR 2023):形变感知Transformer全景语义分割
- OOOPS(ECCV 2024):开放词汇全景分割,含RERP增强
- 360BEV / 360Mapper(WACV 2024):全景→BEV语义映射
结论与展望
本调研覆盖了 50+ 个全景/360°数据集,揭示了该领域几个重要趋势。目标检测是当前最薄弱的环节——仅有 360-Indoor(37类)和 PANDORA(47类)两个专用数据集,且均集中在室内场景,这对 DETR 类架构的研究构成了显著的数据瓶颈。相比之下,语义分割和布局估计已拥有较为成熟的数据生态。2023-2025年的新兴趋势包括:开放世界全景分割(JRDB-PanoTrack 的71类开放世界设定)、全景视频理解(360VOT/PanoVOS/Leader360V)、多模态融合(360+x 的全景+第一/三人称+音频)、以及 BEV 语义映射(360BEV)。对于球面位置编码的 DETR 架构而言,PANDORA 的 RBFoV 标注体系和 Sph2Pob 的球面→平面框转换范式是最直接相关的技术参考,而 Structured3D 和 Matterport3D 则是预训练和多任务学习的核心数据支撑。