全景/360°/等距柱状投影图像数据集综合调研

全景图像(equirectangular/360°/omnidirectional)已成为计算机视觉研究的重要数据形式,涵盖目标检测、语义分割、房间布局估计、全景分割等核心任务。本报告系统梳理了 50+ 个关键数据集,按任务类型分类呈现,为基于 DETR/DINO 等 Transformer 架构在球面位置编码下的全景图像研究提供完整的数据集参考。室内场景以 Stanford2D3D、Matterport3D、Structured3D、ZInD 为基石,室外场景以 DensePASS、WildPASS、KITTI-360 为代表,而 360-Indoor 和 PANDORA 则是目前 360° 目标检测领域仅有的两个专用基准数据集。


一、360° 目标检测数据集

目标检测是 DETR 类架构最直接的应用场景。目前专门为全景图像设计的目标检测数据集数量有限,360-Indoor 和 PANDORA 是该领域最核心的两个基准。PANDORA 首次引入了旋转边界视场(RBFoV)标注,对处理等距柱状投影中极区附近物体的严重畸变至关重要。Sph2Pob(IJCAI 2023)等方法将球面框转换为平面旋转框,使得常规 OBB 检测器可直接应用于全景图像。

数据集年份规模类别数场景图像格式标注类型论文/链接特色
360-Indoor2019/2020~3,000张图,~89,148个标注框37室内等距柱状投影 (1920×960)BFoV (θ,φ,α,β)WACV 2020; aliensunmin.github.io/project/360-dataset首个大规模360°室内检测数据集,平均每张27个框;5个超类组织
PANDORA20223,000张图,94,353个标注框47室内等距柱状投影 (1920×960)RBFoV (θ,φ,α,β,γ)ECCV 2022; github.com/tdsuper/SphericalObjectDetection首个带旋转标注的全景检测数据集;扩展360-Indoor增加10类+旋转角γ;含R-CenterNet基线
Pano-RSOD20219,402张图,50,255+标注4 (车辆/行人/交通标志/导向箭头)室外(道路)360°全景边界框相关论文见ProQuest聚焦交通场景;涵盖城区、十字路口、立交桥等多种道路场景
ICPR 2018 360 Det2018903帧,7,199标注~10 (兼容COCO子集)室内外等距柱状投影 (3840×1920)BFoV + BBox + 3D容器框ICPR 2018; github.com/uenian33/360_object_detection_dataset早期基准;三种标注格式;来自YouTube VR视频
WHU全景数据集~2019600张街景全景图,5,636标注室外(街景)等距柱状投影边界框武汉大学车载全景相机采集;用于网格球面CNN方法
FishEye8K20238,000张图,157K框5 (行人/自行车/轿车/公交/卡车)室外(交通监控)鱼眼 (1080×1080, 1280×1280)PASCAL VOC/COCO/YOLO格式CVPRW 2023; github.com/MoyoG/FishEye8K首个开放的鱼眼交通监控检测数据集;含YOLOv5/v7/v8基线

显著物体检测(SOD)相关数据集:

数据集年份规模场景图像格式论文/链接特色
360-SOD2019500张等距柱状图,像素级掩码混合等距柱状投影JSTSP 2020; arXiv:1909.04913首个360°显著物体检测数据集
F-360iSOD2020107张图,1,165个显著物体,72类混合等距柱状投影arXiv:2001.07960基于真实眼动注视图引导标注
ODI-SOD6,263张高分辨率图,像素级标注混合等距柱状投影 (1024×512)github.com/iCVTEAM/ODI-SOD最大规模360° SOD数据集
SHD360202137,403视频帧,41场景类别混合等距柱状投影arXiv:2105.11578首个360°视频显著人体检测数据集;实例级掩码
PAVS10K202367个4K视频,10,465标注帧混合等距柱状投影 (4K)github.com/YeeZ93/PAV-SOD首个全景视听显著物体检测数据集

二、360° 语义分割数据集

全景语义分割是当前研究最活跃的方向之一。该领域形成了两大范式:Pin2Pan(针孔→全景域适应,代表工作 DensePASS/Trans4PASS)和 Syn2Real(合成→真实域适应,代表数据集 SynPASS)。室内场景以 Stanford2D3D 的 13类设置为标准基准,室外则以 DensePASS 的 19类(与 Cityscapes 兼容)为主要评测集。WildPASS 因覆盖全球65个城市的极端多样性,成为泛化能力评估的核心测试平台。

数据集年份规模类别数场景图像格式论文/链接特色
Stanford2D3D20171,413张全景图,6区域,271房间13室内(教育/办公)等距柱状投影 (1024×512)arXiv:1702.01105; buildingparser.stanford.edu室内全景分割/深度估计标准基准;含深度图、法线图、全局XYZ坐标
Matterport3D201710,800全景视图,194,400 RGB-D图,90栋建筑40室内(住宅/商业)天空盒/立方体图→可渲染等距柱状3DV 2017; niessner.github.io/Matterport建筑级真实扫描;2D/3D实例级语义分割;Habitat模拟器支持;MatterportLayout子集含2,295张布局标注
Structured3D2020~196K全景图,3,500场景,21,835房间40 (NYUv2)室内(合成)等距柱状投影 (1024×512)ECCV 2020; structured3d-dataset.org最大合成室内全景数据集;多光照/家具配置;广泛用于预训练
DensePASS2021100张标注 + 2,000张未标注19 (与Cityscapes一致)室外(驾驶)等距柱状投影ITSC 2021; github.com/chma1024/DensePASSPin2Pan域适应核心基准;SOTA ~59% mIoU
WildPASS2021500张标注 + 2,000张未标注,65个城市6-8 (导航关键类)室外(全球多样)等距柱状投影 (2048×400)TIP 2021; github.com/elnino9ykl/WildPASS覆盖所有有人居住大洲;含恶劣天气/夜间;泛化能力评估首选
PASS2019/20201,050张(400张精标注)4室外(校园/十字路口)全景环形(PAL系统)T-ITS 2020; github.com/elnino9ykl/PASS开创针孔训练→全景部署范式;紧凑PAL镜头系统
SynPASS2022/20239,080张22室外(合成城市)等距柱状投影 (1024×2048)IJCV 2023; github.com/jamycheung/Trans4PASSSyn2Real范式;含多种天气(云/雾/雨/晴)+昼/夜
BlendPASS2024人工标注遮挡感知全景分割室外等距柱状投影ECCV 2024首个同时处理全景FoV + 遮挡感知(amodal) + 跨域适应的数据集
360BEV-Matterport2024基于MP3D,20类20室内等距柱状投影 (512×1024) → BEV (500×500)WACV 2024; jamycheung.github.io/360BEV首个全景→BEV语义映射基准;360Mapper达44.32% mIoU
360BEV-Stanford2024基于Stanford2D3D,14类14室内等距柱状投影 (512×1024) → BEV (500×500)WACV 2024; 同上同上;45.78% mIoU
匹兹堡户外全景2021600张,像素级标注20 (7大类)室外(城市)全景图像Signal Image and Video Processing 2021cvrg-iyte.github.io/datasets/

三、场景理解与房间布局估计数据集

房间布局估计是全景图像最成熟的研究方向之一,形成了从 PanoContext 的长方体假设到 ZInD 的任意形状布局的完整演进路径。ZInD 以 71,474 张全景图成为最大规模的真实世界布局标注数据集,且独特地包含长方体、曼哈顿和非曼哈顿三种布局类型的真实分布。标准评测指标为 3D IoU、2D IoU、角点误差和像素误差。近年来多视图布局估计(MVL)成为新趋势,MP3D-FPE 和 HM3D-MVL 提供了相应基准。

数据集年份规模布局类型场景图像格式论文/链接特色
PanoContext2014~500张(客厅/卧室)长方体(cuboid)室内等距柱状投影ECCV 2014(Oral); panocontext.cs.princeton.edu全景3D场景理解开创性数据集;含3D物体边界框;常用90/10训练/测试分割(LayoutNet)
Stanford2D3D (布局)2017/2019~552张全景布局标注曼哈顿室内等距柱状投影HorizonNet扩展标注HorizonNet/LED2-Net/LGT-Net等方法的标准评测集
MatterportLayout20192,295张 RGB-D全景通用曼哈顿室内等距柱状投影Zou et al. (LayoutNet v2)源自MP3D;非长方体布局;含复杂房间形状
AtlantaLayout2020MP3D子集+额外场景亚特兰大世界(非曼哈顿)室内等距柱状投影ECCV 2020; github.com/crs4/AtlantaNet放宽曼哈顿假设;支持倾斜天花板
Structured3D (布局)2020~196K图像任意形状室内(合成)等距柱状投影ECCV 2020最大规模布局预训练数据集;含角点坐标、平面图
ZInD202171,474张全景,1,524套住宅,2,500+平面图长方体+曼哈顿+非曼哈顿室内(真实未装修住宅)等距柱状投影CVPR 2021; github.com/zillow/zind最大真实世界布局数据集;覆盖20个美国城市;含门/窗/开口标注、天花板类型
HoliCity20206,300张 (13312×6656)城市3D结构室外(伦敦)等距柱状投影arXiv:2008.03286; holicity.io城市级3D结构学习;与伦敦CAD模型对齐(>20km²);含深度/法线/消失点/线框
MP3D-FPE202220K训练 + 2.2K测试多视图布局室内(合成)等距柱状投影RA-L 2022多视图布局估计基准
HM3D-MVL202420K训练 + 2.2K测试多视图布局室内(合成)等距柱状投影ECCV 2024; mvlchallenge.github.io新一代多视图布局基准
ZInD-MVL2024多视图布局室内(真实)等距柱状投影huggingface.co/datasets/EnriqueSolarte/mvl_datasets基于ZInD的真实多视图布局
Ev-Layout20252,500序列,771K+ RGB图,100亿事件数据,39K布局标注事件相机布局室内等距柱状投影 + 事件流arXiv:2503.08370首个大规模事件相机多模态布局数据集;支持快速运动和复杂光照
ToF-3602025179张等距柱状RGB图,4场景含布局标注室内等距柱状投影 RGB-D (ToF)CVPRW 2025; huggingface.co/datasets/COLE-Ricoh/ToF-360最宽FoV的3D场景数据集;飞行时间传感器提供高精度深度

全景3D场景总体理解(Total Scene Understanding):

数据集年份任务特色
DeepPanoContext (iGibson-Synthetic)2021布局+3D物体检测+网格重建ICCV 2021;合成全景场景
PanoContext-Former (ReplicaPano)2024布局+旋转物体框+物体形状CVPR 2024;基于Replica的真实全景数据

四、全景分割(Panoptic Segmentation)数据集

全景分割(语义+实例)在360°图像上的研究起步较晚,但近两年快速发展。Waymo Open PVPS 是目前规模最大的全景视频全景分割数据集(10万张标注),而 JRDB-PanoTrack 首次将开放世界全景分割引入机器人场景,支持71个类别。WildPPS 虽然规模较小(80张),但作为首个专用全景全景分割数据集具有开创意义。

数据集年份规模类别数场景图像格式论文/链接特色
WildPPS202180张全景图,40个城市4 (Stuff: 道路/人行道; Thing: 行人/车辆)室外等距柱状投影IV 2021 / T-ITS 2023; github.com/alexanderjaus/PPS首个全景全景分割数据集;Cityscapes标注格式
Waymo Open PVPS2022100,000张标注,2,860序列,5摄像头28室外(自动驾驶)多摄像头全景拼接ECCV 2022; waymo.com/open最大规模全景视频全景分割数据集;跨摄像头+跨时间一致标注;DeepLab基线
JRDB-PanoTrack202420,000张(4,000全景),428,000个全景掩码,27,000条轨迹71 (60 thing + 11 stuff)室内外(机器人)5摄像头拼接全景 + 3D点云CVPR 2024; jrdb.erc.monash.edu/dataset/panotrack开放世界全景分割+跟踪;每张最多245个掩码;OSPA评测指标

五、360° 深度估计数据集

深度估计是全景图像的另一核心任务,对 DETR 类架构的特征表示学习也有重要参考价值。Pano3D 作为全面基准已取代早期的 3D60 数据集,修复了已知的亮度信息泄露问题。2024年的”360° in the Wild”首次提供了大规模(25K张)的真实世界全景深度数据。

数据集年份规模场景图像格式论文/链接特色
3D602018-2019多模态渲染(MP3D+Stanford2D3D+SunCG)室内等距柱状投影(单目+双目)vcl3d.github.io/3D60早期全景深度基准;已被Pano3D取代(已知亮度泄露问题)
PanoSUNCG2018103场景,25,000+ RGB-D全景室内(合成)等距柱状投影 (512×1024) + 立方体图arXiv:1811.05304首个360°室内视频深度数据集;因SUNCG许可问题可能不再可获取
Pano3D2021MP3D + GibsonV2多分割 (1024×512)室内等距柱状投影OmniCV@CVPR 2021; vcl3d.github.io/Pano3D全面深度基准;评估精度/边界/平滑度等多维指标;支持零样本跨数据集迁移
360° in the Wild202425,000张含深度+相机位姿室内外(极度多样)等距柱状投影arXiv:2406.18898最大真实世界360°深度数据集;来自互联网360°视频
PAIR360202452序列,7区域室外(校园)8K等距柱状投影 + 6鱼眼 + LiDAR + GPS/IMURA-L 2024; airlabkhu.github.io/PAIR-360-Dataset首个8K分辨率室外多模态360°数据集

六、360° 视觉目标跟踪与视频分割数据集

这是2023年以来快速兴起的新方向。360VOT(ICCV 2023)开创了全向目标跟踪基准,其后续 360VOTS 和 PanoVOS 分别将任务扩展到视频物体分割领域。2025年的 Leader360V 以 10,000+ 标注视频序列成为迄今最大规模的真实世界360°视频数据集。

数据集年份规模类别数任务图像格式论文/链接特色
360VOT2023120序列,~113K高分辨率帧32单目标跟踪等距柱状投影ICCV 2023; github.com/HuajianUP/360VOT首个全向跟踪基准;4种GT格式(BBox/rBBox/BFoV/rBFoV);20个SOTA跟踪器评测
360VOTS2024120跟踪序列 + 290分割序列62 (分割)跟踪+视频物体分割等距柱状投影T-PAMI 2024; arXiv:2404.13953扩展360VOT加入VOS组件
PanoVOS2024150个全景视频,~19,000实例掩码人/动物/物体视频物体分割等距柱状投影ECCV 2024; github.com/shilinyan99/PanoVOS首个长时全景VOS数据集;揭示现有VOS模型在内容不连续性上的失败
Leader360V202510,000+标注视频序列实例分割+跟踪等距柱状投影arXiv:2506.14271最大规模真实世界360°视频数据集;SAM2+LLM自动标注流水线

七、自动驾驶与城市场景全景数据集

自动驾驶领域虽然多数数据集使用多摄像头拼接而非原生等距柱状投影,但其360°视觉覆盖的设计理念与全景图像研究高度契合。KITTI-360 的两个180°鱼眼相机提供了完整的360°视觉覆盖,是目前少数在自动驾驶场景中原生支持全向视觉的数据集。

数据集年份规模场景图像格式论文/链接特色
KITTI-3602021/2022320K图像(>150K语义标注),73.7km室外(郊区驾驶)透视立体相机 + 2×180°鱼眼PAMI 2022; cvlibs.net/datasets/kitti-360KITTI继承者;鱼眼相机提供360°覆盖;10亿3D点
WoodScape201910,000+语义标注(40类),100,000+总图室外(欧洲驾驶)4×190°鱼眼(360°覆盖)ICCV 2019(Oral); woodscape.valeo.comValeo首个大规模鱼眼自动驾驶数据集;9个任务
SynWoodScape202280,000张合成鱼眼图室外(CARLA合成)4鱼眼(同WoodScape配置)IROS 2022; arXiv:2203.05056补充WoodScape缺失的光流/深度GT
nuScenes2019/20201.4M摄像头图像,1,000场景室外(波士顿/新加坡)6×针孔(360°覆盖) + 5雷达 + 1激光雷达CVPR 2020; nuscenes.org非等距柱状投影,但6摄像头覆盖完整360°;nuScenes-360变体可拼接为全景
OmniCity2023100K+像素级标注,25K地理位置室外(纽约)街景全景 + 卫星图CVPR 2023; city-super.github.io/omnicity首个含精细建筑实例分割的街景全景数据集
StreetLearn2018~143,000 Google街景全景(曼哈顿+匹兹堡)室外(城市)等距柱状投影 (~1664×832)NeurIPS 2018; Google DeepMindRL导航训练;含街道连接图;已停止发布

八、综合性/基础性全景数据集

这些数据集跨越多个任务类别,在全景视觉研究生态中起基础性作用。SUN360 作为最早的大规模全景数据库,至今仍被广泛引用;HM3D 以 1,000 栋建筑级3D重建成为具身智能领域最大的全景可渲染数据集

数据集年份规模场景图像格式论文/链接特色
SUN3602012~67,000+全景图,80+场景类室内外等距柱状投影 (9104×4552)CVPR 2012; people.csail.mit.edu/jxiao/SUN360最早大规模全景数据库之一;PanoContext源数据;广泛用于光照估计
Gibson / Gibson V22018/2019572栋建筑,~1,500楼层室内(真实扫描)3D网格→可渲染等距柱状gibsonenv.stanford.edu导航/具身AI基础数据集
Replica201918个高保真重建场景室内3D网格→可渲染等距柱状Facebook Research极高几何保真度
HM3D20211,000栋建筑,112,500m²可导航室内(真实扫描)3D网格→可渲染等距柱状NeurIPS 2021; aihabitat.org/datasets/hm3d超越MP3D/Gibson/Replica的规模和保真度
ScanNet20171,513场景,2.5M视图室内RGB-D视频帧(非原生全景)CVPR 2017; scan-net.orgScanNet++(ICCV 2023, 460场景)新增全景相机(panocam)图像
360+x20242,152视频(464×360°),8.58M帧,67.78小时室内外(28类,17城市)等距柱状投影 (5760×2880) + 第三人称 + 第一人称CVPR 2024; x360dataset.github.io首个全景+多视角+多模态数据集;含音频/双耳延迟/位置/文本
Pano-AVQA20215,400个360°视频片段混合等距柱状投影视频ICCV 2021; github.com/HS-YN/PanoAVQA视听问答+空间推理;含边界框定位
Laval Indoor HDR2017HDR全景图集合室内等距柱状投影 (HDR)Gardner et al.室内光照估计基准
Laval Outdoor HDR2019HDR户外全景图集合室外等距柱状投影 (HDR)Hold-Geoffroy et al.户外光照估计基准

九、对 DETR/DINO 类全景架构的实用建议

基于上述数据集调研,以下是针对基于 DETR/DINO + 球面位置编码架构的具体建议:

目标检测任务的数据集选择高度受限。 360-Indoor 和 PANDORA 是目前仅有的两个专用全景目标检测基准,且均以室内场景为主。PANDORA 的 RBFoV 标注(含旋转角 γ)与球面位置编码天然契合,建议优先使用。室外检测可参考 Pano-RSOD(4类道路目标)或将 FishEye8K 作为补充基准。

关键的标注格式差异需要注意。 全景目标检测使用 BFoV(Bounding Field-of-View)而非传统矩形框,定义为球面坐标 (θ, φ, α, β),PANDORA 进一步扩展为 RBFoV (θ, φ, α, β, γ)。Sph2Pob(IJCAI 2023)提出的球面框→平面旋转框转换范式值得关注,可使 DETR 的 Hungarian 匹配直接适配全景场景。IoU 计算需采用球面 IoU(Unbiased IoU, AAAI 2022)或 FoV-IoU(2023)等专用指标。

预训练与域适应策略。 Structured3D(196K 合成全景图)是预训练的首选数据源;COCO-Stuff164k 可作为开放词汇全景分割的源域(参见 OOOPS, ECCV 2024)。Pin2Pan(针孔→全景)和 Syn2Real(合成→真实)两种域适应范式均已被验证有效。

完整的相关方法参考:

  • Sph2Pob(IJCAI 2023):球面框→平面旋转框,适配现有OBB检测器
  • PanoFormer(ECCV 2022):Transformer处理等距柱状投影的深度估计
  • Trans4PASS/DPPASS(CVPR 2023):形变感知Transformer全景语义分割
  • OOOPS(ECCV 2024):开放词汇全景分割,含RERP增强
  • 360BEV / 360Mapper(WACV 2024):全景→BEV语义映射

结论与展望

本调研覆盖了 50+ 个全景/360°数据集,揭示了该领域几个重要趋势。目标检测是当前最薄弱的环节——仅有 360-Indoor(37类)和 PANDORA(47类)两个专用数据集,且均集中在室内场景,这对 DETR 类架构的研究构成了显著的数据瓶颈。相比之下,语义分割和布局估计已拥有较为成熟的数据生态。2023-2025年的新兴趋势包括:开放世界全景分割(JRDB-PanoTrack 的71类开放世界设定)、全景视频理解(360VOT/PanoVOS/Leader360V)、多模态融合(360+x 的全景+第一/三人称+音频)、以及 BEV 语义映射(360BEV)。对于球面位置编码的 DETR 架构而言,PANDORA 的 RBFoV 标注体系和 Sph2Pob 的球面→平面框转换范式是最直接相关的技术参考,而 Structured3D 和 Matterport3D 则是预训练和多任务学习的核心数据支撑。