全景/360°/等距柱状投影图像数据集综合调研

全景图像（equirectangular/360°/omnidirectional）已成为计算机视觉研究的重要数据形式，涵盖目标检测、语义分割、房间布局估计、全景分割等核心任务。本报告系统梳理了 50+ 个关键数据集，按任务类型分类呈现，为基于 DETR/DINO 等 Transformer 架构在球面位置编码下的全景图像研究提供完整的数据集参考。室内场景以 Stanford2D3D、Matterport3D、Structured3D、ZInD 为基石，室外场景以 DensePASS、WildPASS、KITTI-360 为代表，而 360-Indoor 和 PANDORA 则是目前 360° 目标检测领域仅有的两个专用基准数据集。

一、360° 目标检测数据集

目标检测是 DETR 类架构最直接的应用场景。目前专门为全景图像设计的目标检测数据集数量有限，360-Indoor 和 PANDORA 是该领域最核心的两个基准。PANDORA 首次引入了旋转边界视场（RBFoV）标注，对处理等距柱状投影中极区附近物体的严重畸变至关重要。Sph2Pob（IJCAI 2023）等方法将球面框转换为平面旋转框，使得常规 OBB 检测器可直接应用于全景图像。

数据集	年份	规模	类别数	场景	图像格式	标注类型	论文/链接	特色
360-Indoor	2019/2020	~3,000张图，~89,148个标注框	37	室内	等距柱状投影 (1920×960)	BFoV (θ,φ,α,β)	WACV 2020; aliensunmin.github.io/project/360-dataset	首个大规模360°室内检测数据集，平均每张27个框；5个超类组织
PANDORA	2022	3,000张图，94,353个标注框	47	室内	等距柱状投影 (1920×960)	RBFoV (θ,φ,α,β,γ)	ECCV 2022; github.com/tdsuper/SphericalObjectDetection	首个带旋转标注的全景检测数据集；扩展360-Indoor增加10类+旋转角γ；含R-CenterNet基线
Pano-RSOD	2021	9,402张图，50,255+标注	4 (车辆/行人/交通标志/导向箭头)	室外(道路)	360°全景	边界框	相关论文见ProQuest	聚焦交通场景；涵盖城区、十字路口、立交桥等多种道路场景
ICPR 2018 360 Det	2018	903帧，7,199标注	~10 (兼容COCO子集)	室内外	等距柱状投影 (3840×1920)	BFoV + BBox + 3D容器框	ICPR 2018; github.com/uenian33/360_object_detection_dataset	早期基准；三种标注格式；来自YouTube VR视频
WHU全景数据集	~2019	600张街景全景图，5,636标注	—	室外(街景)	等距柱状投影	边界框	武汉大学	车载全景相机采集；用于网格球面CNN方法
FishEye8K	2023	8,000张图，157K框	5 (行人/自行车/轿车/公交/卡车)	室外(交通监控)	鱼眼 (1080×1080, 1280×1280)	PASCAL VOC/COCO/YOLO格式	CVPRW 2023; github.com/MoyoG/FishEye8K	首个开放的鱼眼交通监控检测数据集；含YOLOv5/v7/v8基线

显著物体检测（SOD）相关数据集：

数据集	年份	规模	场景	图像格式	论文/链接	特色
360-SOD	2019	500张等距柱状图，像素级掩码	混合	等距柱状投影	JSTSP 2020; arXiv:1909.04913	首个360°显著物体检测数据集
F-360iSOD	2020	107张图，1,165个显著物体，72类	混合	等距柱状投影	arXiv:2001.07960	基于真实眼动注视图引导标注
ODI-SOD	—	6,263张高分辨率图，像素级标注	混合	等距柱状投影 (1024×512)	github.com/iCVTEAM/ODI-SOD	最大规模360° SOD数据集
SHD360	2021	37,403视频帧，41场景类别	混合	等距柱状投影	arXiv:2105.11578	首个360°视频显著人体检测数据集；实例级掩码
PAVS10K	2023	67个4K视频，10,465标注帧	混合	等距柱状投影 (4K)	github.com/YeeZ93/PAV-SOD	首个全景视听显著物体检测数据集

二、360° 语义分割数据集

全景语义分割是当前研究最活跃的方向之一。该领域形成了两大范式：Pin2Pan（针孔→全景域适应，代表工作 DensePASS/Trans4PASS）和 Syn2Real（合成→真实域适应，代表数据集 SynPASS）。室内场景以 Stanford2D3D 的 13类设置为标准基准，室外则以 DensePASS 的 19类（与 Cityscapes 兼容）为主要评测集。WildPASS 因覆盖全球65个城市的极端多样性，成为泛化能力评估的核心测试平台。

数据集	年份	规模	类别数	场景	图像格式	论文/链接	特色
Stanford2D3D	2017	1,413张全景图，6区域，271房间	13	室内(教育/办公)	等距柱状投影 (1024×512)	arXiv:1702.01105; buildingparser.stanford.edu	室内全景分割/深度估计标准基准；含深度图、法线图、全局XYZ坐标
Matterport3D	2017	10,800全景视图，194,400 RGB-D图，90栋建筑	40	室内(住宅/商业)	天空盒/立方体图→可渲染等距柱状	3DV 2017; niessner.github.io/Matterport	建筑级真实扫描；2D/3D实例级语义分割；Habitat模拟器支持；MatterportLayout子集含2,295张布局标注
Structured3D	2020	~196K全景图，3,500场景，21,835房间	40 (NYUv2)	室内(合成)	等距柱状投影 (1024×512)	ECCV 2020; structured3d-dataset.org	最大合成室内全景数据集；多光照/家具配置；广泛用于预训练
DensePASS	2021	100张标注 + 2,000张未标注	19 (与Cityscapes一致)	室外(驾驶)	等距柱状投影	ITSC 2021; github.com/chma1024/DensePASS	Pin2Pan域适应核心基准；SOTA ~59% mIoU
WildPASS	2021	500张标注 + 2,000张未标注，65个城市	6-8 (导航关键类)	室外(全球多样)	等距柱状投影 (2048×400)	TIP 2021; github.com/elnino9ykl/WildPASS	覆盖所有有人居住大洲；含恶劣天气/夜间；泛化能力评估首选
PASS	2019/2020	1,050张(400张精标注)	4	室外(校园/十字路口)	全景环形(PAL系统)	T-ITS 2020; github.com/elnino9ykl/PASS	开创针孔训练→全景部署范式；紧凑PAL镜头系统
SynPASS	2022/2023	9,080张	22	室外(合成城市)	等距柱状投影 (1024×2048)	IJCV 2023; github.com/jamycheung/Trans4PASS	Syn2Real范式；含多种天气(云/雾/雨/晴)+昼/夜
BlendPASS	2024	人工标注遮挡感知全景分割	—	室外	等距柱状投影	ECCV 2024	首个同时处理全景FoV + 遮挡感知(amodal) + 跨域适应的数据集
360BEV-Matterport	2024	基于MP3D，20类	20	室内	等距柱状投影 (512×1024) → BEV (500×500)	WACV 2024; jamycheung.github.io/360BEV	首个全景→BEV语义映射基准；360Mapper达44.32% mIoU
360BEV-Stanford	2024	基于Stanford2D3D，14类	14	室内	等距柱状投影 (512×1024) → BEV (500×500)	WACV 2024; 同上	同上；45.78% mIoU
匹兹堡户外全景	2021	600张，像素级标注	20 (7大类)	室外(城市)	全景图像	Signal Image and Video Processing 2021	cvrg-iyte.github.io/datasets/

三、场景理解与房间布局估计数据集

房间布局估计是全景图像最成熟的研究方向之一，形成了从 PanoContext 的长方体假设到 ZInD 的任意形状布局的完整演进路径。ZInD 以 71,474 张全景图成为最大规模的真实世界布局标注数据集，且独特地包含长方体、曼哈顿和非曼哈顿三种布局类型的真实分布。标准评测指标为 3D IoU、2D IoU、角点误差和像素误差。近年来多视图布局估计（MVL）成为新趋势，MP3D-FPE 和 HM3D-MVL 提供了相应基准。

数据集	年份	规模	布局类型	场景	图像格式	论文/链接	特色
PanoContext	2014	~500张(客厅/卧室)	长方体(cuboid)	室内	等距柱状投影	ECCV 2014(Oral); panocontext.cs.princeton.edu	全景3D场景理解开创性数据集；含3D物体边界框；常用90/10训练/测试分割(LayoutNet)
Stanford2D3D (布局)	2017/2019	~552张全景布局标注	曼哈顿	室内	等距柱状投影	HorizonNet扩展标注	HorizonNet/LED2-Net/LGT-Net等方法的标准评测集
MatterportLayout	2019	2,295张 RGB-D全景	通用曼哈顿	室内	等距柱状投影	Zou et al. (LayoutNet v2)	源自MP3D；非长方体布局；含复杂房间形状
AtlantaLayout	2020	MP3D子集+额外场景	亚特兰大世界(非曼哈顿)	室内	等距柱状投影	ECCV 2020; github.com/crs4/AtlantaNet	放宽曼哈顿假设；支持倾斜天花板
Structured3D (布局)	2020	~196K图像	任意形状	室内(合成)	等距柱状投影	ECCV 2020	最大规模布局预训练数据集；含角点坐标、平面图
ZInD	2021	71,474张全景，1,524套住宅，2,500+平面图	长方体+曼哈顿+非曼哈顿	室内(真实未装修住宅)	等距柱状投影	CVPR 2021; github.com/zillow/zind	最大真实世界布局数据集；覆盖20个美国城市；含门/窗/开口标注、天花板类型
HoliCity	2020	6,300张 (13312×6656)	城市3D结构	室外(伦敦)	等距柱状投影	arXiv:2008.03286; holicity.io	城市级3D结构学习；与伦敦CAD模型对齐(>20km²)；含深度/法线/消失点/线框
MP3D-FPE	2022	20K训练 + 2.2K测试	多视图布局	室内(合成)	等距柱状投影	RA-L 2022	多视图布局估计基准
HM3D-MVL	2024	20K训练 + 2.2K测试	多视图布局	室内(合成)	等距柱状投影	ECCV 2024; mvlchallenge.github.io	新一代多视图布局基准
ZInD-MVL	2024	—	多视图布局	室内(真实)	等距柱状投影	huggingface.co/datasets/EnriqueSolarte/mvl_datasets	基于ZInD的真实多视图布局
Ev-Layout	2025	2,500序列，771K+ RGB图，100亿事件数据，39K布局标注	事件相机布局	室内	等距柱状投影 + 事件流	arXiv:2503.08370	首个大规模事件相机多模态布局数据集；支持快速运动和复杂光照
ToF-360	2025	179张等距柱状RGB图，4场景	含布局标注	室内	等距柱状投影 RGB-D (ToF)	CVPRW 2025; huggingface.co/datasets/COLE-Ricoh/ToF-360	最宽FoV的3D场景数据集；飞行时间传感器提供高精度深度

全景3D场景总体理解（Total Scene Understanding）：

数据集	年份	任务	特色
DeepPanoContext (iGibson-Synthetic)	2021	布局+3D物体检测+网格重建	ICCV 2021；合成全景场景
PanoContext-Former (ReplicaPano)	2024	布局+旋转物体框+物体形状	CVPR 2024；基于Replica的真实全景数据

四、全景分割（Panoptic Segmentation）数据集

全景分割（语义+实例）在360°图像上的研究起步较晚，但近两年快速发展。Waymo Open PVPS 是目前规模最大的全景视频全景分割数据集（10万张标注），而 JRDB-PanoTrack 首次将开放世界全景分割引入机器人场景，支持71个类别。WildPPS 虽然规模较小（80张），但作为首个专用全景全景分割数据集具有开创意义。

数据集	年份	规模	类别数	场景	图像格式	论文/链接	特色
WildPPS	2021	80张全景图，40个城市	4 (Stuff: 道路/人行道; Thing: 行人/车辆)	室外	等距柱状投影	IV 2021 / T-ITS 2023; github.com/alexanderjaus/PPS	首个全景全景分割数据集；Cityscapes标注格式
Waymo Open PVPS	2022	100,000张标注，2,860序列，5摄像头	28	室外(自动驾驶)	多摄像头全景拼接	ECCV 2022; waymo.com/open	最大规模全景视频全景分割数据集；跨摄像头+跨时间一致标注；DeepLab基线
JRDB-PanoTrack	2024	20,000张(4,000全景)，428,000个全景掩码，27,000条轨迹	71 (60 thing + 11 stuff)	室内外(机器人)	5摄像头拼接全景 + 3D点云	CVPR 2024; jrdb.erc.monash.edu/dataset/panotrack	开放世界全景分割+跟踪；每张最多245个掩码；OSPA评测指标

五、360° 深度估计数据集

深度估计是全景图像的另一核心任务，对 DETR 类架构的特征表示学习也有重要参考价值。Pano3D 作为全面基准已取代早期的 3D60 数据集，修复了已知的亮度信息泄露问题。2024年的”360° in the Wild”首次提供了大规模（25K张）的真实世界全景深度数据。

数据集	年份	规模	场景	图像格式	论文/链接	特色
3D60	2018-2019	多模态渲染(MP3D+Stanford2D3D+SunCG)	室内	等距柱状投影(单目+双目)	vcl3d.github.io/3D60	早期全景深度基准；已被Pano3D取代（已知亮度泄露问题）
PanoSUNCG	2018	103场景，25,000+ RGB-D全景	室内(合成)	等距柱状投影 (512×1024) + 立方体图	arXiv:1811.05304	首个360°室内视频深度数据集；因SUNCG许可问题可能不再可获取
Pano3D	2021	MP3D + GibsonV2多分割 (1024×512)	室内	等距柱状投影	OmniCV@CVPR 2021; vcl3d.github.io/Pano3D	全面深度基准；评估精度/边界/平滑度等多维指标；支持零样本跨数据集迁移
360° in the Wild	2024	25,000张含深度+相机位姿	室内外(极度多样)	等距柱状投影	arXiv:2406.18898	最大真实世界360°深度数据集；来自互联网360°视频
PAIR360	2024	52序列，7区域	室外(校园)	8K等距柱状投影 + 6鱼眼 + LiDAR + GPS/IMU	RA-L 2024; airlabkhu.github.io/PAIR-360-Dataset	首个8K分辨率室外多模态360°数据集

六、360° 视觉目标跟踪与视频分割数据集

这是2023年以来快速兴起的新方向。360VOT（ICCV 2023）开创了全向目标跟踪基准，其后续 360VOTS 和 PanoVOS 分别将任务扩展到视频物体分割领域。2025年的 Leader360V 以 10,000+ 标注视频序列成为迄今最大规模的真实世界360°视频数据集。

数据集	年份	规模	类别数	任务	图像格式	论文/链接	特色
360VOT	2023	120序列，~113K高分辨率帧	32	单目标跟踪	等距柱状投影	ICCV 2023; github.com/HuajianUP/360VOT	首个全向跟踪基准；4种GT格式(BBox/rBBox/BFoV/rBFoV)；20个SOTA跟踪器评测
360VOTS	2024	120跟踪序列 + 290分割序列	62 (分割)	跟踪+视频物体分割	等距柱状投影	T-PAMI 2024; arXiv:2404.13953	扩展360VOT加入VOS组件
PanoVOS	2024	150个全景视频，~19,000实例掩码	人/动物/物体	视频物体分割	等距柱状投影	ECCV 2024; github.com/shilinyan99/PanoVOS	首个长时全景VOS数据集；揭示现有VOS模型在内容不连续性上的失败
Leader360V	2025	10,000+标注视频序列	—	实例分割+跟踪	等距柱状投影	arXiv:2506.14271	最大规模真实世界360°视频数据集；SAM2+LLM自动标注流水线

七、自动驾驶与城市场景全景数据集

自动驾驶领域虽然多数数据集使用多摄像头拼接而非原生等距柱状投影，但其360°视觉覆盖的设计理念与全景图像研究高度契合。KITTI-360 的两个180°鱼眼相机提供了完整的360°视觉覆盖，是目前少数在自动驾驶场景中原生支持全向视觉的数据集。

数据集	年份	规模	场景	图像格式	论文/链接	特色
KITTI-360	2021/2022	320K图像(>150K语义标注)，73.7km	室外(郊区驾驶)	透视立体相机 + 2×180°鱼眼	PAMI 2022; cvlibs.net/datasets/kitti-360	KITTI继承者；鱼眼相机提供360°覆盖；10亿3D点
WoodScape	2019	10,000+语义标注(40类)，100,000+总图	室外(欧洲驾驶)	4×190°鱼眼(360°覆盖)	ICCV 2019(Oral); woodscape.valeo.com	Valeo首个大规模鱼眼自动驾驶数据集；9个任务
SynWoodScape	2022	80,000张合成鱼眼图	室外(CARLA合成)	4鱼眼(同WoodScape配置)	IROS 2022; arXiv:2203.05056	补充WoodScape缺失的光流/深度GT
nuScenes	2019/2020	1.4M摄像头图像，1,000场景	室外(波士顿/新加坡)	6×针孔(360°覆盖) + 5雷达 + 1激光雷达	CVPR 2020; nuscenes.org	非等距柱状投影，但6摄像头覆盖完整360°；nuScenes-360变体可拼接为全景
OmniCity	2023	100K+像素级标注，25K地理位置	室外(纽约)	街景全景 + 卫星图	CVPR 2023; city-super.github.io/omnicity	首个含精细建筑实例分割的街景全景数据集
StreetLearn	2018	~143,000 Google街景全景(曼哈顿+匹兹堡)	室外(城市)	等距柱状投影 (~1664×832)	NeurIPS 2018; Google DeepMind	RL导航训练；含街道连接图；已停止发布

八、综合性/基础性全景数据集

这些数据集跨越多个任务类别，在全景视觉研究生态中起基础性作用。SUN360 作为最早的大规模全景数据库，至今仍被广泛引用；HM3D 以 1,000 栋建筑级3D重建成为具身智能领域最大的全景可渲染数据集。

数据集	年份	规模	场景	图像格式	论文/链接	特色
SUN360	2012	~67,000+全景图，80+场景类	室内外	等距柱状投影 (9104×4552)	CVPR 2012; people.csail.mit.edu/jxiao/SUN360	最早大规模全景数据库之一；PanoContext源数据；广泛用于光照估计
Gibson / Gibson V2	2018/2019	572栋建筑，~1,500楼层	室内(真实扫描)	3D网格→可渲染等距柱状	gibsonenv.stanford.edu	导航/具身AI基础数据集
Replica	2019	18个高保真重建场景	室内	3D网格→可渲染等距柱状	Facebook Research	极高几何保真度
HM3D	2021	1,000栋建筑，112,500m²可导航	室内(真实扫描)	3D网格→可渲染等距柱状	NeurIPS 2021; aihabitat.org/datasets/hm3d	超越MP3D/Gibson/Replica的规模和保真度
ScanNet	2017	1,513场景，2.5M视图	室内	RGB-D视频帧(非原生全景)	CVPR 2017; scan-net.org	ScanNet++(ICCV 2023, 460场景)新增全景相机(panocam)图像
360+x	2024	2,152视频(464×360°)，8.58M帧，67.78小时	室内外(28类，17城市)	等距柱状投影 (5760×2880) + 第三人称 + 第一人称	CVPR 2024; x360dataset.github.io	首个全景+多视角+多模态数据集；含音频/双耳延迟/位置/文本
Pano-AVQA	2021	5,400个360°视频片段	混合	等距柱状投影视频	ICCV 2021; github.com/HS-YN/PanoAVQA	视听问答+空间推理；含边界框定位
Laval Indoor HDR	2017	HDR全景图集合	室内	等距柱状投影 (HDR)	Gardner et al.	室内光照估计基准
Laval Outdoor HDR	2019	HDR户外全景图集合	室外	等距柱状投影 (HDR)	Hold-Geoffroy et al.	户外光照估计基准

九、对 DETR/DINO 类全景架构的实用建议

基于上述数据集调研，以下是针对基于 DETR/DINO + 球面位置编码架构的具体建议：

目标检测任务的数据集选择高度受限。 360-Indoor 和 PANDORA 是目前仅有的两个专用全景目标检测基准，且均以室内场景为主。PANDORA 的 RBFoV 标注（含旋转角 γ）与球面位置编码天然契合，建议优先使用。室外检测可参考 Pano-RSOD（4类道路目标）或将 FishEye8K 作为补充基准。

关键的标注格式差异需要注意。 全景目标检测使用 BFoV（Bounding Field-of-View）而非传统矩形框，定义为球面坐标 (θ, φ, α, β)，PANDORA 进一步扩展为 RBFoV (θ, φ, α, β, γ)。Sph2Pob（IJCAI 2023）提出的球面框→平面旋转框转换范式值得关注，可使 DETR 的 Hungarian 匹配直接适配全景场景。IoU 计算需采用球面 IoU（Unbiased IoU, AAAI 2022）或 FoV-IoU（2023）等专用指标。

预训练与域适应策略。 Structured3D（196K 合成全景图）是预训练的首选数据源；COCO-Stuff164k 可作为开放词汇全景分割的源域（参见 OOOPS, ECCV 2024）。Pin2Pan（针孔→全景）和 Syn2Real（合成→真实）两种域适应范式均已被验证有效。

完整的相关方法参考：

Sph2Pob（IJCAI 2023）：球面框→平面旋转框，适配现有OBB检测器
PanoFormer（ECCV 2022）：Transformer处理等距柱状投影的深度估计
Trans4PASS/DPPASS（CVPR 2023）：形变感知Transformer全景语义分割
OOOPS（ECCV 2024）：开放词汇全景分割，含RERP增强
360BEV / 360Mapper（WACV 2024）：全景→BEV语义映射

结论与展望

本调研覆盖了 50+ 个全景/360°数据集，揭示了该领域几个重要趋势。目标检测是当前最薄弱的环节——仅有 360-Indoor（37类）和 PANDORA（47类）两个专用数据集，且均集中在室内场景，这对 DETR 类架构的研究构成了显著的数据瓶颈。相比之下，语义分割和布局估计已拥有较为成熟的数据生态。2023-2025年的新兴趋势包括：开放世界全景分割（JRDB-PanoTrack 的71类开放世界设定）、全景视频理解（360VOT/PanoVOS/Leader360V）、多模态融合（360+x 的全景+第一/三人称+音频）、以及 BEV 语义映射（360BEV）。对于球面位置编码的 DETR 架构而言，PANDORA 的 RBFoV 标注体系和 Sph2Pob 的球面→平面框转换范式是最直接相关的技术参考，而 Structured3D 和 Matterport3D 则是预训练和多任务学习的核心数据支撑。