面向视觉语言模型的空间智能研究全景 · 2020–2026
视觉空间推理(Visual Spatial Reasoning, VSR)是视觉语言模型(VLM)研究中的核心挑战之一,要求模型从图像、视频或多视角输入中理解物体位置、距离、朝向、深度及空间关系。这一能力是具身智能、自动驾驶、机器人操控等应用的基础。2020年以来,该领域从早期的简单空间关系分类,演进为面向3D场景、视频时序、多视角一致性的深度推理挑战。
从单张RGB图像中推断物体的空间关系、相对深度、方向和位置。是最基础的范式,近年重点转向深度量化估计、CoT推理和强化学习微调。代表:SpatialVLM, R1-Zero-VSI, MetaSpatial。
在时序视频流中理解动态空间变化、物体运动轨迹和相机运动。需要同时处理空间和时间维度,代表:VSI-Bench, STI-Bench, SPAR-Bench, SpaceR。
融合多视角图像重建3D场景结构,实现精准的度量估计和空间推理。代表方向包括NeRF/3DGS辅助推理、点云+LLM和多视角一致性基准。代表:HiSpatial, EmbodiedScan, SpatialBot。
将空间推理能力迁移到机器人操控、导航和具身问答任务。代表:RoboRefer, VeBrain, Embodied-R, Robot-R1。强调从感知到决策的空间推理闭环。
2025年爆发式增长的方向:通过R1风格RL训练激活VLM的空间推理潜力,无需大规模标注数据。代表:R1-Zero-VSI, SpaceR, VideoChat-R1, SVQA-R1, MetaSpatial。
系统性评测VLM空间推理能力的基准体系正在快速完善。从2D关系分类到3D度量估计,从静态图像到动态视频。核心基准:VSI-Bench, SIBench, STI-Bench, SITE, SPAR-Bench。
视觉空间推理领域从2020年的萌芽期,经历2023-2024年的快速发展,到2025-2026年以强化学习和R1范式为核心的爆发阶段。
以 SPARE3D(2020)为代表,探索从三视图工程图等结构化输入中进行空间推理。VLM尚未成熟,主要依赖符号推理和规则系统。
ACL 2022 的 Spatial Commonsense 工作首次从视觉信号中挖掘空间常识知识。WACV 2023 改进视觉语言推理中的空间关系建模。以预训练+微调为主流范式。
NeurIPS 2023 的 3D-Aware VQA 工作将3D感知引入VQA。CVPR 2024 的 SpatialVLM 首次系统赋予VLM定量空间推理能力,生成大规模合成空间QA数据。EmbodiedScan 构建面向具身AI的全模态3D感知套件。
VSI-Bench(视频空间智能基准)、SPACE(苹果)、OpenEQA(Facebook)等大量评测基准涌现,揭示主流模型的空间推理盲区。多视角推理(CoSpace, All-Angles-Bench)开始受到关注。
DeepSeek R1 的出现催生了大量 R1 风格的空间推理工作(2025下半年集中爆发):R1-Zero-VSI、SpaceR、VideoChat-R1、Embodied-R、MetaSpatial、SVQA-R1。思维链(CoT)推理引入空间领域。同时,合成数据+监督微调路线持续强化(SpatialDreamer, SpaceTools, SpatialGeo, SpatialLadder)。
2026年前3个月,空间推理呈现三条融合主线:(1) 层次化3D理解(HiSpatial, N3D-VLM),(2) 几何先验引导推理(Thinking with Geometry, LaMP),(3) 对内部机制的深度解析(Attention in Space, Dual Mechanisms)。基准体系愈发精细化(SpatiaLQA, STI-Bench, SITE, SPAR-Bench)。
从单张 RGB 图像推断空间关系、深度、方向和距离。涵盖基准构建、模型训练方法和推理增强三大子方向。
层次化3D空间理解框架,实现从粗粒度场景到细粒度物体的多层级空间推理。CVPR 2026 收录,配套 project page。
利用文本表示作为中间媒介引导空间推理,将3D场景的结构信息转换为VLM可直接处理的文本化空间描述,显著提升3D-QA性能。
将R1推理范式扩展到3D空间布局编辑,VLM通过结构化推理链生成空间感知的场景编辑方案,支持语言指令驱动的精确物体摆放。
首个系统分析VLM注意力头在空间推理中功能角色的工作。揭示不同注意力头分别负责位置定位、深度感知和关系推理等不同空间子任务,为模型可解释性和干预提供理论基础。
在 VSI-Bench 上推进空间智能上限,引入结构化场景表示辅助推理,通过层次化场景图+逐步推理链突破现有SOTA。
主动几何集成框架:在推理过程中动态调用深度估计、3D重建等几何工具作为辅助信息,实现几何感知与语言推理的紧密耦合。
首个系统评测VLM空间逻辑推理能力的基准,涵盖传递性推理、空间排列组合和多步推断,揭示现有VLM在逻辑一致性上的严重不足。
首个野外真实场景空间推理基准,收录多样化真实世界图像,覆盖室内/室外/医疗/工业等场景,测试模型在无约束条件下的空间泛化能力。
首个将R1风格强化学习应用于视觉空间推理的工作,在无人工标注推理链的情况下,通过GRPO训练涌现出空间推理能力,构建VSI-100K合成数据集。
面向元宇宙应用的3D空间推理强化学习框架,通过物理一致性奖励函数指导VLM生成符合物理约束的空间布局方案。
受人类心理旋转启发,训练VLM在回答空间问题前主动生成心理意象(mental imagery)作为推理脚手架,显著提升对称性和旋转类空间推理。
工具增强的空间推理框架,通过双交互强化学习训练VLM学会主动调用深度估计、目标检测等视觉工具,以工具输出为锚点进行精确空间推断。
系统性全面评测基准,覆盖距离估计、方向判断、尺寸比较、遮挡推理等8大空间子任务,揭示各主流VLM在不同空间能力维度上的细粒度差异。
里程碑工作:首次通过大规模合成空间QA数据(含定量距离/尺寸问答)系统赋予VLM定量空间推理能力,构建链式空间推理训练管线。
在时序视频帧中理解动态空间变化:物体运动轨迹、相机位姿变化、跨帧空间一致性。是难度最高的子方向,2025年有大量基准和RL方法涌现。
构建 VSI-Bench 视频空间智能基准(288个真实场景视频),揭示最强VLM(GPT-4o等)在视频空间推理上的严重局限,随后催生大量后续工作。VSI-Bench 已成为该方向最重要的评测基准。
首个视频空间推理的R1风格RL训练框架,构建专门的视频空间推理奖励机制,在VSI-Bench、STI-Bench和SPAR-Bench上取得SOTA,验证RL对视频空间推理的有效性。
精确时空理解基准,专注于物理量化测量(速度、加速度、运动轨迹),要求模型在视频中完成精确数值预测而非定性判断,揭示VLM在物理量化上的巨大差距。
将指令对齐的3D重建过程注入VLM推理,从视频帧中在线重建3D场景,再以重建结果作为空间感知锚点回答空间问题,兼顾重建精度和推理效率。
具身空间推理的协作式RL框架,结合在线数据收集与奖励设计,激活大模型在具身场景下的空间推理能力,在多个具身QA基准上取得显著提升。
SPAR-Bench:专注从2D视频感知过渡到3D空间推理,构建大规模训练数据+评测体系,支持距离估计、方向判断、物体计数等多种空间子任务。
利用多张视角图像或点云重建三维场景,实现度量级空间推理。与单图方法相比,具有更准确的深度信息和更完整的场景结构,是向真实世界应用的重要桥梁。
层次化3D理解的代表作,从对象级→区域级→场景级三层递进建立空间理解能力,在SQA3D和ScanQA上取得CVPR 2026最优结果。
原生3D定位框架,在VLM骨干中直接引入3D坐标空间,无需2D→3D中间转换,实现端到端的精确空间推理。支持点云和多视角图像两种输入形式。
位置感知视频表示学习,将绝对3D坐标信息编码入视频帧特征,使LLM能在视频流中建立稳定的3D空间参考系,是视频+3D方向的重要基线。
苹果研究团队构建的多模态3D空间理解基准(Cubify Anything VQA),专注于真实世界物体的度量估计(尺寸、位置、距离),揭示当前VLM在精确3D度量推理上的局限。
面向具身AI的全模态3D感知套件,整合RGB、深度和点云三种模态,覆盖3D目标检测、语义理解和空间关系推理,是多视角空间推理的重要基础数据集和评测框架。
视觉空间推理领域已形成多层次、多模态的评测体系。以下汇总最具影响力的基准,按输入模态分类。
| 基准名称 | 模态 | 来源 | 时间 | 核心能力测试 | 链接 |
|---|---|---|---|---|---|
| SIBench | 单图 | ARXIV | 25-09 | 23项视觉空间推理任务全面测评 | ↗ link |
| VSI-Bench | 视频 | CVPR 2025 | 25-01 | 视频场景内物体大小/距离/计数/定位 | ↗ link |
| STI-Bench | 视频 | ARXIV | 25-03 | 精确时空量化(速度/加速度/轨迹) | ↗ link |
| SPAR-Bench | 视频 | ARXIV | 25-03 | 2D→3D空间感知过渡评测 | ↗ link |
| SITE | 单图 | ARXIV | 25-05 | 8大空间子任务全面评测 | ↗ link |
| SpatiaLQA | 单图 | CVPR 2026 | 26-02 | 空间逻辑推理(传递性/排列/多步推断) | ↗ link |
| SpatiaLab | 单图(野外) | ICLR 2026 | 26-02 | 真实场景多领域空间泛化 | ↗ link |
| SPACE | 视频 | ICLR 2025 | 24-10 | 前沿模型空间认知能力 | ↗ link |
| OpenEQA | 视频(具身) | CVPR 2024 | — | 具身问答(导航+空间理解) | ↗ link |
| SpaCE-10 | 多模态 | ARXIV | 25-06 | 组合式空间智能10维度测评 | ↗ link |
| CoSpace | 多视角 | CVPR 2025 | 25-01 | 连续空间感知能力评测 | ↗ CVPR 2025 |
| SRBench | 单图 | ARXIV | 25-03 | 空间关系推理差距分析 | ↗ link |
基于100+篇论文的系统梳理,归纳视觉空间推理领域的6大核心趋势,这些趋势相互交织,共同塑造该领域的未来方向。
2025年下半年起,R1风格强化学习成为视觉空间推理的主流训练范式,彻底改变了原有的监督微调路线。
深度估计、3D重建等几何工具与VLM语言推理的深度融合,形成"感知+推理"双轨范式,是2026年最显著的新趋势。
2026年出现多项研究开始探究VLM空间推理的内部机制,从"什么效果好"转向"为什么这样工作"。
空间推理基准从粗粒度关系分类演进为细粒度多维度量化评测,覆盖范围更广、难度更高、更接近真实应用场景。
空间推理能力快速向机器人操控、导航、具身问答等应用落地,感知-推理-执行的完整闭环已初步建立。
合成数据生成与多模态数据增强是提升空间推理能力的重要支撑,从结构化合成到视频+3D的大规模预训练均在快速发展。