Visual Spatial Reasoning Survey | 视觉空间推理综述 (2020

🌐

领域概述

视觉空间推理（Visual Spatial Reasoning, VSR）是视觉语言模型（VLM）研究中的核心挑战之一，要求模型从图像、视频或多视角输入中理解物体位置、距离、朝向、深度及空间关系。这一能力是具身智能、自动驾驶、机器人操控等应用的基础。2020年以来，该领域从早期的简单空间关系分类，演进为面向3D场景、视频时序、多视角一致性的深度推理挑战。

110+

收录论文

40+

评测基准

主要研究方向

2026

🖼 单图空间推理

从单张RGB图像中推断物体的空间关系、相对深度、方向和位置。是最基础的范式，近年重点转向深度量化估计、CoT推理和强化学习微调。代表：SpatialVLM, R1-Zero-VSI, MetaSpatial。

🎬 视频时空推理

在时序视频流中理解动态空间变化、物体运动轨迹和相机运动。需要同时处理空间和时间维度，代表：VSI-Bench, STI-Bench, SPAR-Bench, SpaceR。

📐 多视角3D理解

融合多视角图像重建3D场景结构，实现精准的度量估计和空间推理。代表方向包括NeRF/3DGS辅助推理、点云+LLM和多视角一致性基准。代表：HiSpatial, EmbodiedScan, SpatialBot。

🤖 具身与机器人应用

将空间推理能力迁移到机器人操控、导航和具身问答任务。代表：RoboRefer, VeBrain, Embodied-R, Robot-R1。强调从感知到决策的空间推理闭环。

🧠 CoT与强化学习

2025年爆发式增长的方向：通过R1风格RL训练激活VLM的空间推理潜力，无需大规模标注数据。代表：R1-Zero-VSI, SpaceR, VideoChat-R1, SVQA-R1, MetaSpatial。

📊 评测与基准

系统性评测VLM空间推理能力的基准体系正在快速完善。从2D关系分类到3D度量估计，从静态图像到动态视频。核心基准：VSI-Bench, SIBench, STI-Bench, SITE, SPAR-Bench。

📅

发展时间线

视觉空间推理领域从2020年的萌芽期，经历2023-2024年的快速发展，到2025-2026年以强化学习和R1范式为核心的爆发阶段。

2020

萌芽期：几何空间推理基础

以 SPARE3D（2020）为代表，探索从三视图工程图等结构化输入中进行空间推理。VLM尚未成熟，主要依赖符号推理和规则系统。

BenchmarkSymbolic

2022

早期VLM时代：空间常识学习

ACL 2022 的 Spatial Commonsense 工作首次从视觉信号中挖掘空间常识知识。WACV 2023 改进视觉语言推理中的空间关系建模。以预训练+微调为主流范式。

VLMCommonsense

2023

大模型赋能：LLM遇见3D场景

NeurIPS 2023 的 3D-Aware VQA 工作将3D感知引入VQA。CVPR 2024 的 SpatialVLM 首次系统赋予VLM定量空间推理能力，生成大规模合成空间QA数据。EmbodiedScan 构建面向具身AI的全模态3D感知套件。

3DBenchmarkSynthetic Data

2024

基准爆发：系统性评测与数据构建

VSI-Bench（视频空间智能基准）、SPACE（苹果）、OpenEQA（Facebook）等大量评测基准涌现，揭示主流模型的空间推理盲区。多视角推理（CoSpace, All-Angles-Bench）开始受到关注。

VSI-BenchSPACEOpenEQA

2025

RL革命：R1范式激活空间推理

DeepSeek R1 的出现催生了大量 R1 风格的空间推理工作（2025下半年集中爆发）：R1-Zero-VSI、SpaceR、VideoChat-R1、Embodied-R、MetaSpatial、SVQA-R1。思维链（CoT）推理引入空间领域。同时，合成数据+监督微调路线持续强化（SpatialDreamer, SpaceTools, SpatialGeo, SpatialLadder）。

R1/RLCoTSynthetic Data

2026

🆕 深度融合：几何+推理+RL的全面整合

2026年前3个月，空间推理呈现三条融合主线：(1) 层次化3D理解（HiSpatial, N3D-VLM），(2) 几何先验引导推理（Thinking with Geometry, LaMP），(3) 对内部机制的深度解析（Attention in Space, Dual Mechanisms）。基准体系愈发精细化（SpatiaLQA, STI-Bench, SITE, SPAR-Bench）。

3D Fusion🆕 2026Mechanistic

🖼

单图空间推理代表论文

从单张 RGB 图像推断空间关系、深度、方向和距离。涵盖基准构建、模型训练方法和推理增强三大子方向。

🆕 2026 最新工作

2026-03 CVPR 2026

HiSpatial: Taming Hierarchical 3D Spatial Understanding in Vision-Language Models

层次化3D空间理解框架，实现从粗粒度场景到细粒度物体的多层级空间推理。CVPR 2026 收录，配套 project page。

2026-03 ARXIV

Unleashing Spatial Reasoning in MLLMs via Textual Representation Guided Reasoning

利用文本表示作为中间媒介引导空间推理，将3D场景的结构信息转换为VLM可直接处理的文本化空间描述，显著提升3D-QA性能。

2026-03 ARXIV

3D-Layout-R1: Structured Reasoning for Language-Instructed Spatial Editing

将R1推理范式扩展到3D空间布局编辑，VLM通过结构化推理链生成空间感知的场景编辑方案，支持语言指令驱动的精确物体摆放。

2026-03 ARXIV

Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning

首个系统分析VLM注意力头在空间推理中功能角色的工作。揭示不同注意力头分别负责位置定位、深度感知和关系推理等不同空间子任务，为模型可解释性和干预提供理论基础。

2026-03 ARXIV

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

在 VSI-Bench 上推进空间智能上限，引入结构化场景表示辅助推理，通过层次化场景图+逐步推理链突破现有SOTA。

2026-02 ARXIV

Thinking with Geometry: Active Geometry Integration for Spatial Reasoning

主动几何集成框架：在推理过程中动态调用深度估计、3D重建等几何工具作为辅助信息，实现几何感知与语言推理的紧密耦合。

2026-02 CVPR 2026

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in VLMs

首个系统评测VLM空间逻辑推理能力的基准，涵盖传递性推理、空间排列组合和多步推断，揭示现有VLM在逻辑一致性上的严重不足。

2026-02 ICLR 2026

SpatiaLab: Can VLMs Perform Spatial Reasoning in the Wild?

首个野外真实场景空间推理基准，收录多样化真实世界图像，覆盖室内/室外/医疗/工业等场景，测试模型在无约束条件下的空间泛化能力。

2025 核心工作

2025-04 ARXIV

Improved Visual-Spatial Reasoning via R1-Zero-Like Training

首个将R1风格强化学习应用于视觉空间推理的工作，在无人工标注推理链的情况下，通过GRPO训练涌现出空间推理能力，构建VSI-100K合成数据集。

2025-03 ARXIV

MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

面向元宇宙应用的3D空间推理强化学习框架，通过物理一致性奖励函数指导VLM生成符合物理约束的空间布局方案。

2025-12 ARXIV

SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery

受人类心理旋转启发，训练VLM在回答空间问题前主动生成心理意象（mental imagery）作为推理脚手架，显著提升对称性和旋转类空间推理。

2025-12 ARXIV

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

工具增强的空间推理框架，通过双交互强化学习训练VLM学会主动调用深度估计、目标检测等视觉工具，以工具输出为锚点进行精确空间推断。

2025-05 ARXIV

SITE: Towards Spatial Intelligence Thorough Evaluation

系统性全面评测基准，覆盖距离估计、方向判断、尺寸比较、遮挡推理等8大空间子任务，揭示各主流VLM在不同空间能力维度上的细粒度差异。

2024-01 CVPR 2024

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

里程碑工作：首次通过大规模合成空间QA数据（含定量距离/尺寸问答）系统赋予VLM定量空间推理能力，构建链式空间推理训练管线。

🎬

视频时空空间推理

在时序视频帧中理解动态空间变化：物体运动轨迹、相机位姿变化、跨帧空间一致性。是难度最高的子方向，2025年有大量基准和RL方法涌现。

2025-01 CVPR 2025

多视角与3D场景理解

利用多张视角图像或点云重建三维场景，实现度量级空间推理。与单图方法相比，具有更准确的深度信息和更完整的场景结构，是向真实世界应用的重要桥梁。

2026-03 CVPR 2026

核心评测基准汇总

视觉空间推理领域已形成多层次、多模态的评测体系。以下汇总最具影响力的基准，按输入模态分类。

基准名称	模态	来源	时间	核心能力测试	链接
SIBench	单图	ARXIV	25-09	23项视觉空间推理任务全面测评	↗ link
VSI-Bench	视频	CVPR 2025	25-01	视频场景内物体大小/距离/计数/定位	↗ link
STI-Bench	视频	ARXIV	25-03	精确时空量化（速度/加速度/轨迹）	↗ link
SPAR-Bench	视频	ARXIV	25-03	2D→3D空间感知过渡评测	↗ link
SITE	单图	ARXIV	25-05	8大空间子任务全面评测	↗ link
SpatiaLQA	单图	CVPR 2026	26-02	空间逻辑推理（传递性/排列/多步推断）	↗ link
SpatiaLab	单图（野外）	ICLR 2026	26-02	真实场景多领域空间泛化	↗ link
SPACE	视频	ICLR 2025	24-10	前沿模型空间认知能力	↗ link
OpenEQA	视频（具身）	CVPR 2024	—	具身问答（导航+空间理解）	↗ link
SpaCE-10	多模态	ARXIV	25-06	组合式空间智能10维度测评	↗ link
CoSpace	多视角	CVPR 2025	25-01	连续空间感知能力评测	↗ CVPR 2025
SRBench	单图	ARXIV	25-03	空间关系推理差距分析	↗ link