📄 100+ Papers 🗓 2020 – 2026 🌐 Bilingual ZH/EN 🔬 SIBench Survey

视觉空间推理综述

面向视觉语言模型的空间智能研究全景 · 2020–2026

Songsong Yu et al. · SIBench Project · SJTU / ARC Tencent PCG / UM / DLUT / CUHK

📅 更新日期:2026-03-29 📄 收录论文:110+ 🔍 来源:ArXiv · CVPR · NeurIPS · ICLR 🕐 覆盖:2020–2026.03
🌐

领域概述

视觉空间推理(Visual Spatial Reasoning, VSR)是视觉语言模型(VLM)研究中的核心挑战之一,要求模型从图像、视频或多视角输入中理解物体位置、距离、朝向、深度及空间关系。这一能力是具身智能、自动驾驶、机器人操控等应用的基础。2020年以来,该领域从早期的简单空间关系分类,演进为面向3D场景、视频时序、多视角一致性的深度推理挑战。

110+
收录论文
40+
评测基准
6
主要研究方向
2026
最新更新

🖼 单图空间推理

从单张RGB图像中推断物体的空间关系、相对深度、方向和位置。是最基础的范式,近年重点转向深度量化估计、CoT推理和强化学习微调。代表:SpatialVLM, R1-Zero-VSI, MetaSpatial。

🎬 视频时空推理

在时序视频流中理解动态空间变化、物体运动轨迹和相机运动。需要同时处理空间和时间维度,代表:VSI-Bench, STI-Bench, SPAR-Bench, SpaceR。

📐 多视角3D理解

融合多视角图像重建3D场景结构,实现精准的度量估计和空间推理。代表方向包括NeRF/3DGS辅助推理、点云+LLM和多视角一致性基准。代表:HiSpatial, EmbodiedScan, SpatialBot。

🤖 具身与机器人应用

将空间推理能力迁移到机器人操控、导航和具身问答任务。代表:RoboRefer, VeBrain, Embodied-R, Robot-R1。强调从感知到决策的空间推理闭环。

🧠 CoT与强化学习

2025年爆发式增长的方向:通过R1风格RL训练激活VLM的空间推理潜力,无需大规模标注数据。代表:R1-Zero-VSI, SpaceR, VideoChat-R1, SVQA-R1, MetaSpatial。

📊 评测与基准

系统性评测VLM空间推理能力的基准体系正在快速完善。从2D关系分类到3D度量估计,从静态图像到动态视频。核心基准:VSI-Bench, SIBench, STI-Bench, SITE, SPAR-Bench。

📅

发展时间线

视觉空间推理领域从2020年的萌芽期,经历2023-2024年的快速发展,到2025-2026年以强化学习和R1范式为核心的爆发阶段。

2020

萌芽期:几何空间推理基础

以 SPARE3D(2020)为代表,探索从三视图工程图等结构化输入中进行空间推理。VLM尚未成熟,主要依赖符号推理和规则系统。

BenchmarkSymbolic
2022

早期VLM时代:空间常识学习

ACL 2022 的 Spatial Commonsense 工作首次从视觉信号中挖掘空间常识知识。WACV 2023 改进视觉语言推理中的空间关系建模。以预训练+微调为主流范式。

VLMCommonsense
2023

大模型赋能:LLM遇见3D场景

NeurIPS 2023 的 3D-Aware VQA 工作将3D感知引入VQA。CVPR 2024 的 SpatialVLM 首次系统赋予VLM定量空间推理能力,生成大规模合成空间QA数据。EmbodiedScan 构建面向具身AI的全模态3D感知套件。

3DBenchmarkSynthetic Data
2024

基准爆发:系统性评测与数据构建

VSI-Bench(视频空间智能基准)、SPACE(苹果)、OpenEQA(Facebook)等大量评测基准涌现,揭示主流模型的空间推理盲区。多视角推理(CoSpace, All-Angles-Bench)开始受到关注。

VSI-BenchSPACEOpenEQA
2025

RL革命:R1范式激活空间推理

DeepSeek R1 的出现催生了大量 R1 风格的空间推理工作(2025下半年集中爆发):R1-Zero-VSI、SpaceR、VideoChat-R1、Embodied-R、MetaSpatial、SVQA-R1。思维链(CoT)推理引入空间领域。同时,合成数据+监督微调路线持续强化(SpatialDreamer, SpaceTools, SpatialGeo, SpatialLadder)。

R1/RLCoTSynthetic Data
2026

🆕 深度融合:几何+推理+RL的全面整合

2026年前3个月,空间推理呈现三条融合主线:(1) 层次化3D理解(HiSpatial, N3D-VLM),(2) 几何先验引导推理(Thinking with Geometry, LaMP),(3) 对内部机制的深度解析(Attention in Space, Dual Mechanisms)。基准体系愈发精细化(SpatiaLQA, STI-Bench, SITE, SPAR-Bench)。

3D Fusion🆕 2026Mechanistic
🖼

单图空间推理代表论文

从单张 RGB 图像推断空间关系、深度、方向和距离。涵盖基准构建、模型训练方法和推理增强三大子方向。

🆕 2026 最新工作
2026-03 CVPR 2026

HiSpatial: Taming Hierarchical 3D Spatial Understanding in Vision-Language Models

层次化3D空间理解框架,实现从粗粒度场景到细粒度物体的多层级空间推理。CVPR 2026 收录,配套 project page。

2026-03 ARXIV

Unleashing Spatial Reasoning in MLLMs via Textual Representation Guided Reasoning

利用文本表示作为中间媒介引导空间推理,将3D场景的结构信息转换为VLM可直接处理的文本化空间描述,显著提升3D-QA性能。

2026-03 ARXIV

3D-Layout-R1: Structured Reasoning for Language-Instructed Spatial Editing

将R1推理范式扩展到3D空间布局编辑,VLM通过结构化推理链生成空间感知的场景编辑方案,支持语言指令驱动的精确物体摆放。

2026-03 ARXIV

Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning

首个系统分析VLM注意力头在空间推理中功能角色的工作。揭示不同注意力头分别负责位置定位、深度感知和关系推理等不同空间子任务,为模型可解释性和干预提供理论基础。

2026-03 ARXIV

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

在 VSI-Bench 上推进空间智能上限,引入结构化场景表示辅助推理,通过层次化场景图+逐步推理链突破现有SOTA。

2026-02 ARXIV

Thinking with Geometry: Active Geometry Integration for Spatial Reasoning

主动几何集成框架:在推理过程中动态调用深度估计、3D重建等几何工具作为辅助信息,实现几何感知与语言推理的紧密耦合。

2026-02 CVPR 2026

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in VLMs

首个系统评测VLM空间逻辑推理能力的基准,涵盖传递性推理、空间排列组合和多步推断,揭示现有VLM在逻辑一致性上的严重不足。

2026-02 ICLR 2026

SpatiaLab: Can VLMs Perform Spatial Reasoning in the Wild?

首个野外真实场景空间推理基准,收录多样化真实世界图像,覆盖室内/室外/医疗/工业等场景,测试模型在无约束条件下的空间泛化能力。

2025 核心工作
2025-04 ARXIV

Improved Visual-Spatial Reasoning via R1-Zero-Like Training

首个将R1风格强化学习应用于视觉空间推理的工作,在无人工标注推理链的情况下,通过GRPO训练涌现出空间推理能力,构建VSI-100K合成数据集。

2025-03 ARXIV

MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

面向元宇宙应用的3D空间推理强化学习框架,通过物理一致性奖励函数指导VLM生成符合物理约束的空间布局方案。

2025-12 ARXIV

SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery

受人类心理旋转启发,训练VLM在回答空间问题前主动生成心理意象(mental imagery)作为推理脚手架,显著提升对称性和旋转类空间推理。

2025-12 ARXIV

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

工具增强的空间推理框架,通过双交互强化学习训练VLM学会主动调用深度估计、目标检测等视觉工具,以工具输出为锚点进行精确空间推断。

2025-05 ARXIV

SITE: Towards Spatial Intelligence Thorough Evaluation

系统性全面评测基准,覆盖距离估计、方向判断、尺寸比较、遮挡推理等8大空间子任务,揭示各主流VLM在不同空间能力维度上的细粒度差异。

2024-01 CVPR 2024

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

里程碑工作:首次通过大规模合成空间QA数据(含定量距离/尺寸问答)系统赋予VLM定量空间推理能力,构建链式空间推理训练管线。

🎬

视频时空空间推理

在时序视频帧中理解动态空间变化:物体运动轨迹、相机位姿变化、跨帧空间一致性。是难度最高的子方向,2025年有大量基准和RL方法涌现。

2025-01 CVPR 2025

Thinking in Space: How MLLMs See, Remember, and Recall Spaces

构建 VSI-Bench 视频空间智能基准(288个真实场景视频),揭示最强VLM(GPT-4o等)在视频空间推理上的严重局限,随后催生大量后续工作。VSI-Bench 已成为该方向最重要的评测基准。

2025-04 ARXIV

SpaceR: Reinforcing MLLMs in Video Spatial Reasoning

首个视频空间推理的R1风格RL训练框架,构建专门的视频空间推理奖励机制,在VSI-Bench、STI-Bench和SPAR-Bench上取得SOTA,验证RL对视频空间推理的有效性。

2025-03 ARXIV

STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?

精确时空理解基准,专注于物理量化测量(速度、加速度、运动轨迹),要求模型在视频中完成精确数值预测而非定性判断,揭示VLM在物理量化上的巨大差距。

2025-05 ARXIV

VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

将指令对齐的3D重建过程注入VLM推理,从视频帧中在线重建3D场景,再以重建结果作为空间感知锚点回答空间问题,兼顾重建精度和推理效率。

2025-04 ARXIV

Embodied-R: Collaborative Framework for Embodied Spatial Reasoning via RL

具身空间推理的协作式RL框架,结合在线数据收集与奖励设计,激活大模型在具身场景下的空间推理能力,在多个具身QA基准上取得显著提升。

2025-03 ARXIV

From Flatland to Space: Teaching VLMs to Perceive and Reason in 3D (SPAR-Bench)

SPAR-Bench:专注从2D视频感知过渡到3D空间推理,构建大规模训练数据+评测体系,支持距离估计、方向判断、物体计数等多种空间子任务。

📐

多视角与3D场景理解

利用多张视角图像或点云重建三维场景,实现度量级空间推理。与单图方法相比,具有更准确的深度信息和更完整的场景结构,是向真实世界应用的重要桥梁。

2026-03 CVPR 2026

HiSpatial: Taming Hierarchical 3D Spatial Understanding in VLMs

层次化3D理解的代表作,从对象级→区域级→场景级三层递进建立空间理解能力,在SQA3D和ScanQA上取得CVPR 2026最优结果。

2025-12 ARXIV

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in VLMs

原生3D定位框架,在VLM骨干中直接引入3D坐标空间,无需2D→3D中间转换,实现端到端的精确空间推理。支持点云和多视角图像两种输入形式。

2025-01 CVPR 2025

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

位置感知视频表示学习,将绝对3D坐标信息编码入视频帧特征,使LLM能在视频流中建立稳定的3D空间参考系,是视频+3D方向的重要基线。

2025-03 ARXIV

MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs

苹果研究团队构建的多模态3D空间理解基准(Cubify Anything VQA),专注于真实世界物体的度量估计(尺寸、位置、距离),揭示当前VLM在精确3D度量推理上的局限。

2024-01 CVPR 2024

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

面向具身AI的全模态3D感知套件,整合RGB、深度和点云三种模态,覆盖3D目标检测、语义理解和空间关系推理,是多视角空间推理的重要基础数据集和评测框架。

📊

核心评测基准汇总

视觉空间推理领域已形成多层次、多模态的评测体系。以下汇总最具影响力的基准,按输入模态分类。

基准名称 模态 来源 时间 核心能力测试 链接
SIBench 单图 ARXIV 25-09 23项视觉空间推理任务全面测评 ↗ link
VSI-Bench 视频 CVPR 2025 25-01 视频场景内物体大小/距离/计数/定位 ↗ link
STI-Bench 视频 ARXIV 25-03 精确时空量化(速度/加速度/轨迹) ↗ link
SPAR-Bench 视频 ARXIV 25-03 2D→3D空间感知过渡评测 ↗ link
SITE 单图 ARXIV 25-05 8大空间子任务全面评测 ↗ link
SpatiaLQA 单图 CVPR 2026 26-02 空间逻辑推理(传递性/排列/多步推断) ↗ link
SpatiaLab 单图(野外) ICLR 2026 26-02 真实场景多领域空间泛化 ↗ link
SPACE 视频 ICLR 2025 24-10 前沿模型空间认知能力 ↗ link
OpenEQA 视频(具身) CVPR 2024 具身问答(导航+空间理解) ↗ link
SpaCE-10 多模态 ARXIV 25-06 组合式空间智能10维度测评 ↗ link
CoSpace 多视角 CVPR 2025 25-01 连续空间感知能力评测 ↗ CVPR 2025
SRBench 单图 ARXIV 25-03 空间关系推理差距分析 ↗ link
🔥

近期热点 TOP 12(2026-03-29 更新)

1
HiSpatial CVPR26

层次化3D空间理解,对象→区域→场景三级递进

↗ 2603.25411
2
R1-Zero-VSI

R1风格RL激活视觉空间推理,无需标注推理链

↗ 2504.00883
3
SpaceR

首个视频空间推理R1框架,VSI/STI/SPAR三榜SOTA

↗ 2504.01805
4
Attention in Space 🆕

首个VLM空间推理注意力头功能角色分析,可解释性新突破

↗ 2603.20662
5
SpatiaLQA CVPR26

空间逻辑推理基准,传递性+多步推断

↗ 2602.20901
6
3D-Layout-R1 🆕

R1推理范式扩展到3D空间布局编辑

↗ 2603.22279
7
Thinking with Geometry

主动几何工具调用融合空间推理,感知+推理双轨范式

↗ 2602.06037
8
Unleashing SR via Text 🆕

文本表示引导3D空间推理,中间表示桥接感知与推理

↗ 2603.23404
9
SpatialDreamer

主动心理意象作为推理脚手架,受人类认知启发

↗ 2512.07733
10
N3D-VLM

原生3D定位集成VLM,端到端精确空间推理

↗ 2512.16561
11
LanteRn 🆕

潜在视觉结构化推理,新型推理链架构

↗ 2603.25629
12
SpatiaLab ICLR26

野外真实场景空间推理基准,多领域泛化评测

↗ 2602.03916