视觉-语言-导航（VLN）技术综述：从理论到实践的深度解析

文章来源：https://www.guyuehome.com/detail?id=1992940596131557377

1. 引言：具身智能时代的空间推理挑战

视觉-语言-导航（Vision-and-Language Navigation, VLN）作为具身人工智能领域的核心研究方向，旨在构建能够理解自然语言指令并在真实三维环境中自主导航的智能体。这一任务的复杂性在于需要同时整合视觉感知、语言理解、空间推理和决策规划等多个认知维度。根据2025年香港科技大学（广州）、南方科技大学和上海交通大学联合发表的综述论文"Multimodal Spatial Reasoning in the Large Model Era"，VLN被认为是通往通用人工智能（AGI）的关键途径之一。该任务不仅要求智能体具备基本的环境感知能力，更需要在模糊的上下文环境中通过多模态信息融合实现精准的空间定位与路径规划。
人类拥有与生俱来的空间推理能力，能够通过视觉和听觉等多模态信息理解空间结构并进行导航。然而，对于人工智能系统而言，这一能力的实现面临诸多挑战。传统的大语言模型（LLM）虽然在文本处理和生成方面取得显著进展，但由于其主要采用单模态设计，空间推理能力受到严重限制。将图像、音频和视频等多模态信息集成到语言模型中，为增强空间推理能力提供了新的机遇。多模态大语言模型（MLLM）的快速发展使其成为具身智能体核心推理模块的理想候选者，这些模型在各种空间任务中展现出良好的性能，从理解二维空间关系到更复杂的三维推理均有涉及。

2. VLN任务的核心定义与组成要素

VLN是一种协作式多模态任务，其中智能体在三维环境中通过遵循人类的自然语言指令进行导航。形式化地说，给定输入 X={ximg,xvid,xpc,xaud,xtext}X={ximg,xvid,xpc,xaud,xtext}（包括RGB图像、视频、点云、音频和语言），在指定的参考系（2D/3D/自我/他人）下，模型需要预测输出 YY，例如文本答案或理由、几何量（边界框、姿态、轨迹），或针对具身环境的可执行动作与规划。这个定义统一了经典的视觉问答（VQA）式查询、三维定位、导航和布局场景生成等多个子任务。
VLN任务包含四个关键组成部分，每个部分都需要强大的空间推理能力支撑。首先是视觉感知阶段，智能体必须确定自身位置，解释物体之间的空间关系，并构建对环境的整体理解。其次是语言理解模块，需要正确解读"左"、"上"和"前"等空间表达，并发展出对物体位置、方向和运动进行空间推理的能力。第三是决策规划环节，智能体需要基于感知和理解的信息规划一条高效的路径。最后是导航执行阶段，智能体基于这些空间决策执行导航规划，并在动态环境中实时调整策略。这四个组成部分相互依赖、紧密耦合，共同构成了VLN系统的完整闭环。

3. VLN中的空间推理类型与能力要求

MLLM中的空间推理涵盖从基本定位到高级场景建模的各个层面。在VLN任务中，主要涉及以下几种空间推理类型。定位与记忆能力要求智能体在二维或三维空间中定位物体相对于其他物体或观察者的位置，并跟踪其随时间变化的状态。关系与几何推理需要智能体理解空间关系（如上方、下方、左侧、右侧）和度量信息（距离、角度、面积、体积）。导航与问题解决能力要求智能体规划路径并优化动作，例如寻找最短路径或解决空间谜题。
模式与透视推理使智能体能够检测模式或对称性并进行跨视角推理，这在处理不同观察角度时尤为重要。变换能力涉及在保持关系的前提下应用旋转、平移和缩放操作。情境化理解要求智能体在环境上下文（例如区分室内房间与室外空间）下解释位置信息。环境建模能力使智能体能够构建用于预测和决策的场景或世界模型。感知与交互能力通过传感器和视觉支持实时空间交互，这些功能共同构成了VLN系统的基础能力框架，支撑着导航、仿真和交互系统等实际应用。

4. VLN的评估方案与基准测试

评估MLLM在VLN任务中的空间推理能力需要考察其准确性、鲁棒性、可解释性和泛化能力。多模态整合维度测试多种模态组合（图像、文本、音频、深度或点云、传感器数据），以评估超越单模态线索的跨模态融合能力。任务覆盖范围需要涵盖视觉问答（VQA）、三维定位、基于地图的导航、具身规划和场景生成，以覆盖低级和高级推理能力。过程透明度通过注意力图、中间状态或推理探究追踪决策过程，以揭示空间关系的编码和操作方式。
泛化能力和鲁棒性评估需要测试分布外环境（新布局、未见过的环境、扰动），以检验模型的适应性。交互与具身测试测量导航、操作和增强现实或虚拟现实场景中的实时性能，包括响应速度和在线更新能力。基准标准化要求提供涵盖受控合成任务和真实场景的可复现测试套件。解决这些方面的问题能够对MLLM的空间推理能力进行全面、可比较的评估，并阐明其在不同应用中的优势和劣势。当前主流的VLN基准测试包括R2R（Room-to-Room）、RxR、REVERIE、TouchDown和CVDN等数据集，这些数据集从不同角度考察智能体的导航能力。

5. VLN中的视觉环境理解与泛化

对于VLN智能体而言，感知和解释周围环境、预测行为如何改变环境以及将感知和决策与自然语言指令保持一致至关重要。这需要理解空间布局、在三维空间中确定自身位置、估计目标和地标之间的距离、保留空间信息以及跟踪环境随时间的变化。这些能力共同依赖于强大的空间推理能力，而强大的空间推理能力是成功完成复杂视觉语言导航任务的基础。现有的具身场景感知方法通常依赖于三维或2.5维数据来增强空间感知。
为了更好地利用视觉输入，许多方法通过多视图感知、深度图像或场景图显式地保留空间特征。多视图感知方法从不同角度捕获环境信息，构建更完整的空间表示。深度图像提供了物体与智能体之间的距离信息，有助于精确的空间定位。场景图则以结构化的方式表示物体及其空间关系，支持高层次的推理。这些方法各有优势，在实际应用中往往需要结合使用以达到最佳效果。准确的感知、稳健的空间推理以及跨不同视觉场景的泛化能力是VLN智能体成功的关键要素。

近期研究强调结构化的三维表示，例如场景图、鸟瞰图（BEV）地图和多视图记忆，作为连接感知、推理和规划的有效工具。场景图通过节点和边的形式表示物体及其关系，提供了一种抽象而结构化的环境表示。BEV地图将三维空间投影到二维平面，简化了空间推理的复杂度同时保留了关键的拓扑信息。多视图记忆机制允许智能体存储和检索不同视角下的环境信息，支持长时程的导航任务。然而，视觉特征与语言输入的匹配仍然是一个关键挑战，尤其是在不熟悉的视角或领域转换的情况下，如何保持跨模态对齐的一致性需要进一步研究。

6. 人类意图解读与指令理解

VLN智能体需要理解人类在特定情境下提供的自然语言指令才能完成导航任务。这包括正确解读空间表达并发展出对物体位置、方向和运动进行空间推理的能力。自然语言指令往往具有模糊性和多义性，例如"走到沙发旁边"这样的指令，“旁边"的具体位置可能因上下文而异。智能体需要结合视觉信息和常识知识来消除这种歧义。此外，指令可能包含多个步骤和条件判断，例如"如果看到红色的门就左转，否则继续直走”，这要求智能体具备复杂的语言理解和推理能力。
近期研究强调了辅助模态、层级推理和可供性（affordance）建模在提升指令理解方面的优势。辅助模态如深度信息、语义分割等可以提供额外的上下文，帮助智能体更准确地理解指令中的空间关系。层级推理将复杂的导航任务分解为多个子任务，每个子任务对应指令中的一个步骤，这种分而治之的策略降低了任务的整体复杂度。可供性建模关注环境中物体的功能属性，例如"椅子可以坐"、“门可以通过”，这种功能性理解有助于智能体更好地解释与物体相关的指令。

多轮视觉问答（VQA）和可供性预测增强了精细化的基础理解能力。通过多轮交互，智能体可以主动询问不明确的指令细节，逐步澄清任务目标。基于注意机制的人机交互融合则有助于上下文理解，智能体可以学习关注指令中的关键词和视觉场景中的相关区域。未来的发展可能依赖于空间感知和语言推理的更紧密结合，以及对不同指令内容和复杂现实任务的更好泛化能力。当前的研究还在探索如何利用大语言模型的常识推理能力来增强指令理解，以及如何通过强化学习让智能体从交互中学习更准确的指令解析策略。

7. VLN智能体的路径规划与导航策略

VLN智能体必须结合感知、推理和规划，才能根据自然语言指令执行目标导向的导航。路径规划是VLN任务的核心环节，直接决定了智能体能否高效地到达目标位置。传统的路径规划方法如A*算法、Dijkstra算法等主要依赖于预先构建的地图和明确的目标位置，而VLN任务中的目标往往是通过自然语言描述的，需要智能体在导航过程中动态地理解和定位目标。这种动态性和不确定性使得VLN的路径规划更具挑战性。
近期研究通过将基于大语言模型（LLM）的规划与空间定位、域自适应和幻觉抑制相结合，增强了VLN智能体的性能。基于LLM的规划利用语言模型强大的推理能力，将自然语言指令分解为一系列可执行的子目标，然后通过局部规划器逐步实现这些子目标。空间定位模块负责将语言描述的位置映射到实际的空间坐标，这通常需要结合视觉接地（visual grounding）技术。域自适应技术使得在仿真环境中训练的模型能够更好地迁移到真实环境，缩小仿真与现实之间的差距。幻觉抑制机制则防止模型生成与实际环境不符的导航决策，提高导航的可靠性。
结构化的空间先验信息进一步支持实时推理。例如，利用建筑物的拓扑结构（房间之间的连接关系）可以帮助智能体更快地规划全局路径。语义地图将环境中的物体按类别标注，使得智能体可以根据指令中的语义信息（如"去厨房"）快速定位目标区域。未来的研究应将空间感知和语言推理相结合，以实现可泛化的低监督导航。当前大多数VLN方法依赖于大量的标注数据进行训练，如何在少量标注甚至无标注的情况下实现有效的导航是一个重要的研究方向。此外，如何让智能体从失败的导航经验中学习，逐步提升导航能力，也是值得探索的问题。

8. 三维空间推理的核心任务

三维空间中的多模态空间推理是一个重要的研究领域，对导航、视觉-语言-动作任务等下游应用具有重要意义。多模态空间推理的基础任务包括三维空间定位、三维场景推理和三维空间生成。这些核心任务在更广泛的三维空间理解领域中发挥着关键作用，为VLN系统提供了必要的空间感知和推理能力。三维空间推理不仅要求模型理解二维图像中的空间关系，还需要将这些关系扩展到三维空间，处理深度、遮挡、视角变化等复杂因素。
https://oss.guyuehome.com/upload/2025/11/242056269732/fbc8975c9a4849f481370a8157fbde73.png

9. VLN中的三维视觉定位技术

给定自然语言描述，三维定位涉及在三维场景中定位物体。这项任务需要强大的空间推理能力来处理复杂的指令，对于机器人和增强现实（AR）至关重要，因为它结合语言理解和三维空间推理。传统的三维定位方法在有限的三维数据集上进行完全监督学习，这些数据集包含预定义的物体描述，但它们难以泛化到未见过的物体，也难以处理复杂的文本。与传统方法不同，研究人员正在开发基于MLLM的方法，通过利用大规模先验信息显著提高泛化能力。

现有的将MLLM嵌入三维定位系统的方法可以根据输入数据模态大致分为三类。第一类方法直接利用三维表示和空间信息，通过将三维格式（例如点云、体素或学习的体特征）嵌入MLLM来进行空间推理。这些方法通过将三维表示嵌入到MLLM中并利用其空间推理能力，专注于三维视觉定位。然而，尽管嵌入三维模态具有巨大的潜力，但也存在挑战。三维数据结构的复杂性会阻碍模型的可解释性，而标记的三维数据集有限可用性限制为开放世界应用开发稳健、通用的模型。
第二类方法从三维场景渲染生成多视角二维图像。虽然三维点云能够提供明确的场景表示，但由于空间信息的复杂性，它们给模型带来了挑战。为了解决这个问题，研究人员越来越多地采用多视图二维表示作为一种很有前景的替代方案。这种方法利用现有二维MLLM的空间推理能力，只需进行最小的修改。代表性的方法包括ViewRefer、VLM-Grounder和3DAxisPrompt。这些工作利用强大的MLLM将二维多视图输入与三维场景对齐。然而，仍存在一些关键挑战：首先，专为全局图像理解设计的MLLM难以解析特定的目标区域。其次，空间感知超越了RGB数据，需要深度或空间坐标等几何信息。
第三类方法结合二维与三维混合输入。为了结合三维和多视图表示的优势，近期的一些方法采用混合输入。这些方法展示仅使用二维或三维表示的局限性，并提出整合两种模态的策略。结合多视角图像和三维结构可以提高三维视觉定位系统的性能和鲁棒性。混合方法能够同时利用二维图像的丰富语义信息和三维数据的精确几何信息，在复杂场景中实现更准确的物体定位。

10. VLN中的三维场景推理与问答

三维场景推理与问答需要能够处理三维表示（例如点云、网格、神经辐射场或多视图RGB-D输入）并生成基于环境空间和语义结构的自然语言响应的模型。目前的研究分为两种范式：需要训练和无需训练。需要训练的方法通常通过Q-Former或投影层模块对MLLM进行微调。无需训练的方法则使用带有渐进提示和链式推理的冻结MLLM。这两种范式各有优势，需要训练的方法能够更好地适应特定任务，而无需训练的方法则具有更好的灵活性和可扩展性。
需要训练的研究可以分为三类。第一类是对齐方法，这些方法侧重于将三维特征与语言模态对齐。通过学习跨模态的映射关系，使得模型能够理解三维空间信息与自然语言描述之间的对应关系。第二类关注训练效率，旨在降低复杂性并提高收敛性。这类方法通过改进训练策略、优化网络结构或使用更高效的学习算法来减少训练时间和计算资源消耗。第三类从传统的三维表示扩展到场景图、三维高斯散射（3DGS）等新型表示方法。场景图提供了一种结构化的方式来表示物体及其关系，而3DGS则能够更高效地表示和渲染三维场景。

为提升MLLM的三维空间推理能力，目前的研究主要集中在模态对齐、训练效率以及探索替代三维表示等方面。然而，挑战依然存在。首先，由于数据和架构的复杂性，训练三维感知模型需要大量的计算资源。三维数据的处理通常比二维图像更加耗时，而且需要更大的内存来存储和处理点云或体素网格。其次，缺乏大型、多样化且标注完善的三维数据集限制监督训练的有效性。与二维图像数据集相比，三维数据的采集和标注成本更高，这导致可用的高质量三维数据集相对稀缺。第三，缺乏透明的推理机制阻碍模型决策的可解释性和理解。当前的深度学习模型往往被视为"黑盒"，难以解释其内部的推理过程，这在安全关键的应用中尤为重要。
无需训练的方法利用MLLM中的先验知识进行多模态空间推理，无需进行微调。这些方法探索了各种提示策略以促进可解释的空间推理。一些研究使用MLLM提取语义目标属性并应用思维链机制，从而提示序列推理。通过将复杂的推理任务分解为一系列简单的步骤，模型能够更系统地处理三维场景理解任务。这些无需训练的方法利用MLLM通过多种提示策略来概括和提炼空间信息。尽管它们取得了成功，但仍存在一些局限性。首先，它们依赖于所用MLLM的质量，而这些模型的缺陷可能会影响其在某些任务上的性能。如果基础模型在空间推理方面存在固有的弱点，那么即使采用精心设计的提示策略也难以完全弥补。其次，一些方法涉及复杂的推理步骤，降低了处理速度，使其不太适合实时应用。在需要快速响应的场景中，如机器人导航或增强现实，这种延迟可能成为实际部署的障碍。

11. 基于空间推理的三维生成与布局

三维生成技术发展迅速，尤其是在LLM和多模态推理系统集成之后。场景级和程序级生成都需要强大的空间推理能力。这些任务可以分为两个方面：三维布局生成和三维程序化生成。三维布局生成根据自然语言或多轮对话生成空间合理的室内布局，而三维程序化生成将三维内容生成视为一个程序化任务，其中空间推理被定义为可执行的程序生成。这两种方法代表了不同的设计哲学，但都依赖于强大的空间推理能力。
鉴于三维场景生成的复杂性，研究人员通常使用多模态语言模型（MLLM）进行初始三维布局生成，然后再进行场景级合成。根据MLLM在布局流程中的集成方式，方法大致可分为两类。第一类是通过LLM直接指导场景合成，MLLM直接生成空间配置或布局指令，将高层描述转换为场景元素的结构化命令，例如家具摆放和房间尺寸。然而，这种直接映射可能会导致不合理的配置，例如物体重叠或违反物理约束。LayoutGPT和HOLODECK等方法通过引入基于优化的求解器或推断空间关系约束来解决这个问题。这些方法在生成初始布局后，使用优化算法调整物体位置以满足空间约束，从而生成更加合理的场景。生成方法的定性比较，展示了几何保真度、纹理质量和语义一致性的差异*
第二类是通过LLM间接指导场景合成，间接指导使用MLLM提取语义知识（例如物体关系或上下文约束）来指导后续的三维建模。这种方法不直接生成物体的具体位置，而是生成高层次的语义关系描述，如"沙发应该面向电视"、"餐桌周围应该有椅子"等。然后，专门的三维建模模块根据这些语义约束生成具体的场景布局。这种分离的设计使得系统更加模块化，也更容易处理复杂的空间关系。可见主要方法要么直接生成位置，要么创建场景图等中间表示。两种范式都利用MLLM来构建语义一致且物理上可行的三维环境。MLLM的未来发展有望提高数值精度和格式化能力，使得生成的场景更加精确和多样化。
将三维生成视为程序化任务是另一个重要的研究方向。基于MLLM代码生成技术的进步（例如Cursor和GitHub Copilot），近期研究将三维合成视为程序化生成，其中几何形状和布局由代码指定。利用MLLM的结构化推理和约束，可以用代码片段描述三维模型。目前的方法主要针对三种输出格式：Blender脚本、CAD参数化程序和网格生成流程。Blender脚本方法生成Python代码来控制Blender软件创建三维场景，这种方法的优势在于可以利用Blender强大的建模和渲染能力。CAD参数化程序方法生成参数化的几何描述，适合工程和制造应用。网格生成流程方法直接生成三维网格数据，适合游戏和虚拟现实应用。
这些研究成果体现MLLM在处理需要深度空间推理、精确几何控制以及与下游工具集成的复杂现实世界任务方面的应用范围不断扩大。虽然直接生成三维模型具有挑战性，但通过编程使用MLLM生成三维内容可以充分发挥其空间推理的潜力。程序化方法的一个关键优势是可控性，用户可以通过修改生成的代码来精确调整场景的各个方面。此外，程序化生成也更易于控制，使其更适合实际应用。生成的代码可以被版本控制、重用和修改，这在工业应用中非常重要。未来的研究方向包括提高代码生成的准确性、支持更复杂的几何约束以及实现交互式的场景编辑。

12. VLN的未来发展方向与挑战

当前VLN研究虽然取得了显著进展，但仍面临诸多挑战。首先是泛化能力的问题，大多数VLN模型在训练环境中表现良好，但在新环境中的性能往往大幅下降。这种泛化能力的缺失限制了VLN系统在真实世界中的应用。未来的研究需要开发更加鲁棒的模型，能够在未见过的环境中进行有效导航。一个有前景的方向是利用元学习或迁移学习技术，使模型能够快速适应新环境。另一个方向是构建更加多样化的训练数据集，涵盖各种不同类型的环境和导航场景。
其次是长时程推理的挑战。当前的VLN系统主要关注短期导航任务，而在需要长时程规划和记忆的复杂任务中表现不佳。例如，在多层建筑中寻找特定房间可能需要智能体记住已经探索过的区域，并在多个楼层之间进行规划。这要求模型具备持久的空间记忆和长期规划能力。未来的研究可以探索如何构建更加高效的空间记忆机制，以及如何将短期反应式导航与长期战略规划相结合。图神经网络和注意力机制可能在这方面发挥重要作用，帮助模型维护和更新环境的拓扑表示。
第三是多模态融合的深度问题。虽然当前的VLN系统已经整合了视觉和语言信息，但这种融合往往是浅层的，未能充分利用不同模态之间的互补性。例如，语言指令中的"左边"、"右边"等方向词应该与视觉观察中的空间布局紧密结合，而不仅仅是通过简单的特征拼接。未来的研究需要开发更加深入的跨模态交互机制，使得不同模态的信息能够在多个层次上相互增强。注意力机制、图神经网络和神经符号推理等技术可能在这方面提供新的思路。
第四是可解释性和可信度的提升。当前的深度学习模型往往被视为黑盒，难以理解其决策过程。在安全关键的应用中，如自动驾驶或医疗机器人，这种不透明性可能导致严重的后果。未来的VLN系统需要提供更加透明的推理过程，使得人类用户能够理解和验证智能体的决策。一些研究已经开始探索可解释的导航模型，例如通过生成自然语言解释或可视化注意力图来展示模型的推理过程。这个方向值得进一步深入研究。
第五是人机协作的增强。在许多实际应用中，VLN系统不是完全自主运行，而是需要与人类用户进行交互。例如，当智能体遇到歧义或不确定性时，应该能够向用户提问以获取澄清。当前的VLN系统在这方面的能力还比较有限。未来的研究可以探索如何构建更加自然和高效的人机交互机制，使得智能体能够主动寻求帮助，并从人类反馈中学习。多轮对话、主动学习和强化学习等技术可能在这方面发挥重要作用。