机器人基座模型与VLA概述¶

AI与机器人发展¶

近十多年深度学习首先在计算机视觉中取得突破，应用于机器人的感知模块。无人车成为最早应用深度学习的机器人场景之一。

AlphaGo 的出现代表深度强化学习的进步，展示了神经网络在复杂连续状态空间中进行决策的能力。但是强化学习在游戏和下棋等任务中表现优异，但在机器人领域的通用性仍然有限。

ChatGPT的出现,虽然不是机器人专用模型，但其强大的通用性展示了 AI 可以具备跨任务、跨模态的泛化能力。为构建通用机器人模型带来了希望。

这一次机器人革命的不同¶

大语言模型的通用性和强大推理能力为机器人提供了新的“大脑”基础。自2023年下半年起，大语言模型开始辐射到机器人领域，成为推动新一轮热潮的关键力量。

传统机器人高度专业化，需要针对不同任务需要开发不同的机器人硬件和软件，无法规模化。并且出货量低，即使是最成功的工业机器人公司，其产品规模也无法与手机、汽车等消费级产品相比。

人形机器人有通用本体，具有适应多种任务的潜力，是实现通用机器人的关键方向。然后形态统一，避免了针对每个任务重新设计机器形态的需求。

如今技术路线逐渐收敛，越来越多的研究者和创业者倾向于采用统一的架构，如 VLA模型。但仍在探索最佳的技术路径和应用场景。

VLA 是 Vision（视觉）、Language（语言）、Action（动作）的统一体，代表一种融合多模态输入输出的通用机器人模型。
- Vision：处理图像、视频等视觉信息。
- Language：理解并生成自然语言指令或描述。
- Action：输出具体的物理动作，驱动机器人执行任务。
端到端模型：
- 强调统一架构，无需中间模块分割，直接从输入到输出进行梯度回传。
- 可以 scale（扩展）和泛化（适应多种任务）。
模态扩展性：
- 虽然命名只有 VLA（Vision-Language-Action），但实际希望整合更多模态（如触觉、声音等）。
- 目标是构建一个统一的“通感”模型，像人一样具备综合感知与行动能力。

LAM（Language-Action Model）：
- 最初阶段为纯语言模型，仅处理文本信息。
VLM（Vision-Language Model）：
- 加入视觉模态，形成视觉+语言的联合理解能力。
VLA（Vision-Language-Action Model）：
- 在 VOM 基础上加入 Action 模态，使模型具备执行物理动作的能力。
- 成为当前研究的核心方向，被认为是实现通用机器人的关键一步。
最核心问题：可扩展的模型架构（Scalable Architecture）
- 现有模型尚未找到真正能 scale 到复杂任务的架构。
- 需要设计出能够持续提升性能、适应不同场景和任务的统一模型。

构建 VLA 模型本身既是一个科学问题，涉及认知、学习机制的理解。而在实现该模型的过程则是工程问题，包括数据收集、训练策略、硬件适配等。

人就是一个标准的通用 VOA 模型

具备视觉、语言、动作的集成能力，能灵活应对各种环境和任务。
因此，VOA 的最终形态应类似 AGI（通用人工智能），即具备类人智能的机器人系统。

基座模型（Foundation Model）的兴起¶

核心理念：使用大规模多模态数据预训练统一大模型
优势：
通过 fine-tuning 或 prompt 直接应用于多种任务
实现了"大脑"的统一
显著提升泛化能力和效率

目前主流做法仍属"专用模型"

典型代表：阿罗哈（Aloha）、URT、U20 等机器人
特点：
- 每个本体 + 每个任务使用独立模型
- 类似早期 AI 的"小模型+专用开发"模式
- 虽比传统编程更先进，但仍不具备通用性

构建统一的"机器人大脑"¶

目标：将 Vision（视觉）、Language（语言）、Action（动作）三大模态统一建模
特性：
- 端到端训练，直接输入指令 → 输出动作
- 支持 zero-shot 泛化，适应新任务、新本体
- 可扩展至其他模态（触觉、声音等），形成"通感"模型

VLA 的技术演进路径¶

第一阶段：借用已有模型

方法：利用现有 VLM（视觉语言模型）或 LLM（语言模型）作为组件
示例：用 ChatGPT 规划任务步骤，结合传统控制方法执行
评价：方法简单但效果有限，无法实现真正端到端控制

第二阶段：端到端预训练

核心：构建专门面向机器人的 VLA 模型
数据：使用大量机器人操作数据进行预训练
能力：支持跨任务、跨本体的泛化能力
代表：RT-1、RT-2、Open-VLA、GR-1 等

第三阶段：引入世界模型与强化学习

世界模型：
- 加入对未来状态的预测能力
- 提升理解环境变化的能力
- 帮助做出更合理的动作决策
强化学习：
- 基于 RL 的 fine-tuning
- 提高复杂任务下的性能上限

规划层的语言模型替代¶

功能：用 LLM 替代传统任务规划模块
过程：自然语言描述任务 → 拆解成具体步骤
示例：让机器人做咖啡，LLM 自动拆分为抓杯子、倒水、加粉等步骤

感知层的 VLM 替代¶

功能：用 VLM 替代传统视觉识别模块
优势：
- 可处理各种物体、场景，无需特定模型
- 支持零样本识别（zero-shot）
- 提供动态反馈能力

执行层的动作生成¶

技术方案：Diffusion Policy、ACT（Action Chunking Transformer）等
能力：
支持长序列动作、精细操作
在仿真和真实环境中均有良好表现

当前主流方法与代表性工作¶

1. SayCan¶

使用 LLM 规划任务步骤，结合传统感知与控制模块执行。
优势：可以处理复杂逻辑推理任务。
缺点：不是端到端训练，无法实时反馈修正。

2. Inner Monologue（内心独白）¶

引入环境反馈机制：
- 执行动作后观察结果，根据反馈进行推理和修正。
- 类似人类的“思考—行动—反馈—再思考”过程。
模拟人类认知闭环，提升任务成功率。

3. DoReMi(仿真+人形机器人)¶

DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment

在 Inner Monologue 基础上进一步改进：
- 加入更及时的反馈机制（约 10Hz）。
- 使用 VOM 作为 detector，实时监测任务执行状态。
- 发现异常时立即重新规划，避免浪费时间。
示例：箱子掉落 → 立即检测并重新拾取，而非等到终点才发现失败。

方法	核心思想	是否端到端	是否支持反馈修正	是否支持泛化
SayCan	LLM 规划 + 控制模块执行	否	有限	一般
Inner Monologue	动作 + 反馈 + 推理	否	是	较好
DoReMi	实时反馈 + VOM + LLM	是	强	强

实时反馈机制

使用 VLM 实时观测任务执行状态。及时发现错误并进行重规划，提高执行效率。

LLM + VLM 协同工作

LLM 负责高层推理与规划。
VLM 负责环境感知与状态判断。
两者协同，模拟人类“思考 + 观察”的决策过程。

强化学习增强

在模仿学习基础上引入 RL（如 PPO）进行 fine-tuning。
提升模型在复杂任务中的性能上限。
需要特殊处理以避免训练不稳定问题。

VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

李飞飞团队提出的 “VoxPoser”，利用 VLM 获取空间信息，LLM 进行任务推理，共同生成可执行的控制程序

自动化 Action 的尝试与代表性工作¶

传统方法的局限性

早期机器人动作策略依赖人工编程或预定义规则。
即便使用了部分学习方法，也往往需要人为设计特征或选择模型。

借助 LLM/VLM 实现自动编码

利用 LLM 的程序生成能力，将自然语言指令直接转化为可执行的机器人控制代码。
- VoxPoser：通过 VLM 感知空间结构，LLM 推理任务逻辑，生成包含 affordance map 和 constraint map 的程序代码，用于机械臂避障与操作。
- Code as Policy：将 LLM 生成的代码作为机器人策略，实现端到端控制。
- 微软 ChatGPT 控制机器人实验（2023年）：利用 GPT-3.5 或 GPT-4 生成机器人控制脚本。

优势与挑战 - 优势：显著降低了对人工编程的依赖，提升了任务灵活性。 - 挑战： - 生成代码的稳定性与安全性问题。 - 对真实世界物理规律建模不足，可能导致行为不合理。 - 无法完全替代机器人自身的具身认知能力。

迈向真正通用机器人模型的两条路径¶

第一类路径：基于现有 Foundation Model 的扩展应用
- 直接调用 LLM/VLM，配合已有工具链（如运动规划、感知模块）完成任务。
- 属于“拼接式”方案，不重构模型架构。
- 优点：开发成本低，见效快。
- 缺点：泛化能力有限，缺乏真正的机器人“具身智能”。
- 目前的工作大多聚焦于此
第二类路径：重新训练/微调专为机器人设计的大模型
- 构建专门面向机器人的基础模型（Robot-centric Foundation Model）。
- 模型架构需考虑多模态输入（视觉、语言、动作）、时序建模、物理约束等。
- 需要大量机器人交互数据进行预训练。
- 优点：具备更强的泛化能力与适应性。
- 缺点：技术门槛高，数据获取困难，训练成本大。

难点：

模型架构设计
- 如何融合语言、视觉、动作等多种模态？
- 如何建模时间序列与物理交互？
- 是否采用 Transformer 架构？还是引入新的神经网络结构？
数据收集与标注
- 机器人交互数据难以大规模采集。
- 需要构建统一的数据格式标准（如：观测 + 动作 + 奖励 + 语言指令）。
算法与训练方法
- 如何在有限数据下实现有效训练？
- 如何结合强化学习、模仿学习、离线学习等方法？
- 如何解决模拟到现实（Sim2Real）的迁移问题？
系统集成与工程落地
- 如何将大模型嵌入机器人系统？
- 如何保证实时性与安全性？
- 如何实现人机协同与安全控制？