MaskedMimic-Manipulator

🚧 本文档还在建设中

MaskedMimic-Manipulator

本项目 MaskedMimic-Manipulator 是一种构建在 MaskedMimic 框架上的 端到端人形操控系统,目标是利用深度网络自动生成自然、可控且物理一致的人体运动,实现对物体的灵巧操作。


一、概述

1.1 特点

与传统使用物理引导、逆运动学或手工设计控制器的管线不同,本项目强调:

1. 真正的端到端控制(End-to-End Control)

在训练中,梯度可以从控制输出端一路反向传播回观测输入端,因此整个策略:

2. 基于 VAE 的动作风格潜变量(Natural Motion Latent)

为了避免出现常见的“奇怪手势”“僵硬动作”“错误补全姿态”等问题, 项目采用 VAE(Variational Autoencoder)结构来学习人体自然动作风格:

优点:

3. 稀疏控制能力:只指定部分关节,其余由神经网络自适应补全

在远程控制(teleoperation)或 VR 输入中,常见情况是:

本项目支持:

✔ 只指定部分关节(例如:头 + 双手),其余身体动作由策略自适应生成

这是端到端 + VAE 结构的联合优势,使得系统可以:

也非常适合未来扩展为遥操作机械人或全身 teleoperation。

1.2 与相关工作的关系

本项目基于 MaskedMimic 的开源代码实现,研究目标与 NVIDIA 最新提出的 MaskedManipulator 有部分重叠,但二者在实现方式与训练目标上并不完全相同。由于 MaskedManipulator 也是在 MaskedMimic 基础上扩展,因此两者在能力和框架上会有一定相似性,这是方法路线上的自然结果,而非直接参考其实现。

相同点

不同点

不足之处


二、效果展示

一个统一的 MaskedManipulator 控制器可以在不同条件(输入形式)下工作,从而生成丰富多样的行为。
下面我们按照网页结构,把几个典型应用场景拆分成小节展示。

1. 运动跟踪(Motion Tracking)

在这种设置中,策略接收一组目标关节的位置 / 朝向(可以是全身,也可以是部分),
目标是生成一段物理上合理的全身动作,使其尽可能符合这些约束。

常见应用包括:

全身跟踪(Full-body Tracking)

给定完整的动作捕捉序列,我们的方法可以在物理仿真中重建出与之匹配、
同时又保持动态合理的全身运动。

<!-- 全身运动跟踪示例视频 -->
<div align="center">
  <video controls width="640">
    <source src="full_body_tracking.mp4" type="video/mp4" />
    您的浏览器不支持 video 标签。
  </video>
</div>

2. 稀疏跟踪(Sparse Tracking)

在稀疏跟踪场景中,策略只接收到部分关节物体的位置信息
依然需要生成与这些约束相一致的全身动作。

一个典型例子是 VR 场景下:

系统需要补全身体、腿部、躯干等的动作,使得整体看起来自然、合理。

远程操作(Teleoperation)

在只提供头、手以及物体约束的情况下,
MaskedManipulator 仍然能够生成自然的全身动作,
实现类似 VR 远程操控中的“从稀疏跟踪推断全身行为”的能力。

<!-- 稀疏跟踪 / 远程操作示例视频 -->
<div align="center">
  <video controls width="640">
    <source src="sparse_tracking_teleoperation.mp4" type="video/mp4" />
    您的浏览器不支持 video 标签。
  </video>
</div>

3. 物体目标(Object Goals)

在这一类任务中,策略会被告知未来某个时间点物体应该处于的位置 / 姿态
控制器的目标是在指定时间内,将物体移动到对应的目标状态。

这类设置可以看作是一种目标导向的操控

<div align="center">
  <video controls width="640">
    <source src="object_goal_manipulation.mp4" type="video/mp4" />
    您的浏览器不支持 video 标签。
  </video>
</div>

4. 生成行为(Generative Behavior)

在第三种设置中,MaskedManipulator 不再接收任何显式约束

策略只需要根据当前场景中的物体,生成自然的全身互动行为——
例如站在桌前,会自动做出触碰、把玩、整理等动作。

<div align="center">
  <video controls width="640">
    <source src="generative_behavior_1.mp4" type="video/mp4" />
    您的浏览器不支持 video 标签。
  </video>
</div>

四、未来待改进点

1. sim2real

本项目的策略网络采用基于 VAE 的结构,通过 Encoder 将高维观测压缩为一个 高层次动作隐变量(latent),用于表达抓取动作的意图、风格与时序结构。这种结构不仅能够提升模仿学习的稳定性,也为后续的 sim-to-real 改进提供了良好扩展性。

在未来的版本中,VAE 的 latent 将进一步 因子化(factorize)为两个独立子空间: (1)动作风格 latent:捕捉抓取行为的高层指令与风格,使策略在不同动力学条件下仍保持一致的动作结构; (2)动力学适应 latent:用于表示真实环境与仿真环境之间的动力学差异(如摩擦、质量、惯量、关节响应、传感器噪声等)。该 latent 可以通过 domain randomization 或在线系统辨识模型实时估计,从而让策略能在真实机器人上自动适应动力学偏移。

通过这种 “动作意图 + 动力学差异” 的分离式 latent 结构,策略将具备更强的跨域泛化能力,是通向稳定 sim-to-real 的关键一步。

五、相关参考

  1. MaskedMimic- Unified Physics-Based Character Control Through Masked Motion Inpainting
  2. PULSE -UNIVERSAL HUMANOID MOTION REPRESENTATIONS FOR PHYSICS-BASED CONTROL