菲利信研究院 | 训练具身智能的数据类型-菲利信-全国领先的人工智能大数据服务商

显然，数据是机器智能的养分。训练具身智能所需的数据类型自然便是多模态、多来源、多用途、多格式的，覆盖着从感知、决策、执行的全链路需求，其核心目标是让机器感知环境、执行任务，最终达到能与人类沟通、并适应各类场景的目标。

随着机器人技术的快速涌现，数据的多样性、真实性、标准化已成为关键要素。多样性确保了机器人能适应不同场景，真实性确保了机器人能学习到现实世界的规律，标准化确保了数据能在不同机器人、不同场景中共享。

随着合成数据、多模态融合技术、数据共享平台的进一步发展，机器智能所需训练数据的数量与质量将不断提升，加快推动机器人从实验室走向真实世界。下面，从模态、来源、用途、格式四大维度来解析具身智能所需数据的基本类型。

1、数据模态类

机器人感知世界的能力依赖多模态数据的输入，不同模态的数据对应其对环境的感知维度。

视觉数据：机器人通过摄像头、激光雷达、深度相机等设备采集的图像、点云、深度信息、以及公开数据集的选用，用于环境识别、物体检测定位、语义分割、场景导航。例如，工业机器人通过视觉数据识别工件的位置、形状；服务机器人通过视觉数据感知人类诸如挥手、指向等动作的意图。

触觉数据：通过电子皮肤、触觉传感器等方式采集的表面纹理、压力分布、硬度等不同维度的物理数据，用于精准抓取的力控调整，如抓取易碎品、缝合伤口等不同对象，提升机器人的触觉感知能力。

力觉数据：通过在机器人手部、足底、关节部署触觉传感器、扭矩传感器，实时抓取行走、触摸动作中的关节扭矩、接触力、足底压力、物体接触刚度等信息，用于步态稳定性调整、人机安全交互（避免过度施力）等运动控制。例如，人形机器人通过力觉数据调整行走时的重心，避免摔倒；工业机器人通过力觉数据控制抓取力度，防止损坏物体。

音频数据：通过麦克风等拾音设备采集的环境声音（如警报声、故障声、脚步声、门铃声、警报声等）、人类语音、语感等信息，用于语音指令识别、环境声音预警、人机语音对话等。如，服务机器人通过语音数据理解用户指令（如“请拿一杯水”）；工业机器人通过音频数据监测设备运行状态。

本体感知数据：通过惯性测量单元、编码器、导航定位等方式采集关节角度、速度、加速度，本体位置、姿态和电机电流等数据，用于判断自身姿态、运动状态，避免关节过载或摔倒，以实现运动规划、平衡控制等。

2、数据来源类

具身智能的经验积累来自不同来源的数据。真实数据提供现实场景中的反馈，而虚拟数据则解决数据量与多样性的限制。

真机数据：机器人在真实场景中执行任务、自主试错时所采集的数据，如工业机器人的抓取动作、服务机器人的导航轨迹等方面的数据。通过强化学习优化动作策略，提升复杂场景下的运动鲁棒性，这是机器人训练的黄金数据。其特点是高价值、但采集成本高，必须通过真机遥操、自主执行任务获取。

仿真数据：这是对真实数据的低成本补充，由仿真平台生成，用于大规模预训练和极端场景训练，往往是解决真实数据采集瓶颈的关键。通过数字孪生、物理引擎生成的虚拟场景数据，如虚拟机器人的关节运动轨迹、虚拟摄像头生成 RGB 图像、深度图、虚拟传感器的力觉数据、极端场景动作数据（如湿滑路面行走、重物碰撞），以模拟极端环境、危险任务、长尾场景。其特点是成本低、可控性好，可解决真机采集的场景局限问题。

演示数据：通过示教学习，让机器人快速习得人类的动作。这需要人类操作时的动作、语音、决策等方面的数据，如人类抓取物体的动作、语音指令，用于模仿学习诸如通过人类动作视频训练机器人的动作生成模型。往往是通过人类穿戴动作捕捉设备来完成动作、人工操控机器人复现动作并记录参数、采集数据，训练机器人的动作控制模型。

3、数据用途类

具身智能的智能行为高度依赖不同用途的数据。比如，感知数据用于理解环境，控制数据用于执行任务，交互数据用于与人类沟通，场景数据用于适应环境。

感知数据：用于机器人感知环境的数据，如视觉、触觉、力觉、音频数据，帮助机器人识别物体、障碍物、人类意图。例如，工业机器人通过感知数据判断工件的位置、形状，调整抓取策略；服务机器人通过感知数据识别用户的手势、语音，提供相应的服务。

控制数据：是用于机器人执行任务的数据，如关节运动轨迹、力控指令、运动规划数据，帮助机器人实现精准控制，比如机械臂的精密装配、人形机器人的平衡行走；工业机器人通过控制数据调整关节角度，实现零件的精准组装；人形机器人通过控制数据调整步态，适应不同地形。

交互数据：这类数据用于训练服务型人形机器人的自然交互能力，适配不同用户的行为习惯和需求，帮助机器人理解人类需求，识别人类的多模态指令、偏好数据，理解交互意图，能够自然交互，实现如服务机器人的陪伴功能、医疗机器人的问诊功能。包括语音指令文本、手势动作数据（如挥手、指向）、文本指令数据、指令意图标签。服务机器人通过语音数据理解用户的情感状态（如悲伤、开心），提供相应的反馈；医疗机器人通过手势数据识别医生的操作指令。

场景数据：用于机器人适应具体应用场景的数据，如家庭、工业、医疗、农业等场景的空间布局、物体属性、任务流程方面的数据，帮助机器人理解场景特点，优化任务策略。例如，家庭机器人通过场景数据学习客厅的布局（如沙发、电视的位置），优化导航轨迹；工业机器人通过场景数据学习生产线的布局（如工件的位置、设备的位置），优化抓取策略。

4、数据格式类

机器人的数据处理依赖格式规范的数据，多模态融合数据用于整合多感官信息，时序数据用于捕捉动态变化。

多模态融合数据：将视觉、触觉、力觉、音频等不同模态的数据整合，形成对环境的全面理解。例如，机器人抓取物体时，融合视觉数据（物体的位置、形状）、触觉数据（物体的表面纹理、硬度）、力觉数据（接触力、扭矩），才能实现对物体的精准抓取。

时序数据：也就是记录机器人动作、环境变化的时间序列数据，用于捕捉动态的变化信息（机器人的行走轨迹、物体的移动轨迹）。对于人形机器人，行走数据就是时序数据（每一步的关节角度、速度），可用于优化步态规划；对于工业机器人，抓取数据就是时序数据（抓取过程中的力觉变化、视觉变化），能用于优化抓取策略。

公司

菲利信研究院 | 训练具身智能的数据类型