在具身智能技术从实验室迈向真实世界的关键节点,机器人如何精准理解指令并在复杂环境中自主作业,成为了行业攻克的焦点。6月16日,阿里巴巴正式推出千问具身智能大模型Qwen-Robot系列,为各类机器人提供了一个能够理解自然语言、感知三维环境并掌握物理规律的“通用底座”。
Qwen-Robot系列包含三款核心模型,它们既能独立执行任务,也可以协同运转,构成了千问家族首个完整的具身智能矩阵。
首先是负责核心操作的Qwen-RobotManip。为了解决传统模型在更换机器人平台时性能大幅下滑的痛点,该模型采用了统一的动作表征,并通过海量开源语料完成了超过38000小时的预训练。在第三方权威测评中,其不同版本不仅包揽了任务成功率的前两名,更展现出从基础拧水龙头到双臂倒薯条等复杂高难度任务的突破能力。
其次是赋予机器人“认路”与“跑腿”能力的Qwen-RobotNav。该模型将任务指令理解、目标搜索及自动驾驶等五大导航功能统一在同一框架下。创新性的“任务自适应观察机制”让机器人彻底摆脱了僵化的记忆策略,能够灵活地“边走、边看、边规划”,在复杂的未知空间中高效完成寻物任务。
最后是提升机器人“思维”深度的Qwen-RobotWorld模型。这是一款物理世界模型,它能像运动员预演动作一样,对下一时刻的物理状态和动作进行推演。这不仅能有效弥补训练数据不足的瓶颈,更能让机器人在执行动作前完成轨迹预演,从而确保物理操作的绝对精准。
通过这三大模型的协同,具身智能系统得以将视觉感知、语言理解与动作决策深度融合。随着这一系列模型的发布,机器人执行任务的泛化能力将得到显著增强,这也意味着机器人走入真实生活场景的步伐正进一步加快。
# 具身智能 # Qwen-Robot # 自然语言理解 # 机器人技术
