
当机器人需要在医院跨楼层运送物资、在写字楼完成多楼层配送、在家庭里执行跨空间家务时,这些长时程、跨楼层的真实任务,正是具身智能走向落地的核心考验。但长期以来,行业研究场景仍停留在 “单层样板间”,与复杂现实需求存在显著断层。
近日,由智元机器人牵头,联合清华大学、麦吉尔大学共同完成的研究成果 MANSION 成功入选 CVPR 2026。这是全球首个面向整栋建筑的语言驱动多楼层 3D 场景生成框架,为具身智能打造了关键 “数字试验场”,彰显中国机器人技术的前沿实力。
突破行业痛点:
从 “单层样板间” 到 “整栋楼宇” 的跨越
近年来,机器人的感知、操作、导航能力快速提升,但场景基准测试却严重滞后:
- 现有合成环境多为单层布局,缺少楼梯、电梯、跨层连接等关键结构;
场景研究的 “样板间时代”,已成为制约具身智能走向现实的核心瓶颈。构建可交互、可配置、贴近真实的楼宇级研究平台,成为行业迫切需求。
为此,团队创新推出 MANSION 混合框架,融合多模态大模型与几何求解器,实现从自然语言指令到完整多楼层 3D 建筑的端到端生成。
区别于简单的房间拼接,MANSION 从建筑全局逻辑出发:先规划整栋楼的功能分区、垂直交通与整体风格,再逐层生成拓扑结构与房间布局,通过几何求解生成符合物理约束的平面图,最终输出可直接在仿真器中运行的交互式 3D 场景。从源头保证了楼梯、电梯、跨层结构的对齐合理,让生成的建筑连贯可用。
基于该框架,团队同步发布 MansionWorld 数据集:包含 1000 + 栋多楼层建筑(2-10 层)、10000 + 房间,覆盖住宅、办公、医院、学校、商超等全场景,支持导出至 Blender、NVIDIA Isaac Sim 等主流平台,全面赋能全球具身智能研究。
打通跨楼层任务全链路:
打造下一代具身智能 “真实测试场”
MANSION 不仅能 “生成楼宇”,更能让机器人 “顺畅跑起来”。
团队升级了 AI2-THOR 模拟器,集成楼梯、电梯等核心资产,并推出高级原子技能 API,封装了跨场景切换与状态管理能力,实现楼层间无缝跳转、精准落位,可轻松完成跨楼层取物、运送等长链任务。
在此基础上,团队进一步提出任务语义场景编辑智能体,可根据任务指令快速调整场景环境,实现 “一栋楼多用”,大幅提升场景复用率与研究效率。
基准测试结果显示:当任务扩展至跨楼层、长时程复杂环境后,现有顶尖具身智能体性能出现显著下降,直接暴露了空间推理、长期规划、记忆能力等核心短板。
MANSION 的核心价值,正是为全球研究者提供首个标准化楼宇级测试平台,让机器人在更真实的复杂环境中探索空间理解、记忆规划、长期任务能力,成为下一代具身智能技术突破的关键基石。实验证明,MANSION 生成的场景在布局合理性、真实性、可用性上均表现优异。
登顶 CVPR 2026:
重新定义具身智能研究方向
CVPR 是计算机视觉领域全球顶级学术会议,MANSION 的入选,标志着学术界对这项工作创新性与产业价值的高度认可。
从单层到多层、从静态到可编辑、从 “仿真场景” 到 “真实任务世界”,MANSION 不仅是一次技术突破,更重新定义了具身智能的研究方向 —— 让技术扎根真实需求,服务产业落地。
未来,智元机器人将持续深耕具身智能核心技术,开放 MansionWorld 数据集与生态能力,携手全球产学研伙伴,推动通用机器人走进楼宇、家庭、医院、商场等复杂现实场景,以持续创新打造中国机器人的全球技术名片。