当前位置：会议论坛 > 正文

刷屏全网的仿生机器人有多牛？博士团队攻克 “说话脸” 难题，成果登《Science Robotics》封面

发布日期：2026/01/22

“恐怖谷” 不再是仿生机器人的魔咒！凭借仿生机器人视频走红全网、播放量破亿的博主 “U 航”—— 胡宇航博士，再次交出硬核成绩单。

2026 年 1 月 14 日，由他主导研发的仿生机器人脸 Emo，登上国际顶级期刊《Science Robotics》开年首期封面。这项突破，让机器人终于能像人类一样 “张嘴说话”，实现唇形与语音的实时精准同步。

公开资料显示，这已是胡宇航博士在读期间发表的第三篇顶刊论文。此前，他的研究成果曾先后入选 2024 年《Science Robotics》、2025 年《Nature Machine Intelligence》。深耕机器人自主学习与自我建模领域的他，已创立首形科技，收获多家顶级投资机构青睐。

这位毕业于美国哥伦比亚大学的青年学者，始终致力于赋予机器人 “自我模型” 能力。简单来说，就是让机器人能构建自身物理结构与运动的内部表征，以此更好适应多变形态、环境与任务。在仿生人机交互方向，他提出融合语音、视觉与动作的情绪理解表达一体化系统，借助自监督学习机制，让机器人无需人工干预就能持续提升人机互动质量，朝着具备终身学习能力的智能体稳步迈进。

一直以来，生成式 AI 给机器人装上了聪明的 “大脑”，但物理层面的短板却格外显眼：能吟诗作赋的 AI，搭载到人形机器人身上后，开口说话时却像蹩脚的腹语表演者，唇形和语音严重脱节。

胡宇航团队的研究，正是瞄准了这一行业痛点，给出了软硬件结合的全新解决方案。

硬件重构：

给机器人一张 10 自由度的 “嘴”

传统机器人面部表情僵硬，核心症结在于机械结构的局限，刚性连杆根本无法模拟人类面部肌肉的复杂形变。团队彻底摒弃传统线驱动结构，为机器人打造了一套拥有 10 个自由度的专用唇部驱动机制，全脸自由度更是达到 25 个。

这套精巧的机械结构，被隐藏在一层可快拆的柔性硅胶 “皮肤” 之下，能同时驱动上唇、下唇、嘴角和下颌协同运动。这一设计，让机器人物理层面实现了闭唇音、圆唇音乃至复杂撮唇动作，为后续算法落地提供了坚实的硬件支撑。值得一提的是，硅胶皮肤采用磁吸式快拆连接器，既能精准定位，又能传递双向动力，日常维护或更换个性化面容都十分便捷。机器人底座还集成了英伟达 Jetson AGX 边缘计算单元，保障实时数据处理。

算法核心：

FAT 模型让机器人 “自学” 唇语同步

有了灵活的 “嘴”，如何让 10 个电机精准配合任意一段音频？团队没有采用 “听到 A 音做 B 动作” 的传统编程思路，而是搭建了一套自监督学习管线，让机器人学会 “自我观察、自我优化”。其核心是基于 Facial Action Transformer（FAT）的自监督学习框架，采用独特双路输入设计保障动作连贯：左侧编码器处理历史电机指令，捕捉动作的时间连贯性；右侧解码器接收视觉特征数据，规划当下和未来的口型。

两者结合，精准输出电机控制信号，既实现音唇高度同步，又消除机械抖动，让口型过渡更平滑。整个学习过程分为三步：首先通过算法将音频转化为数字视频，让机器人构想 “完美说话的样子”；再用变分自编码器将视觉图像压缩为高维潜变量；最后由 FAT 模型充当 “翻译官”，结合音频信号和视觉潜变量，直接输出电机运动指令。机器人还能通过摄像头对比 “理想状态” 和 “实际表现”，不断优化控制策略。

性能惊人：

跨 11 种语言零压力同步

实验数据显示，该系统的唇形同步误差远低于传统音频振幅驱动方法。更令人惊叹的是它的泛化能力：即便未针对特定语言微调，机器人也能实现中文、日语、俄语、希伯来语等 11 种语言的唇形同步。面对 AI 生成歌曲，它同样能跟随旋律歌词，做出流畅的演唱口型。这意味着，系统捕捉到的是人类发音与面部肌肉协同的底层规律，而非简单的记忆复刻。

从实验室的技术突破，到产业落地的萌芽，胡宇航与首形科技的探索，正直击人形机器人发展的核心挑战。当大语言模型解决了机器人 “说什么” 的问题，这项技术则攻克了 “怎么说” 的难题。未来，随着技术进一步突破，人形机器人或许将真正拥有生动细腻的表情，实现与人类的眼神、情感共鸣，开启具身智能的微表情时代。

刷屏全网的仿生机器人有多牛？博士团队攻克 “说话脸” 难题，成果登《Science Robotics》封面

发布日期：2026/01/22

重点推荐