
“恐怖谷” 不再是仿生机器人的魔咒!凭借仿生机器人视频走红全网、播放量破亿的博主 “U 航”—— 胡宇航博士,再次交出硬核成绩单。

2026 年 1 月 14 日,由他主导研发的仿生机器人脸 Emo,登上国际顶级期刊《Science Robotics》开年首期封面。这项突破,让机器人终于能像人类一样 “张嘴说话”,实现唇形与语音的实时精准同步。
公开资料显示,这已是胡宇航博士在读期间发表的第三篇顶刊论文。此前,他的研究成果曾先后入选 2024 年《Science Robotics》、2025 年《Nature Machine Intelligence》。深耕机器人自主学习与自我建模领域的他,已创立首形科技,收获多家顶级投资机构青睐。
这位毕业于美国哥伦比亚大学的青年学者,始终致力于赋予机器人 “自我模型” 能力。简单来说,就是让机器人能构建自身物理结构与运动的内部表征,以此更好适应多变形态、环境与任务。在仿生人机交互方向,他提出融合语音、视觉与动作的情绪理解表达一体化系统,借助自监督学习机制,让机器人无需人工干预就能持续提升人机互动质量,朝着具备终身学习能力的智能体稳步迈进。
一直以来,生成式 AI 给机器人装上了聪明的 “大脑”,但物理层面的短板却格外显眼:能吟诗作赋的 AI,搭载到人形机器人身上后,开口说话时却像蹩脚的腹语表演者,唇形和语音严重脱节。
胡宇航团队的研究,正是瞄准了这一行业痛点,给出了软硬件结合的全新解决方案。
传统机器人面部表情僵硬,核心症结在于机械结构的局限,刚性连杆根本无法模拟人类面部肌肉的复杂形变。团队彻底摒弃传统线驱动结构,为机器人打造了一套拥有 10 个自由度的专用唇部驱动机制,全脸自由度更是达到 25 个。
这套精巧的机械结构,被隐藏在一层可快拆的柔性硅胶 “皮肤” 之下,能同时驱动上唇、下唇、嘴角和下颌协同运动。这一设计,让机器人物理层面实现了闭唇音、圆唇音乃至复杂撮唇动作,为后续算法落地提供了坚实的硬件支撑。值得一提的是,硅胶皮肤采用磁吸式快拆连接器,既能精准定位,又能传递双向动力,日常维护或更换个性化面容都十分便捷。机器人底座还集成了英伟达 Jetson AGX 边缘计算单元,保障实时数据处理。
算法核心:
FAT 模型让机器人 “自学” 唇语同步
有了灵活的 “嘴”,如何让 10 个电机精准配合任意一段音频?团队没有采用 “听到 A 音做 B 动作” 的传统编程思路,而是搭建了一套自监督学习管线,让机器人学会 “自我观察、自我优化”。其核心是基于 Facial Action Transformer(FAT)的自监督学习框架,采用独特双路输入设计保障动作连贯:左侧编码器处理历史电机指令,捕捉动作的时间连贯性;右侧解码器接收视觉特征数据,规划当下和未来的口型。
两者结合,精准输出电机控制信号,既实现音唇高度同步,又消除机械抖动,让口型过渡更平滑。整个学习过程分为三步:首先通过算法将音频转化为数字视频,让机器人构想 “完美说话的样子”;再用变分自编码器将视觉图像压缩为高维潜变量;最后由 FAT 模型充当 “翻译官”,结合音频信号和视觉潜变量,直接输出电机运动指令。机器人还能通过摄像头对比 “理想状态” 和 “实际表现”,不断优化控制策略。
实验数据显示,该系统的唇形同步误差远低于传统音频振幅驱动方法。更令人惊叹的是它的泛化能力:即便未针对特定语言微调,机器人也能实现中文、日语、俄语、希伯来语等 11 种语言的唇形同步。面对 AI 生成歌曲,它同样能跟随旋律歌词,做出流畅的演唱口型。这意味着,系统捕捉到的是人类发音与面部肌肉协同的底层规律,而非简单的记忆复刻。
从实验室的技术突破,到产业落地的萌芽,胡宇航与首形科技的探索,正直击人形机器人发展的核心挑战。当大语言模型解决了机器人 “说什么” 的问题,这项技术则攻克了 “怎么说” 的难题。未来,随着技术进一步突破,人形机器人或许将真正拥有生动细腻的表情,实现与人类的眼神、情感共鸣,开启具身智能的微表情时代。