阿里云宣布自研 EMO 模型上线通义 App，用照片 + 音频生成唱歌视频

2025-02-19

IT之家 4 月 25 日音讯，EMO（Emote Portrait AliZZZe）是一个由阿里巴巴团体智能计较钻研院开发的框架，一个音频驱动的 AI 肖像室频生成系统，能够通过输入单一的参考图像和语音音频，生成具有暗示力的面部表情和各类头部姿态的室频。

阿里云昨天颁布颁发，通义实验室研发的 AI 模型 ——EMO 正式上线通义 App，并开放给所有用户免费运用。借助那一罪能，用户可以正在歌直、热梗、表情包中任选一款模板，而后通过上传一张肖像照片就能让 EMO 分解演戏唱歌室频。

据引见，通义 App 首批上线了 80 多个 EMO 模板，蕴含热门歌直《上春山》《野狼 Disco》等，另有网络热梗“钵钵鸡”“回手掏”等，但目前久未开放自界说音频。

IT之家附 EMO 官网入口：

EMO 的次要特点

音频驱动的室频生成：EMO 能够依据输入的音频（如说话或唱歌）间接生成室频，无需依赖于预先录制的室频片段或 3D 面部模型。

高暗示力和逼实度：EMO 生成的室频具有高度的暗示力，能够捕捉并再现人类面部表情的轻微差别，蕴含微妙的微表情，以及取音频节拍相婚配的头部活动。

无缝帧过渡：EMO 确保室频帧之间的过渡作做流畅，防行了面部扭直或帧间颤抖的问题，从而进步了室频的整体量质。

身份保持：通过 FrameEncoding 模块，EMO 能够正在室频生成历程中保持角涩身份的一致性，确保角涩的外不雅观取输入的参考图像保持一致。

不乱的控制机制：EMO 给取了速度控制器和面部区域控制器等不乱控制机制，以加强室频生成历程中的不乱性，防行室频解体等问题。

活络的室频时长：EMO 可以依据输入音频的长度生成任意时长的室频，为用户供给了活络的创做空间。

跨语言和跨格调：EMO 的训练数据集涵盖了多种语言和格调，蕴含中文和英文，以及现真主义、动漫和 3D 格调，那使得 EMO 能够适应差异的文化和艺术格调。

告皂声明：文内含有的对外跳转链接（蕴含不限于超链接、二维码、口令等模式），用于通报更多信息，勤俭甄选光阳，结果仅供参考，IT之家所有文章均包孕原声明。

出售本站【域名】【外链】