字节跳动展示 OmniHuman 多模态框架:图片 + 音频 = 逼真动画,半身全身均可生成
2025-02-07 06:53:45人工智能 IT之家 清源
字节跳动表示,和一些只能生成面部或上半身动画的深度伪造技术不同,OmniHuman-1能够生成逼真的全身动画,且能将手势和面部表情与语音或音乐精准同步。
最新 2 月 6 日消息,字节跳动的研究人员近日展示了一款 AI 模型,可以通过一张图片和一段音频生成半身、全身视频。
字节跳动表示,和一些只能生成面部或上半身动画的深度伪造技术不同,OmniHuman-1 能够生成逼真的全身动画,且能将手势和面部表情与语音或音乐精准同步。
字节跳动在其 OmniHuman-lab 项目页面发布了多个测试视频,包括 AI 生成的 TED 演讲和一个会说话的阿尔伯特・爱因斯坦。
在周一发布的一篇论文中,字节跳动指出,OmniHuman-1 模型支持不同的体型和画面比例,从而使视频效果更自然。
据最新了解,字节跳动表示,OmniHuman-1 模型基于约 19000 小时的人类运动数据训练而成,能够在内存限制内生成任意长度的视频,并适应不同的输入信号。
研究人员还表示,OmniHuman-1 在真实性和准确性方面,超越了其他同类动画工具。目前,该工具暂不提供下载或有关服务。
赞一个! ()
相关文章
- OpenAI 周活跃用户达 4 亿,高管称用户“口口相传”发现
- Figure AI 人形机器人多模态能力升级:“听懂”语音指令
- 李开复 AI 公司零一万物被曝多处变动:计划拆分数字人业
- Spotify 启动 AI 配音有声书服务,29 种语言可供选择
- OpenAI GPT-4.5 有望下周发布,GPT-5 被曝将与 o3 大一
- 英伟达推出 Signs 平台:AI 突破美式手语学习,助力连接无
- 传字节大模型团队架构调整,知情人士称吴永辉和朱文佳都
- 清华系团队 DeepSeek 版多模态生物医药大模型 BioMedG
- DeepSeek 还在发力:官宣下周陆续开源 5 个代码库,毫无保
- 报告称 DeepSeek App 上线一个月下载量破亿:几乎没花钱