豆包推出实时语音大模型:号称中文对话断崖式领先、情商智商均在线
2025-01-21 07:20:30人工智能 IT之家 清源
据介绍,豆包实时语音大模型实现了语音理解和生成一体化,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。
感谢最新网友 風見暉一 的线索投递!
最新 1 月 20 日消息,最新从豆包官方获悉,豆包实时语音大模型今日正式推出,并在豆包 App(版本号为 7.2.0 新春版)全量开放。
据介绍,豆包实时语音大模型实现了语音理解和生成一体化,实现了端到端语音对话。相比传统级联模式在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性,“中文对话断崖式领先,情商智商双双在线”。
同时,豆包 App 更新实时语音通话功能,面向所有用户开放。该功能基于最新豆包实时语音大模型。官方表示,豆包中文场景的对话能力更新后在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的 AI 交互效果,可以模仿不同声线,并且在“逻辑思考”和“情绪感知”上有明显提升。
据了解,豆包全新实时语音通话功能可以根据场景自动对节奏、儿化音、音量、气音等细节精准把控,还可跟用户“说”悄悄话。其掌握了部分方言与英语对话、多角色模仿,甚至部分歌曲演唱能力。
豆包的全新语音能力基于端到端框架研发,其使用原生方法深度融合语音与文本模态进行统一建模。最终可实现从多模态输入直接到多模态输出的效果,从而达到官方所述“赋予 AI 语音对话‘灵魂’”的效果。
赞一个! ()
相关文章
- OpenAI 周活跃用户达 4 亿,高管称用户“口口相传”发现
- Figure AI 人形机器人多模态能力升级:“听懂”语音指令
- 李开复 AI 公司零一万物被曝多处变动:计划拆分数字人业
- Spotify 启动 AI 配音有声书服务,29 种语言可供选择
- OpenAI GPT-4.5 有望下周发布,GPT-5 被曝将与 o3 大一
- 英伟达推出 Signs 平台:AI 突破美式手语学习,助力连接无
- 传字节大模型团队架构调整,知情人士称吴永辉和朱文佳都
- 清华系团队 DeepSeek 版多模态生物医药大模型 BioMedG
- DeepSeek 还在发力:官宣下周陆续开源 5 个代码库,毫无保
- 报告称 DeepSeek App 上线一个月下载量破亿:几乎没花钱