豆包推出实时语音大模型：号称中文对话断崖式领先、情商智商均在线

xxn 阅读：54954 2025-01-20 18:02:17 评论：0

感谢IT之家网友風見暉一的线索投递！

IT之家 1 月 20 日消息，IT之家从豆包官方获悉，豆包实时语音大模型今日正式推出，并在豆包 App（版本号为 7.2.0 新春版）全量开放。

根据披露，豆包实时语音大模型实现了语音理解和生成一体化，实现了端到端语音对话。相对传统级联模式，它在语音表现力、控制力、情绪承接方面表现出色，具备低时延、随时打断等特性，“中文对话断崖式领先，情商智商双双在线”。

最新更新的豆包 App 实时语音通话功能已对所有用户开放。新功能基于最新的豆包实时语音大模型。官方表示，更新后的中文场景对话在语音真实感和情绪表现上几乎达到“人机难辨”的AI交互效果，可以模仿不同的声音，并在逻辑思考和情绪洞察方面有显著提升。

据介绍，全新的豆包实时语音通话功能可以根据场景自动控制节奏、儿化音、音量、气音等细节，还可以向用户“耳语”。其掌握了部分方言与英语对话、多角色模仿，甚至一些歌曲演唱能力。

豆包的全新语音能力基于端到端框架开发，它使用原生方法深度融合语音与文本模式进行统一建模。最终可以直接实现多模态输入到多模态输出的效果，从而实现官方所描述的为AI语音对话赋予“灵魂”的目标。

广告声明：文内包含对外跳转链接（包括但不限于超链接、二维码、口令等形式），用于传达更多信息，节省选购时间，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。