豆包推出实时语音大模型:号称中文对话断崖式领先、情商智商均在线

xxn 阅读:54394 2025-01-20 18:02:17 评论:0
感谢IT之家网友 風見暉一 的线索投递!

IT之家 1 月 20 日消息,IT之家从豆包官方获悉,豆包实时语音大模型今日正式推出,并在豆包 App(版本号为 7.2.0 新春版)全量开放。

根据披露,豆包实时语音大模型实现了语音理解和生成一体化,实现了端到端语音对话。相对传统级联模式,它在语音表现力、控制力、情绪承接方面表现出色,具备低时延、随时打断等特性,“中文对话断崖式领先,情商智商双双在线”。

最新更新的豆包 App 实时语音通话功能已对所有用户开放。新功能基于最新的豆包实时语音大模型。官方表示,更新后的中文场景对话在语音真实感和情绪表现上几乎达到“人机难辨”的AI交互效果,可以模仿不同的声音,并在逻辑思考和情绪洞察方面有显著提升。

据介绍,全新的豆包实时语音通话功能可以根据场景自动控制节奏、儿化音、音量、气音等细节,还可以向用户“耳语”。其掌握了部分方言与英语对话、多角色模仿,甚至一些歌曲演唱能力。

豆包的全新语音能力基于端到端框架开发,它使用原生方法深度融合语音与文本模式进行统一建模。最终可以直接实现多模态输入到多模态输出的效果,从而实现官方所描述的为AI语音对话赋予“灵魂”的目标。

广告声明:文内包含对外跳转链接(包括但不限于超链接、二维码、口令等形式),用于传达更多信息,节省选购时间,仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容