OpenAI 发布新一代语音模型，让 AI 智能体语音表达更自然

xxn 阅读：81151 2025-03-21 12:01:50 评论：0

IT之家最新消息指出，OpenAI近日发布了一则公告，宣布推出了语音转文本和文本转语音模型，以增强其语音处理技术，并支持开发者构建更为精准且可定制的语音交互系统，进一步推动人工智能语音技术的商业应用。

在语音转文本方面，OpenAI推出了gpt-4o-transcribe和gpt-4o-mini-transcribe两个模型，据官方表示，这两个模型在单词错误率（WER）、语言识别和准确性等方面均优于现有的Whisper系列模型。

这两个模型支持超过100种语言，通过强化学习和多样化高质量的音频数据集训练，能够捕捉细微语音特征，减少误识别，尤其在嘈杂环境、口音和不同语速下表现更为稳定。

而在文本转语音方面，OpenAI最新发布了gpt-4o-mini-tts模型，开发者可以通过指令如“模拟耐心客服”或“生动故事叙述”来控制语音风格，以应用于客服（合成更具同理心的语音，提升用户体验）和创意内容（为有声书或游戏角色设计个性化声音）等领域。

据IT之家的报道，这三款模型费用如下：

gpt-4o-transcribe：音频输入每100万tokens费用6美元，文本输入每100万tokens费用2.5美元，输出每100万tokens费用10美元，每分钟成本0.6美分。
gpt-4o-mini-transcribe：音频输入每100万tokens费用3美元，文本输入每100万tokens费用1.25美元，输出每100万tokens费用5美元，每分钟成本0.3美分。
gpt-4o-mini-tts：每100万tokens输入费用为0.60美元，每100万tokens输出费用为12美元，每分钟成本1.5美分。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。