已预览一年，OpenAI 语音克隆服务 Voice Engine 仍未正式推出

xxn 阅读：15220 2025-03-07 18:03:04 评论：0

IT之家近日发布报道指出，去年三月底，OpenAI宣布推出了名为Voice Engine（声音引擎）的人工智能服务的“小规模预览”，声称该技术可以在短短15秒的语音采样下克隆一个人的声音。然而，进入近一年的时间，该工具仍未正式发布，OpenAI也没有透露是否会进行全面推出，以及具体的上线时间。

OpenAI对Voice Engine的谨慎态度可能源自对技术被滥用的担忧，也有可能是为了避免触发监管审查。该公司此前曾被指责过于关注“炫目产品”，而忽略了安全性，并且急于在竞争对手之前发布产品。

一位OpenAI发言人在接受TechCrunch采访时表示，公司目前正在与一些“可信任的合作伙伴”一起对Voice Engine进行测试。他表示：“我们正通过与合作伙伴的合作使用来学习技术，以提高模型的实用性和安全性。我们很高兴看到这项技术应用于各种场景，包括语音治疗、语言学习、客户支持、游戏角色以及AI虚拟形象等领域。”

据了解，Voice Engine是OpenAI的文本转语音API和ChatGPT语音模式的技术背后，可以生成与原始说话者非常相似的自然语音。这一工具可以将书面文字转换为语音，同时在内容方面做出了一些限制。然而，从一开始，Voice Engine的发布就遇到了延迟和发布时间安排的不断更改。

根据OpenAI在2024年6月的一篇博客文章介绍，Voice Engine模型通过学习预测说话者在给定文本转录中可能发出的声音，考虑各种声音、口音和说话风格的元素，从而生成文本的语音版本，并呈现出不同类型说话者阅读文本的“语音表达”。

最初，OpenAI计划在2024年3月7日引入Voice Engine（当时称为Custom Voices）到其API中，并计划让最多100名“可信开发者”提前使用，优先考虑那些开发具有“社会价值”或展示“创新和负责任”技术应用的应用程序的开发者。该公司还为该服务设定价格：“标准”语音每百万字符收费15美元，“高清”语音每百万字符收费30美元。然而，在最后关头，公司推迟了发布。几周后，OpenAI在没有提供注册选项的情况下发布了Voice Engine，仅允许自2023年底开始与其合作的约10名开发者使用。

在2024年3月的一篇博客文章中，OpenAI表示：“我们希望就合成语音的负责任部署以及社会如何适应这些新技术能力展开对话。基于这些讨论和小规模测试的结果，我们将会更明智地决定是否以及如何大规模部署这项技术。”

据OpenAI介绍，Voice Engine自2022年开始研发。该公司宣称，在2023年夏季向全球最高层政策制定者展示了该工具的潜力和风险。目前，包括Livox在内的一些合作伙伴已经可以使用Voice Engine。Livox是一家专注于为残疾人开发更自然沟通设备的初创企业。该公司的首席执行官卡洛斯・佩雷拉（Carlos Pereira）告诉TechCrunch，虽然由于Voice Engine的网络要求（许多Livox的客户没有互联网接入），他们无法将该技术整合到产品中，但他认为这项技术“非常令人印象深刻”。

佩雷拉通过电子邮件向TechCrunch表示：“语音的质量以及语音可以以不同的语言说话的可能性是独一无二的 —— 特别对于我们的客户，即残疾人。这是我见过的最令人印象深刻且易于使用的创建语音的工具。我们希望OpenAI能尽快开发出离线版本。”他补充说，他尚未收到关于Voice Engine可能发布的任何指导，也没有看到公司计划开始收费的迹象。截止目前，Livox的使用仍未产生费用。

在2024年6月的博客文章中，OpenAI透露延迟发布Voice Engine的其中一个原因是担心技术可能在去年的美国选举周期中被滥用。基于与利益相关者的讨论，Voice Engine采取了多重安全措施，如为生成的音频添加水印以追踪其来源。

根据OpenAI的说法，使用Voice Engine的开发者必须事先获得原始说话者的“明确同意”，并且必须向其受众“明确披露”语音是由AI生成的。然而，该公司尚未详细说明执行这些政策的具体方法。即使对于拥有OpenAI资源的公司来说，广泛执行这些政策也可能充满挑战。

在博客文章中，OpenAI还暗示希望开发一种“语音认证体验”用于验证说话者的身份，建立一个“黑名单”，以防止创作与知名人物声音过于相似的语音。这两个项目在技术上具有挑战性，如果处理不当，可能会对这家常被指责忽视安全措施的公司带来负面影响。

随着AI语音克隆技术的迅速发展，有效的过滤和身份验证迅速成为负责任发布语音克隆技术的基本要求。根据报道，AI语音克隆是2024年增长最快的第三大诈骗手段，导致了欺诈行为的增加和银行安全检查被绕过，而隐私和版权法律则很难跟得上其发展速度。恶意行为者利用语音克隆技术制作名人和政治人物的煽动性深度伪造视频，并在社交媒体上快速传播。

OpenAI可能在未来推出Voice Engine，也有可能永远不会推出。该公司多次表示，正在考虑将服务保持在一个较小的范围内。然而无论是出于形象的考量还是出于安全方面的考量，Voice Engine的有限预览已成为OpenAI历史上最漫长的一次。

广告声明：文内包含的外链（包括但不限于超链接、二维码、口令等形式）用于提供更多信息，节省挑选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。