谷歌深夜炸场：Gemini 2.0 正式发布，关键基准测试性能约为 1.5 Pro 两倍

xxn 阅读：87503 2024-12-12 02:00:13 评论：0

感谢IT之家网友風見暉一提供的资讯！

据IT之家报道，谷歌于12月11日正式推出了Gemini 2.0，这一版本被认为是谷歌迄今为止最为强大的人工智能模型，展现了更卓越的性能和更丰富的多模态功能，包括内嵌的图像和音频输出，以及新搭建的工具应用。

如图所示， Gemini 2.0 在关键性能基准测试中较 Gemini 1.5 Pro有了显著提升，延迟也有所降低。谷歌官方表示“在关键基准测试中，速度超越1.5 Pro达两倍”。

Gemini 2.0的新增功能也相当丰富。它不仅支持图像、视频和音频等多模态输入，还能实现多模态输出，如文本与原生生成图像合并，可定制的多语言文本转语音(TTS)音频等。此外，它还支持使用原生工具，包括谷歌搜索、代码执行及用户自定义的第三方函数等。

谷歌在 Gemini 2.0 Flash 中，对原生用户界面的交互功能进行了多方面的提升，涵盖了多模态推理、长上下文理解、复杂指令的遵循与规划、组合函数调用以及对原生工具的使用等，并对延迟进行了进一步优化。

谷歌指出，AI智能体的实际运用是一个令人兴奋且充满潜力的研究领域。我们正在通过一系列原型来探索这一新领域，这些原型有助于用户高效完成任务。包括对Project Astra的更新——该项目旨在探索通用人工智能（AGI）的未来潜力；新推出的Project Mariner则关注于从浏览器中探讨人机交互的未来；此外，Jules 是一款可以辅助开发者的AI代码智能体。

从现在开始，开发者可以在AI Studio和Vertex AI平台上试用Gemini 2.0 Flash的实验版本（虽然文本转语音和原生图像生成目前仅对早期合作伙伴开放，但所有开发者都能使用多模态输入和文本输出功能，预计将在1月全面开放），该版本的Gemini Advanced也已在网页版上线测试，后续将在移动端推出。

为了便利开发者创建动态互动应用，谷歌推出了全新多模态实时API，具备实时音频和视频输入功能，并可结合多种工具进行使用。

广告声明：文中包含的对外链接（如超链接、二维码、口令等）旨在提供更多信息，帮助用户更高效地获取资料，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。