谷歌深夜炸场:Gemini 2.0 正式发布,关键基准测试性能约为 1.5 Pro 两倍

xxn 阅读:87503 2024-12-12 02:00:13 评论:0
感谢IT之家网友 風見暉一 提供的资讯!

据IT之家报道,谷歌于12月11日正式推出了Gemini 2.0,这一版本被认为是谷歌迄今为止最为强大的人工智能模型,展现了更卓越的性能和更丰富的多模态功能,包括内嵌的图像和音频输出,以及新搭建的工具应用。

如图所示, Gemini 2.0 在关键性能基准测试中较 Gemini 1.5 Pro有了显著提升,延迟也有所降低。谷歌官方表示“在关键基准测试中,速度超越1.5 Pro达两倍”。

Gemini 2.0的新增功能也相当丰富。它不仅支持图像、视频和音频等多模态输入,还能实现多模态输出,如文本与原生生成图像合并,可定制的多语言文本转语音(TTS)音频等。此外,它还支持使用原生工具,包括谷歌搜索、代码执行及用户自定义的第三方函数等。

谷歌在 Gemini 2.0 Flash 中,对原生用户界面的交互功能进行了多方面的提升,涵盖了多模态推理、长上下文理解、复杂指令的遵循与规划、组合函数调用以及对原生工具的使用等,并对延迟进行了进一步优化。

谷歌指出,AI智能体的实际运用是一个令人兴奋且充满潜力的研究领域。我们正在通过一系列原型来探索这一新领域,这些原型有助于用户高效完成任务。包括对Project Astra的更新——该项目旨在探索通用人工智能(AGI)的未来潜力;新推出的Project Mariner则关注于从浏览器中探讨人机交互的未来;此外,Jules 是一款可以辅助开发者的AI代码智能体。

从现在开始,开发者可以在AI Studio和Vertex AI平台上试用Gemini 2.0 Flash的实验版本(虽然文本转语音和原生图像生成目前仅对早期合作伙伴开放,但所有开发者都能使用多模态输入和文本输出功能,预计将在1月全面开放),该版本的Gemini Advanced也已在网页版上线测试,后续将在移动端推出。

为了便利开发者创建动态互动应用,谷歌推出了全新多模态实时API,具备实时音频和视频输入功能,并可结合多种工具进行使用。

广告声明:文中包含的对外链接(如超链接、二维码、口令等)旨在提供更多信息,帮助用户更高效地获取资料,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容