截胡 OpenAI，谷歌全模态模型首次解禁！Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

xxn 阅读：80185 2025-03-13 16:03:11 评论：0

在 OpenAI 发布其全模态模型之前，谷歌的全模态图像生成器已抢先推出！Gemini 2.0 Flash 中的原生图像生成功能允许用户通过简单指令进行创意工作，尤其在海报和表情包的制作上，已经令动漫和漫画行业兴奋不已。

最近，谷歌 Gemini 刚刚推出了原生图像生成功能，这是谷歌首次向公众发布的全模态图像生成工具。

现已对所有开发者开放使用 Gemini 2.0 Flash 原生图像生成，便于通过 Gemini API 和 Google AI Studio 的实验版本进行操作。

全模态图像生成器与其他 AI 图像生成模型的显著区别在哪里？

它具有强大的推理能力，能够整合现实世界的知识，生成更加符合上下文的图像，并能理解更多的细节及文化背景特点。

这一切都依托于 Gemini 模型完成，无需调用其他工具，只需通过自然语言进行提示即可。

不同于传统的 AI 图像生成器需分开处理文本与图像，该模型则能同时输出文本与插图，且保持极高的一致性。

真正的多模态能力：同时理解文本、图像及其关系
理解现实知识：可进行智能推理，结合现实知识生成准确内容
自然语言交互：仅通过对话就能修改图像，真正实现动口操作

下面这张图就是利用 Gemini 2.0 Flash 生成的，包括黑板上的文字。

许多早期的图像生成模型在处理长文本渲染上存在问题，而这一致命缺陷现在已被它克服。

有趣的是，OpenAI 是首个展示全模态图像生成能力的机构，早于谷歌整整 8 个月。

就在昨天，OpenAI 关于其首个全模态模型发布的消息引起了广泛关注，没想到今天，谷歌率先发布了第一个版本。

谷歌这一新功能可以根据上下文生成相关图像，并且支持对话式编辑，能够在图像中添加长文本。

例如，你只需告诉模型为牛角面包加一点巧克力边，立刻就能获得期待的图像。

如果询问它：“能在桌子上加一些花吗？”它会立刻在桌子上增加一个花瓶。

如果告知它你不太满意，更喜欢红色郁金香，它会立即将图像替换为你所期望的版本。

网友反应：这太惊人了

现在，我们终于有了原生图像输出功能，图像内容能够遵循智能上下文。

这款模型的真正优势在于，它能深入理解多模态信息。

例如，有网友实测后，Gemini 2.0 Flash 可以从 URL 直接解析 YouTube 视频，并提供内容摘要，分析基于时间戳的信息。

用户们已经开始积极进行测试。

如生成 30 岁中年女性不同角度的两张照片，其一致性令人惊叹。

今后，您想要的照片，都能随心所欲地调整。

小汽车与模特的广告大片，可以实时生成。

此外，您还可以借助 Gemini 进行图像的迭代，创造出任意游戏设计！

Gemini 2.0 Flash 的自画像功能，十分有趣。

目前已有用户对此功能表达出极大兴奋，认为其能让许多手上的图像焕发新生。

左右滑动查看

一些人认为，谷歌的这一原生图像生成功能，可能是今年最令人期待的产品之一，简单的编辑流程和一致性让人期待更多集成功能。

不过，也有用户在测试中发现，在某些情况下，模型难以输出不带文字的图片，尝试品不同的提示后仍未成功。

例如，让它根据奥尔特曼昨天分享的 OpenAI 创意写作模型创作元小说来绘制图像。

当文本过多时，它可能会失去想象力，只能输出文字。

笔者亲自测试后也发现了这种情况。

对此，谷歌 Gemini 团队研究者表示会对该功能进行改进，并建议如果让模型先以文本形式思考，可能会取得更好的效果。

但有趣的是，“一只马骑宇航员”这样的图片，它依然无法生成。

漫画与动漫界，兴奋不已

此次，Gemini 2.0 Flash 已迅速征服漫画圈。

现在，只需简单地通过对话即可生成漫画。

一些用户尝试后发现，使用简单提示便可选择性修改，而不会干扰整体图像。

他兴奋地表示：“用它制作漫画和故事分镜将变得极其容易。”

为漫画上色，只需一句话即可完成。

甚至简单的动作，比如“抬起手臂”，也可以通过语音来实现，且生成的图像与原始图像保持高度一致。

动漫圈的二次元爱好者们满心激动，有人称赞这是史上最佳动漫创作模型！

动漫创作的全过程都可以依照指示顺利完成，例如将素描转化为线稿；填充基本色；增加柔和阴影，光源在左上方；创建室内背景，以匹配当前光源与阴影环境，采用合理角度；转换为单色灰度，符合轻小说插画风格等。

更多测试 demo，期待您的体验。

故事分镜支持

Gemini 2.0 Flash 同样可以支持文字与图像的结合输出，适合绘本、食谱等各种类型的内容。

有用户让它生成“乌鸦喝水”的经典故事.

从内容到插图，Gemini 2.0 Flash 对故事的把控和现实逻辑保持了高度合理性。

更令人惊讶的是，以下所有图像均为一次性输出。

有用户请 Gemini 2.0 解答生命的意义，只用图像作答。

模型一步到位，输出了一系列图像。网友表示：“事实上，大多数写作都是不连贯的，令事态显得更加离奇。”

制作幽默表情包

使用 Gemini 2.0 Flash 制作表情包也是一个有趣的选择。

一位网友上传了一张照片，要求将人换成吉卜力工作室风格的狗，并配上一把机关枪。

Gemini 2.0 Flash 很快完成了替换，结果效果非常不错。

再比如，给 Hugging Face 抱抱脸加上胡子。

又或者，给经典表情包加上合适的文字。

一次性多处编辑

更令人惊叹的是，Gemini 2.0 Flash 可以基于一个提示，实现多角度的图像编辑。

沃顿商学院的教授 Ethan Mollick 表示，如果你曾使用 LLM 图像生成器，你会发现它们的控制难度颇大：LLM 通常需要独立的图像生成工具来接收提示，而非直接生成。

而 Gemini 成为首个向公众发布的“完全多模态” LLM，能够直接生成图像。

以下是 Mollick 在帮助信息商店拍摄的照片，提示的核心要求是——将小册子主题更改为关于拿破仑的，同时包含多个子任务：

将文本更改为“Napoleon Crochet”，字体保持不变。调整图像确保与拿破仑相关，保留白色括号及其他元素。确保头部朝向原图一致，并保持图像的纵向格式。价格更改为 $99.00。

看到 Gemini 2.0 Flash 生成的图像后，他完全惊叹，指出生成的艺术风格竟然非常匹配。

原生图像生成的四大优势

2022年12月，谷歌首次向内部测试者推出 Gemini 2.0 Flash 的原生图像生成功能。

经过数月的精心打磨，在巴黎的开发者大会上，正式向支持 Google AI Studio 的所有区域开放。

开发者们可以通过此平台选择 Gemini 2.0 Flash 的实验版本——gemini-2.0-flash-exp，或通过 Gemini API 进行测试。

从测试中可以看出，Gemini 2.0 Flash 是一款具备多模态输入、增长推理能力、自然语言理解的模型，能直接生成图像。

下面我们将探索 Gemini 2.0 Flash 在多模态输出方面的几大亮点：

1 文本与图像的融合

假设您正在创作奇幻冒险故事，只需文字描述情节，Gemini 2.0 Flash 能自动生成与故事相匹配的插图。

更令人赞叹的是，它可以在整个故事中保持角色与场景的一致性。

如果您对插图风格或叙述方式不满，可以直接反馈，Gemini 2.0 Flash 会根据您的意见调整故事或优化图像。

2 互动式图像编辑

传统的图像编辑往往需要专业软件与复杂操作，而 Gemini 2.0 Flash 允许您通过自然语言与模型进行对话，轻松完成各项任务。

只需诉说您的想法，模型便会实时调整，并通过多轮对话优化结果。

这种方法不仅适合快速迭代创意，还能帮助您节省大量时间，在探索各种风格时高效运作。

3 理解现实知识

与其他图像生成模型相比，Gemini 2.0 Flash 的独特优势在于它整合了世界知识与增强推理能力。

这意味着，生成的图像不仅美观，还符合现实的逻辑。

例如，当您要求它生成一份巧克力曲奇的食谱并附上插图时，Gemini 2.0 Flash 的表现非常出色。

当然，作为语言模型，Gemini 2.0 Flash 有时并非稳妥，偶尔需要调整。

4 准确文本呈现

对于大多数图像生成模型而言，实现清晰、准确的文本呈现一直是个难题——可能格式混乱、字符模糊或出现拼写错误等。

但 Gemini 2.0 Flash 在这一点上的表现值得赞赏。

内部基准测试显示，其文本渲染表现优于众多主流竞品。

无论是制作广告、社交媒体帖子，甚至是邀请函，Gemini 2.0 Flash 都可清晰、准确地展现文字内容。

快速上手 Gemini API

当前，开发者可以通过 Gemini API 直接尝试 Gemini 2.0 Flash 图像生成模型。

from google import genaifrom google.genai import typesclient = genai.Client(api_key="GEMINI_API_KEY")response = client.models.generate_content(model="gemini-2.0-flash-exp",contents=("Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."),config=types.GenerateContentConfig(response_modalities=["Text", "Image"]),)

Gemini 团队的研究人员特别为此发布了一个邀请广大的开发者们体验的新图像，快来尝试吧。

参考资料：

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
https://x.com/OfficialLoganK/status/1899853465922175427

本文来源于微信公众号：新智元（ID：AI_era）

广告声明：文内包含的对外跳转链接（包括超链接、二维码、口令等形式），用于传递更多资讯，节省筛选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。