解决“佛跳墙、老婆饼”问题,联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

xxn 阅读:82106 2025-01-08 20:03:25 评论:0

IT之家 1 月 8 日消息,联通数据智能有限公司今日宣布开源首个完全在国产昇腾 AI 基础软硬件平台上实现训练和推理的中文原生文生图模型 —— 元景文生图模型

  • 通过在 SDXL 架构中融合复合语言编码模块,元景文生图模型实现了对中文长文本、多属性对应和中文特色词汇的精确语义理解,从而提升了对应图像的生成效果。

  • 在昇腾 AI 大规模算力集群上进行训练和推理,元景文生图模型将模型和代码开源,以推动文生图领域的国产化进程。

联通数据智能有限公司指出,目前主流的文生图模型以英文输入为主,中文原生文生图模型的研发进展较慢,模型对中文语义的理解能力和中文特色图片生成能力存在局限。

元景文生图模型通过将英文 CLIP 模型替换为中文 CLIP,增强了模型对中文短文本输入的理解能力。同时,引入复合语言编码架构,使得模型能处理超出 CLIP 长度限制的长文本,从而实现更准确的中文语义理解和判断。

元景中文文生图架构

元景文生图模型通过引入复合语言编码模块,实现了原生中文语义理解,避免了传统中介翻译插件调用英文文生图模型时引起的信息损失。

该模型还通过预训练海量中文图文数据,能准确理解中文专属名词,如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象,以及中文菜谱等英文模型无法理解的名词,实现对应图片的生成。

▲ 提示词:鼠标、老鼠(在英文中均翻译成 mouse,易混淆)

提示词:仙鹤、吊车(在英文中均翻译成 crane,易混淆)

提示词:佛跳墙、老婆饼(中文特色词汇)

提示词:一只身体毛发黑白相间的兔子正在草丛间啃胡萝卜

提示词:在绿色的森林中,隐藏着一座白色的哥特式教堂,教堂的尖塔直指蓝色的天空,教堂周围是五彩斑斓的野花和浅黄色的草坪(中文长文本)

中国联通在国产昇腾 AI 基础软硬件平台上实现了元景文生图模型从微调训练到推理的一体化适配。用户可以使用自定义数据集进行微调训练,并在模型推理时支持单卡和多卡,单卡推理还支持 UNet Cache 加速。

据联通数据智能有限公司透露,元景文生图模型已成功应用于联通内外部多个项目。

目前,元景文生图模型已在 GitHub、Hugging Face、魔搭、始智等社区全面开源,详情请前往以下地址查看:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容