
智谱与华为联合宣布开源最新图像生成模型 GLM-Image,并登上 Hugging Face Trending 榜单,引发了业内高度关注。背后最关键的三个词是:开源、SOTA 性能、全栈国产。尤其是这一次,从数据预处理到大规模预训练,整个流程全部跑在华为昇腾 Atlas 800T A2 芯片和昇思 MindSpore 框架之上——在高性能算力长期被海外厂商垄断的背景下,这是国内团队首次用“纯国产”算力训练出站在世界前沿的多模态 SOTA 模型,具有标志性意义。
一、“自回归 + 扩散解码器”:面向“认知型生成”的新路线
跟很多只是照着 Stable Diffusion、Flux 路线“再做一遍”的模型不同,GLM-Image 瞄准的是新一代“认知型生成”范式,在架构上走了一条新路:自回归主干 + 扩散解码器的混合结构。
官方给出的设计思路大致可以概括为:
9B 自回归模型
负责整体语义理解和画面全局构图,类似“脑子”和“导演”:
理解长文本提示里的逻辑关系
把场景、角色、布局等信息串起来
确保生成结果在内容层面“说得通”
7B 扩散解码器
专注高频细节和像素级表现,类似“摄影师”和“美术”:
细化纹理、光影、材质等细节
尤其强化文字笔画等“硬指标”细节
这种分工,让 GLM-Image 同时兼顾了整体一致性和局部精细度,在权威评测上拿到了非常亮眼的成绩:
CVTG-2K(复杂视觉文字生成)
文字准确率:0.9116
归一化编辑距离(NED):0.9557
两项指标均位列第一。
LongText-Bench(长文本渲染)
中文得分:0.979
英文得分:0.952
在开源模型中处于榜首位置。
从智谱公开的样例可以看到,GLM-Image 在以下几类内容上表现尤其突出:
带有流程逻辑的科普类插画(如步骤分解、结构讲解)
社交媒体风格浓厚的图文排版(如小红书封面风格)
商业海报、人像、游戏原画偏向的风格化作品
实际体验来看,GLM-Image 的整体画风统一度较高,对“逻辑清晰、内容解释性强”的科普场景比较友好。不过,目前在极端复杂的文字生成场景下,个别字词仍会出现偏差,这一点在行业内也仍是普遍难题。
二、多模型对比:同一条提示词,不同“审美取向”
当前图像生成赛道竞争异常激烈。谷歌依托 Gemini 生态推出的 Nano Banana Pro,以“企业级画质”和强大的文图协同力,成为闭源方向的代表;国内则有阿里通义万相、字节旗下的即梦等不断迭代产品。
以“三国赤壁之战”为题,用同一条中文长提示词分别喂给几款常见模型,可以看到非常明显的风格差异(提示词略):
GLM-Image
整体呈现偏漫画/游戏原画风格
色彩饱和度高、线条清晰
场景构图相对规整,故事感强
Nano Banana
强项在于光影与动态细节
如火焰形态、水面反射、衣袍飘动、烟雾氛围等都刻画得非常细腻
画面质感更接近电影视觉特效
ChatGPT 图像能力
擅长处理复杂、多主体的大场景
物体之间的关系更协调,战争“史诗感”更明显
在叙事层面更有“全局导演感”
即梦
在中文语境中,明显更注重历史文化细节与中国美学
比如古代战船结构、旗帜样式、服饰纹样,会更贴近史料与传统审美
从这些对比中可以看到,各家模型在“画面精美度”上都已经来到相对接近的水平,下一阶段的竞争,很大程度上会转向:
文字渲染的稳定性与准确率
对复杂知识、场景逻辑的理解与表达能力
这也意味着,像海报设计、PPT 插图、长图科普、流程讲解等知识密集型场景,将越来越多地被多模态大模型“接管”。
三、从“能画”到“能懂”:昇腾 A2 + MindSpore 的全栈国产实践
智谱认为,以 Nano Banana Pro 为代表的新一代闭源图像模型正在推动“图像生成 + 大语言模型”的深度融合,技术范式也在从“单一图像生成”升级为具备世界知识和推理能力的“认知型生成”。
在这个演进路径中,GLM-Image 的架构创新是“上层逻辑”,而华为昇腾 + 昇思 MindSpore 则是让这一逻辑落地的算力底座。
在当前高性能 GPU 供给紧张、价格高企、出口受限的现实环境下,想要训练一个数十亿参数、支持 2048×2048 高分辨率输出的多模态 SOTA 模型,对以下几个方面的要求都极高:
集群算力稳定性与扩展性
高带宽通信能力
训练效率与能效比
大规模任务的调度与容错能力
传统观点往往默认:只有大规模英伟达 GPU 集群才能胜任这类任务。但智谱与华为的协作给出了一个实证案例:国产芯片不仅能“跑推理”,也可以支撑最前沿的大规模端到端训练。
公开信息显示,GLM-Image 的全生命周期训练都落在 Ascend A2 集群上完成,包括:
海量图文数据的预处理
大规模预训练
监督微调(SFT)
强化学习后训练(RL)
为把昇腾 NPU 的潜力“榨干”,智谱与华为围绕昇思 MindSpore 做了不少底层改造和优化,例如:
动态图多级流水下发
将 Host 侧算子下发阶段拆解并流水化处理,关键步骤高度重叠,减少下发瓶颈,提升整体训练吞吐。
多流并行执行
针对文本梯度同步、图像特征广播等易形成“通信墙”的环节,进行多流并行设计,尽量压缩等待时间,拉高有效算力利用率。
昇腾亲和融合算子
使用如 AdamW EMA、COC 等适配昇腾 NPU 的高性能算子,提高训练稳定性与性能。
在图像生成的“可用性”方面,GLM-Image 也做了面向实际业务场景的改造。传统模型在生成非正方形图像时,通常需要后期裁剪或重绘,以适配各种封面、横幅比例,难免出现内容被切掉或变形的问题。GLM-Image 通过改进 Tokenizer 策略,原生支持在 1024×1024 至 2048×2048 范围内的任意比例输出,可以直接产出小红书封面、电影海报横幅等尺寸,减少乃至免除二次处理,提升生产效率。
更值得一提的是,GLM-Image 是首个开源的工业级离散自回归图像生成模型。与闭源的 Nano Banana Pro 相比,它在部分指标上已经可以对标甚至局部超越,同时又向全球开发者开放了完整的技术路径,为后续相关研究提供了可以复现、可以叠代的“工程级”基线。
四、价格拉到“白菜价”,国产 AI 走到分水岭
在应用端,智谱给出的 API 定价也颇具冲击力:调用接口生成一张图片的成本大约在 0.1 元左右。这基本把高质量 AI 生图的门槛压缩到了普通个人和中小团队都可以轻松承受的区间:
中小企业可以低成本搭建自己的视觉内容生产线
独立开发者可以把图像能力嵌进小程序、工具网站、SaaS 服务
内容创作者也能把海报、插图、长图科普等环节交给模型完成初版,再自己做微调
与此同时,通过开源,GLM-Image 也为学术界、工业界提供了一套完整可复现的技术路线,有利于围绕“认知型生成”开展更多创新实验与产业化探索。
更重要的是,GLM-Image 的真正“里程碑”意义,并不只在于它又多拿了几项 SOTA,而在于:
这是首个在国产芯片上完成全流程训练的 SOTA 级多模态生成模型。
换句话说,在大模型时代最关键的底层要素——算力+框架+模型三件套中,国内终于拿出了一次完整、自主可控又能对标世界一流的实践案例。这一点,很可能会被视为国产 AI 进入新阶段的“分水岭时刻”。
从智谱的总结也能看出这种意味:
GLM-Image 已经不仅是一款独立的图像生成产品,更是一套用国产全栈算力训练世界级多模态模型的“样板工程”,它证明了这条路是走得通的——而接下来,才是真正的竞赛起点。

