百度文心开源文生图模型 ERNIE-Image：消费级显卡搞定顶级渲染、高密度文本绘图

五花石网络资讯 2026-04-15 19:03:48 1

4 月 15 日消息，百度文心大模型团队今日宣布正式开源文生图模型 ERNIE-Image。据该团队介绍，该模型参数量仅 8B，24GB 显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。

当前，ERNIE-Image 的模型权重、推理代码已在 Hugging Face 全部开源，遵循 Apache2.0 协议，已经支持并上线 ComfyUI Workflow，同时联合 Unsloth 推出 GGUF 量化方案。

附官方详细介绍如下：

ERNIE-Image 是由百度文心大模型团队开发的一款开源文生图模型。它基于单流 Diffusion Transformer（DiT）架构，并配有一个轻量级 Prompt Enhancer，用于将简短输入扩展为更丰富、更结构化的描述。在仅有 8B DiT 参数规模的前提下，达到了开源文生图模型中的领先水平。
整体来看，它在复杂指令跟随、文字渲染和结构化图像生成方面表现突出，适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。同时，模型也覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格。
经过电影网、凤凰网、蜻蜓 FM、瑛麒动漫、蜂鸟 AI 等 30 多个知名企业、社区和创作平台，20 位艺术创作设计师为期两周的内测与反馈，今天，我们正式开源 ERNIE-Image 模型，参数量仅 8B，24GB 显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。
01.重新定义消费级开源文生图边界
在指令遵循、文字渲染能力上，ERNIE-Image 从容驾驭复杂细节约束、多主体关系和知识密集型描述；更在中英日韩多语言生成中实现了字形清晰与笔画精准，无论是海报排版、学术图表的严谨逻辑，还是漫画分镜的叙事张力，皆能保持完美的布局组织与画面秩序，这两项能力在开源模型中均排名第一。
以小搏大，消费级可跑的架构设计，仅 8B 参数在多项 benchmark 上全面超越同类开源模型，媲美商用模型诸如 NanoBanana 系列。极致的参数效率优化，将高精度生成的门槛降至 24GB VRAM 的消费级 GPU 即可流畅运行，显著降低研究与部署门槛，打造每一位创作者触手可及的开源工具。
在风格表现上，ERNIE-Image 风格覆盖广，创意边界宽，支持写实摄影与风格化视觉表达，包括动漫、二次元、电影感胶片、分镜截图、老照片等多元风格，尤其在角色一致性和情绪表达上表现突出。
当前，ERNIE-Image 的模型权重、推理代码已在 Hugging Face 全部开源，遵循 Apache2.0 协议，已经支持并上线 ComfyUI Workflow，同时联合 Unsloth 推出 GGUF 量化方案，欢迎大家使用体验，尽情创作！
02.国际基准通杀，开源全面 SOTA
我们在多个公开的国际基准上对 ERNIE-Image 进行了全面评估，包括用于通用图像生成的 GenEval、OneIG（中英文），以及用于复杂指令与文字渲染的 LongText-Bench。
评估结果表明，在所有开源模型中，ERNIE-Image 的综合表现处于领先位置，展现出其在通用图像生成、双语理解、复杂指令执行等各类任务中的强大能力。尤为突出的是，在文字渲染能力上，ERNIE-Image 取得了开源模型的 SOTA 效果，与 NanoBanana 等商业闭源模型同处第一梯队。
03.用文字创造画面 Showtime

本文地址： http://wuhuashi.com/32343.html

文章来源：五花石