百度文心开源文生图模型 ERNIE-Image:消费级显卡搞定顶级渲染、高密度文本绘图

五花石 网络资讯 1

4 月 15 日消息,百度文心大模型团队今日宣布正式开源文生图模型 ERNIE-Image。据该团队介绍,该模型参数量仅 8B,24GB 显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。

当前,ERNIE-Image 的模型权重、推理代码已在 Hugging Face 全部开源,遵循 Apache2.0 协议,已经支持并上线 ComfyUI Workflow,同时联合 Unsloth 推出 GGUF 量化方案。

附官方详细介绍如下:

ERNIE-Image 是由百度文心大模型团队开发的一款开源文生图模型。它基于单流 Diffusion Transformer(DiT)架构,并配有一个轻量级 Prompt Enhancer,用于将简短输入扩展为更丰富、更结构化的描述。在仅有 8B DiT 参数规模的前提下,达到了开源文生图模型中的领先水平。

整体来看,它在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。同时,模型也覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格。

经过电影网、凤凰网、蜻蜓 FM、瑛麒动漫、蜂鸟 AI 等 30 多个知名企业、社区和创作平台,20 位艺术创作设计师为期两周的内测与反馈,今天,我们正式开源 ERNIE-Image 模型,参数量仅 8B,24GB 显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。

01.重新定义消费级开源文生图边界

在指令遵循、文字渲染能力上,ERNIE-Image 从容驾驭复杂细节约束、多主体关系和知识密集型描述;更在中英日韩多语言生成中实现了字形清晰与笔画精准,无论是海报排版、学术图表的严谨逻辑,还是漫画分镜的叙事张力,皆能保持完美的布局组织与画面秩序,这两项能力在开源模型中均排名第一。

以小搏大,消费级可跑的架构设计,仅 8B 参数在多项 benchmark 上全面超越同类开源模型,媲美商用模型诸如 NanoBanana 系列。极致的参数效率优化,将高精度生成的门槛降至 24GB VRAM 的消费级 GPU 即可流畅运行,显著降低研究与部署门槛,打造每一位创作者触手可及的开源工具。

在风格表现上,ERNIE-Image 风格覆盖广,创意边界宽,支持写实摄影与风格化视觉表达,包括动漫、二次元、电影感胶片、分镜截图、老照片等多元风格,尤其在角色一致性和情绪表达上表现突出。

当前,ERNIE-Image 的模型权重、推理代码已在 Hugging Face 全部开源,遵循 Apache2.0 协议,已经支持并上线 ComfyUI Workflow,同时联合 Unsloth 推出 GGUF 量化方案,欢迎大家使用体验,尽情创作!

02.国际基准通杀,开源全面 SOTA

我们在多个公开的国际基准上对 ERNIE-Image 进行了全面评估,包括用于通用图像生成的 GenEval、OneIG(中英文),以及用于复杂指令与文字渲染的 LongText-Bench。

评估结果表明,在所有开源模型中,ERNIE-Image 的综合表现处于领先位置,展现出其在通用图像生成、双语理解、复杂指令执行等各类任务中的强大能力。尤为突出的是,在文字渲染能力上,ERNIE-Image 取得了开源模型的 SOTA 效果,与 NanoBanana 等商业闭源模型同处第一梯队。

03.用文字创造画面 Showtime