← 返回新闻列表

Ideogram 4.0震撼发布:全球顶尖开源文生图模型,文字绘制能力显著提升

Ideogram公司于6月3日宣布推出Ideogram 4.0开放权重文生图模型。这款基于9.3B参数规模的模型,采用单流架构设计,据跑分数据显示,已成为全球性能最优的开源生成式AI模型。其在文字绘制和图像布局控制方面展现出非凡表现。

文 / 编辑部 · 2026/06/04 · 阅读约 1 分钟

分享:
Ideogram 4.0震撼发布:全球顶尖开源文生图模型,文字绘制能力显著提升

Ideogram公司在6月3日正式发布了其最新成果——Ideogram 4.0开放权重文生图模型。这款模型凭借其卓越性能,被誉为全球范围内最强大的开源生图AI模型。

Ideogram 4.0的核心参数规模达9.3B,沿袭了近期开源模型普遍采用的单流架构。此设计使得文本与图像的tokens能够共享单一自注意力序列,从而在模型训练和推理过程中实现对设计元素的精准控制。

在技术架构上,Ideogram 4.0整合了Qwen3-VL-8B-Instruct文本编码器,并配备了一个可训练的34层单流扩散Transformer(DiT)。此外,它还采用了Euler流匹配采样器和一个冻结的KL自动编码器,共同构成了其强大的生成能力。

根据官方展示的示例,该模型能够创造出涵盖人物肖像、多样场景以及各类设计风格的图像。这使其成为图片创作、视觉排版和海报设计等领域用户的理想工具。

Ideogram 4.0尤为突出的能力在于其文字绘制的精确性。模型能够更准确地在图像中呈现较长的文本内容,这对于海报、商品图、封面设计以及社交媒体素材的制作至关重要。

为了增强模型对图像元素的理解和布局控制,Ideogram通过训练图像中的对象和文本边界框,使其能够把握元素间的空间关系。结合使用结构化JSON字幕数据进行训练后,用户可以通过提示词更清晰地指定版式、对象位置和文本排列,实现高度定制化的图像生成。

在DesignArena的排名中,Ideogram 4.0超越了Nano Banana Pro,位列全球第四。该榜单采用匿名评估方式,由人类评定生成结果的质量,因此这一成绩充分证明了其在人工观感上的主观优势和可靠性。

广告位 · 文末横幅