Ideogram公司在6月3日正式发布了其最新成果——Ideogram 4.0开放权重文生图模型。这款模型凭借其卓越性能,被誉为全球范围内最强大的开源生图AI模型。
Ideogram 4.0的核心参数规模达9.3B,沿袭了近期开源模型普遍采用的单流架构。此设计使得文本与图像的tokens能够共享单一自注意力序列,从而在模型训练和推理过程中实现对设计元素的精准控制。
在技术架构上,Ideogram 4.0整合了Qwen3-VL-8B-Instruct文本编码器,并配备了一个可训练的34层单流扩散Transformer(DiT)。此外,它还采用了Euler流匹配采样器和一个冻结的KL自动编码器,共同构成了其强大的生成能力。
根据官方展示的示例,该模型能够创造出涵盖人物肖像、多样场景以及各类设计风格的图像。这使其成为图片创作、视觉排版和海报设计等领域用户的理想工具。
Ideogram 4.0尤为突出的能力在于其文字绘制的精确性。模型能够更准确地在图像中呈现较长的文本内容,这对于海报、商品图、封面设计以及社交媒体素材的制作至关重要。
为了增强模型对图像元素的理解和布局控制,Ideogram通过训练图像中的对象和文本边界框,使其能够把握元素间的空间关系。结合使用结构化JSON字幕数据进行训练后,用户可以通过提示词更清晰地指定版式、对象位置和文本排列,实现高度定制化的图像生成。
在DesignArena的排名中,Ideogram 4.0超越了Nano Banana Pro,位列全球第四。该榜单采用匿名评估方式,由人类评定生成结果的质量,因此这一成绩充分证明了其在人工观感上的主观优势和可靠性。
