Imagen - 让想象力在图像中重现

2024/09/04

1. 该工具或服务简介

Imagen是谷歌大脑团队推出的最新文本到图像扩散模型，具有前所未有的照片级真实感和深层次语言理解能力。

2. 该工具或服务概要

Imagen建基于大型transformer语言模型在理解文本方面的强大能力，并依赖于扩散模型在高保真图像生成方面的优势。关键发现是通过预训练的大型语言模型（如T5）对文本编码进行图像合成具有出人意料的有效性：在Imagen中，扩大语言模型的规模比扩大图像扩散模型的规模对提高样本保真度和图像文本对齐度更加重要。

Imagen在COCO数据集上实现了新的最佳FID评分7.27，而且即使从未在COCO上进行训练，人类评估者也发现Imagen样本在图像文本对齐度方面与COCO数据本身不相上下。为深入评估文本到图像模型的能力，我们引入了DrawBench，这是一个综合而有挑战性的文本到图像模型基准测试。借助DrawBench，我们将Imagen与最新方法（包括VQ-GAN+CLIP，潜在扩散模型和DALL-E 2）进行了比较，发现在样本质量和图像文本对齐度方面，人类评估者更倾向于Imagen。