1. 该工具或服务 简介
Imagen是谷歌大脑团队推出的最新文本到图像扩散模型,具有前所未有的照片级真实感和深层次语言理解能力。
2. 该工具或服务 概要
Imagen建基于大型transformer语言模型在理解文本方面的强大能力,并依赖于扩散模型在高保真图像生成方面的优势。关键发现是通过预训练的大型语言模型(如T5)对文本编码进行图像合成具有出人意料的有效性:在Imagen中,扩大语言模型的规模比扩大图像扩散模型的规模对提高样本保真度和图像文本对齐度更加重要。
Imagen在COCO数据集上实现了新的最佳FID评分7.27,而且即使从未在COCO上进行训练,人类评估者也发现Imagen样本在图像文本对齐度方面与COCO数据本身不相上下。为深入评估文本到图像模型的能力,我们引入了DrawBench,这是一个综合而有挑战性的文本到图像模型基准测试。借助DrawBench,我们将Imagen与最新方法(包括VQ-GAN+CLIP,潜在扩散模型和DALL-E 2)进行了比较,发现在样本质量和图像文本对齐度方面,人类评估者更倾向于Imagen。
Imagen在COCO数据集上实现了新的最佳FID评分7.27,而且即使从未在COCO上进行训练,人类评估者也发现Imagen样本在图像文本对齐度方面与COCO数据本身不相上下。为深入评估文本到图像模型的能力,我们引入了DrawBench,这是一个综合而有挑战性的文本到图像模型基准测试。借助DrawBench,我们将Imagen与最新方法(包括VQ-GAN+CLIP,潜在扩散模型和DALL-E 2)进行了比较,发现在样本质量和图像文本对齐度方面,人类评估者更倾向于Imagen。
3. 该工具或服务 特点
●大规模预训练语言模型有效编码文本以合成图像
●比起扩大图像扩散模型规模,扩大预训练语言模型规模对提高样本保真度和图像文本对齐度更重要
●引入新的阈值扩散采样器,可使用更大的无分类器指导权重
●引入新的高效UNet架构,更高计算效率,更高内存效率且收敛更快
4. 该工具或服务 使用场景
●创意写作和视觉设计
●营销和广告创意的视觉化呈现
●游戏开发和虚拟现实应用中的图像资源生成
●艺术创作辅助,如概念艺术和故事分镜
●教育领域的视觉教学资源制作
5. 该工具或服务关键词
图像生成,图像增强,视频生成
6. 该工具或服务 推荐人群
创意人员,设计师,艺术家,营销人员,教育工作者,游戏开发者
7. 该工具或服务 #标签
#文本到图像,#人工智能艺术,#计算机视觉,#生成式AI,#创意AI
AI工具与服务 文章推荐
已阅读文章一览
没有找到更多文章
用户评论
{{ reviewsTotal }}{{ options.labels.singularReviewCountLabel }}
{{ reviewsTotal }}{{ options.labels.pluralReviewCountLabel }}
{{ options.labels.newReviewButton }}
{{ userData.canReview.message }}