Stable Diffusion 3:功能有哪些提升与改进?
周四,Stability AI 宣布推出 Stable Diffusion 3,这是该公司图像生成 ai 模型的最新和最强大的版本。该模型采用扩散变换架构,显著提高了在多主题提示、图像质量和拼写能力方面的性能。
Stable Diffusion 3使用更新的“扩散变压器”,该技术于 2022 年首创,但在 2023 年进行了修订,现已实现可扩展性。OpenAI 令人印象深刻的视频生成器 Sora 显然也遵循类似的原理(该论文的合著者 Will Peebles 继续共同领导 Sora 项目)。 Stable Diffusion 3 系列模型(采用称为“提示”的文本描述并将其转换为匹配图像)的大小范围从 8 亿到 80 亿个参数不等。尺寸范围允许不同版本的模型在各种设备(从智能手机到服务器)上本地运行。
Stable Diffusion 3的性能提升与改进:
1、增强的多主题处理能力:新模型显著提升了对包含多个主题或元素的提示的理解和处理能力。这使得用户能够在单一提示中描述更为复杂的场景,而模型则能够基于这些描述更准确地生成图像。
2、图像质量提升:Stable Diffusion 3在生成图像的质量上实现了显著提升,包括更精细的细节表现、更准确的颜色匹配以及更自然的光影效果。这些进步让生成的图像更逼真,更好地捕捉用户的创意意图。
3、改善的拼写和文本处理:该版本在处理包含文本元素的图像时(例如标语、标签等),展现了更优的拼写和文本理解能力。这意味着模型能更准确地识别和渲染提示中的文字,即便是在复杂的视觉背景下也能做到。
4、采用新型扩散变换技术:Stable Diffusion 3引入了一种新型扩散变换技术,类似于Sora,为模型赋予了更强大的图像生成能力。Transformer是一种深度学习模型,专为逐步构建图像细节而设计,以产生高质量的视觉内容。
5、流匹配及其他技术改进:模型整合了流匹配技术及其他技术改进,以进一步提高生成图像的质量和多样性。流匹配技术帮助模型更好地理解和模拟图像中的动态元素和结构,让生成的图像在视觉上更加连贯和自然。
6、利用Transformer技术的进步:Stable Diffusion 3充分利用了Transformer技术的最新进展,不仅扩展了模型的能力,还使其能够处理多模态输入。这意味着模型能够处理更复杂和多样化的数据类型,如结合文本和图像的输入,从而在理解和生成图像内容方面提供更多的灵活性和精确度。
尽管目前已经提及了一些关键的技术创新,Stability AI计划很快发布更多的技术细节。这些细节将为技术社区和感兴趣的用户提供对Stable Diffusion 3技术基础和创新点的深入了解。
尽管Stable Diffusion 3尚未得到广泛应用,Stability却表示,测试一旦结束,用户便能免费下载其权重,并在本地环境中运行它。Stability在声明中提到:“正如之前模型的预览阶段一样,这一阶段对于在正式发布前收集反馈、优化性能和提升安全性极为重要。”
最近,Stability一直在探索多种图像合成技术。除了SDXL和SDXL Turbo外,该公司上周还推出了Stable Cascade,这是一种通过三阶段过程将文字生成图像的合成技术。另外,Stability AI的另一款文生视频和图生视频产品Stable Video,也在这次公测中推出,为用户提供了更多选择。