Stable Diffusion 3:功能有哪些提升与改进?

Group_1.jpg

周四,Stability AI 宣布推出 Stable Diffusion 3,这是该公司图像生成 ai 模型的最新和最强大的版本。该模型采用扩散变换架构,显著提高了在多主题提示、图像质量和拼写能力方面的性能。

 Stable Diffusion 3使用更新的“扩散变压器”,该技术于 2022 年首创,但在 2023 年进行了修订,现已实现可扩展性。OpenAI 令人印象深刻的视频生成器 Sora 显然也遵循类似的原理(该论文的合著者 Will Peebles 继续共同领导 Sora 项目)。 Stable Diffusion 3 系列模型(采用称为“提示”的文本描述并将其转换为匹配图像)的大小范围从 8 亿到 80 亿个参数不等。尺寸范围允许不同版本的模型在各种设备(从智能手机到服务器)上本地运行。

Stable Diffusion 3的性能提升与改进:

1、增强的多主题处理能力:新模型显著提升了对包含多个主题或元素的提示的理解和处理能力。这使得用户能够在单一提示中描述更为复杂的场景,而模型则能够基于这些描述更准确地生成图像。

2、图像质量提升:Stable Diffusion 3在生成图像的质量上实现了显著提升,包括更精细的细节表现、更准确的颜色匹配以及更自然的光影效果。这些进步让生成的图像更逼真,更好地捕捉用户的创意意图。

3、改善的拼写和文本处理:该版本在处理包含文本元素的图像时(例如标语、标签等),展现了更优的拼写和文本理解能力。这意味着模型能更准确地识别和渲染提示中的文字,即便是在复杂的视觉背景下也能做到。

4、采用新型扩散变换技术:Stable Diffusion 3引入了一种新型扩散变换技术,类似于Sora,为模型赋予了更强大的图像生成能力。Transformer是一种深度学习模型,专为逐步构建图像细节而设计,以产生高质量的视觉内容。

5、流匹配及其他技术改进:模型整合了流匹配技术及其他技术改进,以进一步提高生成图像的质量和多样性。流匹配技术帮助模型更好地理解和模拟图像中的动态元素和结构,让生成的图像在视觉上更加连贯和自然。

6、利用Transformer技术的进步:Stable Diffusion 3充分利用了Transformer技术的最新进展,不仅扩展了模型的能力,还使其能够处理多模态输入。这意味着模型能够处理更复杂和多样化的数据类型,如结合文本和图像的输入,从而在理解和生成图像内容方面提供更多的灵活性和精确度。

尽管目前已经提及了一些关键的技术创新,Stability AI计划很快发布更多的技术细节。这些细节将为技术社区和感兴趣的用户提供对Stable Diffusion 3技术基础和创新点的深入了解。

尽管Stable Diffusion 3尚未得到广泛应用,Stability却表示,测试一旦结束,用户便能免费下载其权重,并在本地环境中运行它。Stability在声明中提到:“正如之前模型的预览阶段一样,这一阶段对于在正式发布前收集反馈、优化性能和提升安全性极为重要。”

最近,Stability一直在探索多种图像合成技术。除了SDXL和SDXL Turbo外,该公司上周还推出了Stable Cascade,这是一种通过三阶段过程将文字生成图像的合成技术。另外,Stability AI的另一款文生视频图生视频产品Stable Video,也在这次公测中推出,为用户提供了更多选择。

收藏
最新工具
Linkody
Linkody

一款专为外贸建站设计的外链建设工具,Linkody提供了强大的链...

123云盘
123云盘

WebDAV协议:用户可以通过任何支持WebDAV的客户端软件将...

好录
好录

一款功能强大的电脑录屏软件,好录可以让您快速在电脑上一键录屏与分...

开发者搜索
开发者搜索

百度为开发者群体开发的一个小而美垂类搜索,开发者搜索目的让开发者...

Buzzing
Buzzing

中文浏览国外社交媒体里的热门讨论,母语快速导读, 感兴趣再进原文...

搜索123
搜索123

一款一站式AI聚合搜索引擎, 一次搜索,查看对比所有结果,用户可...

PostNitro AI
PostNitro AI

适用于 Instagram、LinkedIn 等的免费AI轮播帖...

虫部落快搜
虫部落快搜

虫部落推出的一款搜索引擎集合工具,虫部落快搜集成了Google、...

Songdio AI
Songdio AI

一个可以通过简单的几步就可生成音乐歌曲的AI音乐生成工具,适合那...

AllMind AI
AllMind AI

一个专注于投资研究和金融分析的人工智能平台。AllMind AI...