卷疯了！继Sora后，Stable Diffusion 3也卷成了蚊香

2024-10-06 科技 998℃ 0

继OpenAI的Sora的霸屏一周后，StabilityAI在上周也发布了新模型StableDiffusion3（下文简称“SD3”）。这一模型在生成图像的质量、多主题提示以及文字书写效果方面都迎来了革命性的提升，成为StabilityAI目前“功能最强大”的文生图模型。

告别乱码，文字渲染更精准

本次SD3最亮眼之处莫过于是可生成提示词所指定的文字，在上图中，SD3模型不仅生成了一张虚实结合、光影自然且视觉舒适的画面，还准确地写出了“不成功便成仁”的英文，一改大众对过往文生图模型难以输出文字的印象。

2、对物理规则的理解更准确

从官方发布的示例图来看，SD3模型似乎在朝着成为古希腊掌管初中物理的神而努力，还原了“一匹马优雅地站在一颗五彩斑斓的球上”提示词描绘的景象。

3、多主题提示能力提升

现在用户还可以一次性输入多个主题提示，在过去，如何准确地还原多个提示词对象的属性和位置，是文生图模型亟待解决的难题，从官方给出的效果图来看，现在的SD3已经能较为巧妙地理解“宇航员、穿着蓬蓬裙的猪、粉色伞和知更鸟”等多重提示词的元素了。

有网友在好奇心趋势下，使用相同的多主题提示词，通过另外几家AI文生图的模型生成图像，展开了一场卷王之争。

4、生成效果更高质

相较于之前的版本，SD3生成的图像质量实现了显著的升级，例如“变色龙在黑色背景上的摄影棚特写”生成的图像如上图所示，这放在期刊杂志上也毫不违和。

5、新增图像转视频等新功能

除此之外，Stability创始人还表示，第一，SD3模型还支持用文字修改画面内容，精准控制图像中的每一个元素，包括替换和删除。第二，图像无缝转视频，毫无改动痕迹的“移花接木”让人大喊Amazing。

这些不断精进的功能，得益于该模型采用了与Sora同架构的Transformer技术和FlowMatching技术，虽然从发布时间上看似乎有种“既然要卷，干脆就卷麻”的赶脚，但采用新技术也是早前的决定，这一架构也与Sora一样引自去年的论文。

据悉，与Sora相同，目前SD3还未全面开放，公司首席执行官表示在未来将根据用户反馈将该模型开源。但即便还未开放，也已经有一众网友表示，自己的电脑配置快撑不住了。

影驰RTX 4080 SUPER金属大师系列，为你的生产创作使用体验全力加速。搭载满血版的AD103-400核心、16GBGDDR6X大显存和第四代TensorCores、第三代RTCores，使其专业生产力和游戏性能的表现都达到了无可挑剔的水平，另外在TensorRT插件的加持下，AI绘图的生产效率也能瞬间提升。

影驰 GeForce RTX 4080 SUPER新品4080S显卡电竞游戏设计图形渲染AI智能深度学习台式机电脑全新显卡 RTX4080 SUPER 金属大师OC¥ 8099 京东购买

用苹果Vision Pro给老婆打视频吓坏她了

百吋大屏普及风暴的主导者！海信激光电视开启真影院时代

卷疯了！继Sora后，Stable Diffusion 3也卷成了蚊香

相关推荐

央行开展9000亿元1年期MLF操作，中标利率维持不变

首只来了！华泰柏瑞科创200ETF（588233）今起发售

行业ETF风向标丨电池板块率先反弹，新能源车电池ETF半日涨2.06%

华为小艺获评“2024年度中国互联网企业创新发展十大典型案例”

可口可乐全AI广告 只有30s 却给人留下阴影

厦大等名校教师齐聚鸿蒙生态学堂 近百开发者获专业认证

可口可乐全AI广告只有30s 却给人留下阴影

厦大等名校教师齐聚鸿蒙生态学堂近百开发者获专业认证