类Sora架构加持文生图：Stable Diffusion 3.0图像更逼真，可显示指定文字

2024-02-23 13:45:44发布来源：多知网作者：Penny

　　多知网2月23日消息，Stability AI今天发布了其 Stable Diffusion 3.0下一代旗舰文本到图像生成 AI 模型的早期预览版，在图像质量、多个对象、拼写能力方面都有显著提高，它采用了与Sora模型类似的架构。

　　根据介绍，Stable Diffusion 3.0旨在提供改进来自多主题提示的图像质量和生成图像有更好的性能，它还将提供比之前的Stable Diffusion更好的文字渲染，从而使生成的图像内部的拼写更加准确和一致。

　　(Stable Diffusion3生成的图片，文字清晰可见)

　　Stability AI的首席执行官Emad Mostaque提到，Stable Diffusion 3 采用了Diffusion Transformer架构，这是一种新型的架构设计，与OpenAI最近推出的Sora模型采用的架构相似。　　

　　(Stable Diffusion3生成的图片，图像质量高)

　　在过去的一年里，Stability AI一直在稳步迭代并发布多个图像模型，每个模型的复杂程度和质量都在不断提高。7月份发布的 SDXL极大地改进了Stable Diffusion 的基础模型，现在该公司正在寻求进一步的改进。

　　对于文生图模型来说，根据Prompt让生成的图像中带有指定的文字一直是个难题，Stable Diffusion 3.0则能很好的解决这个问题。

　　(Stable Diffusion3生成的图片，文字清晰可见)

　　Stable Diffusion 3.0的模型参数在以800M 到 8B之间。

　　根据介绍，现在用户已经可以在加入候补名单，申请Stable Diffusion 3.0的访问权限了：https://stability.ai/stablediffusion3

　　实际上，Stability AI在文生视频上也在发力，此前已经推出Stable Video，目前已经开放公测。

　　刚刚第一季度，AIGC赛道已经热闹非凡，就文生图来说还有Midjourney及OpenAI旗下的DALL-E 3，个个身怀绝技。(多知网 Penny)