性能显著提高。

类Sora架构加持文生图:Stable Diffusion 3.0图像更逼真,可显示指定文字

2024-02-23 13:45:44发布     来源:多知网    作者:Penny  

  多知网2月23日消息,Stability AI今天发布了其 Stable Diffusion 3.0下一代旗舰文本到图像生成 AI 模型的早期预览版,在图像质量、多个对象、拼写能力方面都有显著提高,它采用了与Sora模型类似的架构。

  根据介绍,Stable Diffusion 3.0旨在提供改进来自多主题提示的图像质量和生成图像有更好的性能,它还将提供比之前的Stable Diffusion更好的文字渲染,从而使生成的图像内部的拼写更加准确和一致。

WechatIMG24.jpg

  (Stable Diffusion3生成的图片,文字清晰可见)

  Stability AI的首席执行官Emad Mostaque提到,Stable Diffusion 3 采用了Diffusion Transformer架构,这是一种新型的架构设计,与OpenAI最近推出的Sora模型采用的架构相似。  

WechatIMG26.jpg

  (Stable Diffusion3生成的图片,图像质量高)

  在过去的一年里,Stability AI一直在稳步迭代并发布多个图像模型,每个模型的复杂程度和质量都在不断提高。7月份发布的 SDXL极大地改进了Stable Diffusion 的基础模型,现在该公司正在寻求进一步的改进。

  对于文生图模型来说,根据Prompt让生成的图像中带有指定的文字一直是个难题,Stable Diffusion 3.0则能很好的解决这个问题。

WechatIMG25.jpg

  (Stable Diffusion3生成的图片,文字清晰可见)

  Stable Diffusion 3.0的模型参数在以800M 到 8B之间。

  根据介绍,现在用户已经可以在加入候补名单,申请Stable Diffusion 3.0的访问权限了:https://stability.ai/stablediffusion3

  实际上,Stability AI在文生视频上也在发力,此前已经推出Stable Video,目前已经开放公测。

  刚刚第一季度,AIGC赛道已经热闹非凡,就文生图来说还有Midjourney及OpenAI旗下的DALL-E 3,个个身怀绝技。(多知网 Penny)