稳定扩散分析:探索AI绘画背后的技术奥秘

小夏 科技 更新 2024-02-27

在谈论 Stable Diffusion 之前,有必要了解一下 AI 绘画的演变。

早在 2012 年,由中国科学家 Andrew Ng 领导的团队就训练了当时世界上最大的深度学习网络。 该网络能够学会自主识别猫等物体,并在短短三天内绘制出一张模糊但可识别的猫图。 虽然这个是模糊的,但它展示了深度学习在图像识别方面的潜力。

2014年,加拿大蒙特利尔大学的谷歌科学家伊恩·古德费罗(Ian Goodfellow)提出了一种生成对抗网络GAN的算法,成为AI生成绘画的主流方向。 GaN的工作原理是训练生成器和判别器两个深度神经网络模型,使生成器能够生成与真实数据相似的新数据样本,判别器可以准确区分生成器生成的假样本和真实数据。 GaN的核心思想是生成器试图欺骗鉴别器,鉴别器试图区分真假,两者相互争斗,相互配合,实现高质量的数据生成。

2016年,第一个GAN到图像模型GAN-int-CLS发布,证明了GANs从文本生成图像的可行性,为各种基于GAN的条件图像生成模型的出现打开了大门。 然而,氮化镓在训练过程中容易出现不稳定或崩溃,因此难以大规模应用。

同年10月,NVIDIA提出了Progressivegan,通过逐渐增加神经网络的规模来生成高分辨率图像,使模型训练更容易,生成质量也提高了,为后来Stylegan的崛起铺平了道路。

2017年,谷歌发表了著名的**“Attention is All You Need”,提出了Transformer结构,随后在自然语言处理领域大放异彩; 虽然 Transformer 旨在解决自然语言处理问题,但它在图像生成领域也显示出巨大的潜力。 2020年,他们提出了VIT的概念,试图在计算机视觉中用Transformer结构取代传统的卷积神经网络CNN结构。

2020年的情况变得更糟。 加州大学伯克利分校提出了著名的去噪扩散概率模型DDPM,该模型简化了原始模型的损失函数,将训练目标转换为当前步骤添加的噪声信息,大大降低了训练难度,并将网络模块从全卷积网络替换为UNET,提高了模型的表现能力。

2021 年 1 月,OpenAI 发布了基于 VQVAE 模型的 Dall-E 和 Clip 模型,即对比语言-图像预训练,分别用于文本到图像的生成和文本到图像的对比学习。 这似乎第一次让人工智能真正“理解”了人类的描述并创造了它们,引发了人们对人工智能绘画的空前热情。 2021 年 10 月,谷歌发布了 Disco Diffusion 模型,以其惊人的图像生成开启了扩散模型的时代。

2022 年 2 月,Disco Diffusion 上线,这是一个基于扩散模型的 AI 绘图生成器,由一些开源社区的工程师开发。 从此,AI绘画进入了快速发展的轨道,潘多拉魔盒被打开了。 Disco Diffusion 比传统的 AI 模型更容易使用,随着研究人员建立完善的帮助文档和社区,越来越多的人开始关注它。 同年3月,由Disco Diffusion核心开发者共同开发的AI生成器Midjourney正式发布。 Midjourney选择在Discord平台上上电,借助聊天式的人机交互,操作更简单,无需复杂的参数调整,只需在聊天窗口中输入文字即可生成图像。

更重要的是,Midjourney 生成的结果非常惊人,以至于普通人几乎无法判断生成的艺术品是否是由 AI 绘制的。 Midjourney上映五个月后,美国科罗拉多州博览会的一场艺术比赛选出了艺术比赛的结果,一幅名为《太空歌剧》的画作获得了第一名,但它不是人类艺术家的作品,而是由一个名为Midjourney的人工智能创作的。

当参赛者宣布这幅作品是由人工智能绘制时,引发了许多人类画家的愤怒和焦虑。

2022 年 4 月 10 日,前面提到的 OpenAI 的 DALL·e 2 发布。 无论是 Disco Diffusion 还是 Midjourney,它们都是 AI 生成的,但 Dall·E 2 与人类作品没有区别。

July 29, 2022, 通过 稳定性由一家 AI 公司开发的 Stable Diffusion 的 AI 生成器已开始内部测试。 结果发现,用它生成的 AI 绘画的质量与 Dall·e 2 相当,并且限制较少。 Stable Diffusion 的内测分为四波,邀请了 15,000 名用户,短短十天后,通过它产生了 1700 万**。 至关重要的是,Stable Diffusion 背后的公司 Stability AI 坚持开源理念,“AI 由人民创造,为人民服务”,这意味着任何人都可以在本地部署自己的 AI 绘画生成器,真正实现每个人都可以“只要你能说话就创造一幅画”。 开源社区 HuggingFace 迅速适应,让个人更容易部署; 开源工具stable-diffusion-webui集成了多种图像生成工具,甚至可以在网络端对模型进行微调和训练个人模型,得到了好评和反响3拥有 40,000 颗恒星,扩散生成模型已经完全脱离了大规模服务,进入了个人部署。

2022 年 11 月,稳定扩散 20 发布,新版本生成的分辨率是原来的 4 倍,生成速度更快。

基于潜在扩散模型,稳定扩散将最耗时的扩散过程置于低维潜变量空间中,大大降低了算力要求和个人部署的门槛。 它使用潜空间编码缩减因子 8,换句话说,图像的长度和宽度减少了原始大小的八分之一,例如,512512的图像直接在潜空间中变为 6464,从而节省了 64 倍的内存! 除此之外,Stable Diffusion 还降低了性能要求。 您不仅可以快速(在几秒钟内)生成详细、512512的图像,而且只需要一个 NVIDIA 级 8GB 2060 显卡。 如果没有这种空间压缩转换,它将需要具有 512GB 显存的超级显卡。 根据显卡硬件的演进,消费者至少需要8-10年的时间才能享受到这类应用。 算法的这次重要迭代,提前将AI绘画带入了每个人的生活。

在本文中,我们将了解稳定扩散的演变以及它是如何演变的。 如果你也是AI绘画的粉丝,请随时与我交谈**。 未来,我会继续更新这个系列,分享Stable Diffusion的教程和其他AI绘画软件的教学内容。 如果您喜欢这些内容,请***感谢您的阅读,期待下一期再次见到您!

极致科技,全称极德数据(北京)科技***是一家专注于实时搜索和数据分析的软件公司。 其品牌 Infini Labs 致力于创造终极易于使用的数据探索和分析体验。

极致科技是一支采用自然分布式方式进行远程协作的年轻团队,员工遍布全球,希望成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国科技品牌的输出贡献力量。

官方网站:

相似文章

    稳定扩散的基础知识

    Stable Diffusion 是一个基于扩散模型的图像生成器,具有以下参数 采样步数 采样步数,决定了算法生成图像所采取的步数。增加采样步骤数可使目标图像更小 更准确,但也会增加生成图像所需的时间。ETA 噪点级别,用于控制生成图像的模糊程度。ETA 值越高,图像越模糊,而 ETA 值越低,图像...

    稳定扩散涂装教学需要学习哪些课程?

    稳定扩散绘图教学与人工智能必修课 作为一款先进的AI绘画工具,Stable Diffusion的应用和发展需要深度的人工智能技术作为支撑。因此,如果你想深入学习Stable Diffusion或其他AI绘画技术,通常需要具备一些人工智能的基本知识。以下是一些建议的人工智能相关课程 机器学习基础知识这...

    稳定扩散绘画课程,如何用稳定扩散开始绘画?

    稳定的扩散绘画课程,包括开始绘画的步骤 Stable Diffusion 是一款先进的 AI 绘画工具,它使用深度学习技术为用户提供多种绘画功能和创作可能性。通过稳定扩散绘画课程,您将学习如何充分利用此工具来创作令人惊叹的艺术作品。要开始使用 Stable Diffusion 进行绘画,您可以按照以...

    STABLE DIFFUSION AI DRAWING 的 AI 工程师的月薪是多少?

    稳定扩散AI绘图和人工智能工程师的月薪 作为一款先进的AI绘画工具,Stable Diffusion的应用和发展离不开人工智能工程师的努力。人工智能工程师的月薪因地区 公司规模 经验水平等因素而异。一般来说,在科技产业发达的地区,比如硅谷或中国的一线城市,人工智能工程师的月薪往往更高,可以达到几万元...

    如何开始使用稳定扩散绘图?

    Stable Diffusion 是一款功能强大的 AI 绘画工具,开始使用它的绘画步骤如下 启动软件 首先,您需要启动 Stable Diffusion。选择型号 在软件界面中,您可以选择基本型号。输入关键字 您可以根据自己的创作意图输入相关关键字。选择算法并调整参数 选择合适的算法,并根据需要调...