Stable Diffusion 解析：探寻 AI 绘画背后的科技神秘

AI 绘画发展史

在谈论 Stable Diffusion 之前，有必要先了解 AI 绘画的发展历程。

早在 2012 年，华人科学家吴恩达领导的团队训练出了当时世界上最大的深度学习网络。这个网络能够自主学习识别猫等物体，并在短短三天时间内绘制出了一张模糊但可辨识的猫图。尽管这张图片很模糊，但它展示了深度学习在图像识别方面的潜力。

到了 2014 年，加拿大蒙特利尔大学的谷歌科学家 Ian Goodfellow 提出了生成对抗网络 GAN 的算法，这一算法一度成为 AI 生成绘画的主流方向。GAN 的原理是通过训练两个深度神经网络模型——生成器 Generator 和判别器 Discriminator ，使得生成器能够生成与真实数据相似的新数据样本，并且判别器可以准确地区分生成器生成的假样本和真实数据。GAN 的核心思想是博弈，生成器试图欺骗判别器，而判别器则努力辨别真伪，二者相互对抗、相互协作，最终实现高质量的数据生成效果。

2016 年，基于 GAN 的第一个文本到图像模型 GAN-INT-CLS 问世，证明了 GAN 在从文本生成图像方面的可行性，为各类基于 GAN 的有条件图像生成模型的涌现打开了大门。然而，GAN 在训练过程中很容易出现不稳定或崩溃的情况，因此难以大规模应用。

同年 10 月，NVIDIA 提出了 ProgressiveGAN，通过逐渐增加神经网络规模生成高分辨率图像，从而降低了模型训练难度并提高了生成质量，为后来的 StyleGAN 的崛起铺平了道路。

2017 年，谷歌发表了著名论文《Attention Is All You Need》，提出了 Transformer 结构，随后在自然语言处理领域大放异彩；虽然 Transformer 是为了解决自然语言处理问题而设计的，但它在图像生成领域也显示了巨大的潜力。2020 年，他们又提出了 ViT 概念，尝试用 Transformer 结构替代传统的卷积神经网络 CNN 结构在计算机视觉中的应用。

2020 年出现了转折。加州大学伯克利分校提出了众所周知的去噪扩散概率模型 DDPM，简化了原有模型的损失函数，将训练目标转变为预测当前步添加的噪声信息，极大降低了训练难度，并将网络模块由全卷积网络替换为 Unet，提升了模型的表达能力。

2021 年 1 月，OpenAI 发布了基于 VQVAE 模型的 DALL-E 和 CLIP 模型 Contrastive Language-Image Pre-Training，它们分别用于文本到图像生成和文本与图像之间的对比学习。这让 AI 似乎第一次真正“理解”了人类的描述并进行创作，激发了人们前所未有的对 AI 绘画的热情。2021 年 10 月，谷歌发布的 Disco Diffusion 模型以其惊人的图像生成效果拉开了扩散模型的时代序幕。

2022 年 2 月，由一些开源社区的工程师开发的基于扩散模型的 AI 绘图生成器 Disco Diffusion 推出。从那时起，AI 绘画进入了快速发展的轨道，潘多拉魔盒已然打开。Disco Diffusion 相比传统的 AI 模型更加易用，研究人员建立了完善的帮助文档和社群，越来越多的人开始关注它。同年 3 月，由 Disco Diffusion 核心开发人员参与开发的 AI 生成器 MidJourney 正式发布。MidJourney 选择搭载在 Discord 平台，借助聊天式的人机交互方式，使得操作更加简便，而且无需复杂的参数调节，只需向聊天窗口输入文字就可以生成图像。

更重要的是，MidJourney 生成的图片效果非常惊艳，以至于普通人几乎无法分辨出其生成的作品是否是由 AI 绘制的。在 MidJourney 发布 5 个月后，美国科罗拉多州博览会的艺术比赛评选出了结果，一幅名为《太空歌剧院》的画作获得了第一名，然而其并非人类画师的作品，而是由名为 MidJourney 的人工智能创作的。

当参赛者公布这幅作品是由 AI 绘制时，引发了许多人类画家的愤怒和焦虑。

2022 年 4 月 10 日，之前提到的 OpenAI 的 DALL·E 2 发布了。无论是 Disco Diffusion 还是 MidJourney，细心观察后仍然能够看出其是由 AI 生成的，但 DALL·E 2 生成的图像已经无法与人类作品区分开了。

Stable Diffusion

2022 年 7 月 29 日，由 Stability.AI 公司研发的 Stable Diffusion 的 AI 生成器开始内测。人们发现用它生成的 AI 绘画作品质量堪比 DALL·E 2，而且限制更少。Stable Diffusion 的内测共分 4 波，邀请了 15000 名用户参与，仅仅十天后，就有一千七百万张图片通过它生成。最关键的是，Stable Diffusion 的开发公司 Stability AI 秉承着开源的理念，“AI by the people，for the people”，这意味着任何人都可以在本地部署自己的 AI 绘画生成器，真正实现了每个人“只要你会说话，就能够创造出一幅画”。开源社区 HuggingFace 迅速适配了它，使得个人部署变得更加简单；而开源工具 Stable-diffusion-webui 则将多种图像生成工具集成在一起，甚至可以在网络端微调模型、训练个人专属模型，备受好评，在 GitHub 上获得了 3.4 万颗星，使得扩散生成模型彻底走出了大型服务，向个人部署迈进。

2022 年 11 月，Stable Diffusion 2.0 发布，新版本生成的分辨率提高了四倍，生成速度也更快。

Stable Diffusion 基于 Latent Diffusion Models，将最耗时的扩散过程放在低维度的潜变量空间，大大降低了算力需求以及个人部署门槛。它使用的潜空间编码缩减因子为 8，换句话说，图像的长和宽被缩减为原来的八分之一，例如一个 512512 的图像在潜空间中直接变为 6464，从而节省了 64 倍的内存！在此基础上，Stable Diffusion 还降低了性能要求。不仅可以快速（以秒计算）生成一张细节丰富的 512512 图像，而且只需一张英伟达消费级的 8GB 2060 显卡。如果没有这个空间压缩转换，它将需要一张 512GB 显存的超级显卡。按照显卡硬件的发展规律，消费者至少需要 8-10 年的时间才能享受到这类应用。这个算法上的重要迭代使得 AI 作画提前进入了每个人的生活。

在本文中，我们探讨了 Stable Diffusion 的发展历程以及对其的介绍。如果你同样是 AI 绘画的爱好者，欢迎和我一起交流探讨。未来，我将持续更新这个系列，分享 Stable Diffusion 的教程以及其他 AI 绘画软件的教学内容。如果您喜欢这些内容，欢迎关注我们！感谢您的阅读，期待在下一期再与您相见！

关于极限科技（INFINI Labs）

极限科技，全称极限数据（北京）科技有限公司，是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室（INFINI Labs）致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队，采用天然分布式的方式来进行远程协作，员工分布在全球各地，希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选，为中国技术品牌输出添砖加瓦。

官网：https://www.infinilabs.com

Stable Diffusion 解析：探寻 AI 绘画背后的科技神秘的更多相关文章

最新版本 Stable Diffusion 开源AI绘画工具之部署篇
目录 AI绘画本地环境要求下载 Stable Diffusion 运行启动 AI绘画关于 AI 绘画最近有多火,既然你有缘能看到这篇文章,那么相信也不需要我过多赘述了吧? 随着 AI 绘画技术的 ...
AI绘画提示词创作指南：DALL·E 2、Midjourney和 Stable Diffusion最全大比拼 ⛵
作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 自然语言处理实战系列:https://www.showmeai.tech ...
基于Docker安装的Stable Diffusion使用CPU进行AI绘画
基于Docker安装的Stable Diffusion使用CPU进行AI绘画由于博主的电脑是为了敲代码考虑买的,所以专门买的高U低显,i9配核显,用Stable Diffusion进行AI绘画的话倒 ...
AI 绘画咒语入门 - Stable Diffusion Prompt 语法指南【成为初级魔导士吧！】
要用好 Stable Diffusion,最最重要的就是掌握 Prompt(提示词).由于提示词对于生成图的影响甚大,所以被称为魔法,用得好惊天动地,用不好魂飞魄散 . 因此本篇整理下提示词的语法(魔 ...
最新版本 Stable Diffusion 开源 AI 绘画工具之使用篇
目录界面参数采样器文生图(txt2img) 图生图(img2img) 模型下载界面参数在使用 Stable Diffusion 开源 AI 绘画之前,需要了解一下绘画的界面和一些参数的意义 ...
最新版本 Stable Diffusion 开源 AI 绘画工具之汉化篇
目录汉化预览下载汉化插件一下载汉化插件二下载汉化插件三开启汉化汉化预览在上一篇文章中,我们安装好了 Stable Diffusion 开源 AI 绘画工具但是整个页面都是英文版的,对于 ...
最新版本 Stable Diffusion 开源 AI 绘画工具之中文自动提词篇
目录标签生成器提示词自动补全标签生成器由于输入正向提示词 prompt 和反向提示词 negative prompt 都是使用英文,所以对学习母语的我们非常不友好使用网址:https://t ...
Stable Diffusion魔法入门
写在前面本文为资料整合,没有原创内容,方便自己查找和学习, 花费了一晚上把sd安装好,又花了大半天了解sd周边的知识,终于体会到为啥这些生成式AI被称为魔法了,魔法使用前要吟唱类比到AI上不就是那些 ...
Midjourney：一步一步教你如何使用 AI 绘画 MJ
一步一步如何使用 Midjourney 教程:教学怎么用 MJ? 一.Midjourney(MJ)是什么? Midjourney是一款使用文字描述来生成高质量图像的AI绘画工具.这篇文章主要介绍了Mi ...
大话AI绘画技术原理与算法优化
引子博主很长一段时间都没有发文,确实是在忙一些技术研究. 如标题所示,本篇博文主要把近段时间的研究工作做一个review. 看过各种相关技术的公关文章,林林总总,水分很多. 也确实没有多少人能把一些 ...

随机推荐

C++ 构造函数实战指南：默认构造、带参数构造、拷贝构造与移动构造
C++ 构造函数构造函数是 C++ 中一种特殊的成员函数,当创建类对象时自动调用.它用于初始化对象的状态,例如为属性分配初始值.构造函数与类同名,且没有返回值类型. 构造函数类型 C++ 支持多种类 ...
第五章：SQL高级处理
第五章:SQL高级处理 5.1 窗口函数 5.1.1 窗口函数概念及基本的使用方法窗口函数也称为OLAP函数.OLAP 是 OnLine AnalyticalProcessing 的简称,意思是对数 ...
HarmonyOS NEXT应用开发案例——阻塞事件冒泡
介绍本示例主要介绍在点击事件中,子组件enabled属性设置为false的时候,如何解决点击子组件模块区域会触发父组件的点击事件问题:以及触摸事件中当子组件触发触摸事件的时候,父组件如果设置触摸事件 ...
Apache RocketMQ 的 Service Mesh 开源之旅
作者 | 凌楚阿里巴巴开发工程师导读:自 19 年底开始,支持 Apache RocketMQ 的 Network Filter 历时 4 个月的 Code Review(Pull Reque ...
重磅官宣：Nacos2.0发布，性能提升10倍
简介: Nacos2.0 作为一个跨代版本,彻底解决了 Nacos1.X 的性能问题,将性能提升了 10 倍. 作者:席翁继 Nacos 1.0 发布以来,Nacos 迅速被成千上万家企业采用,并 ...
IDC报告：阿里云领跑中国数据库市场年度份额首超传统厂商
简介: IDC报告显示,2020年中国关系型数据库软件市场规模达到121.8亿元,同比增长36.5%.其中,以公有云模式部署的关系型数据库市场占比达到51.5%,首次超过传统线下部署模式市场规模, ...
[Go] CORS 支持多个 origin 访问的思路 (Access-Control-Allow-Origin 部分)
以下为局部伪代码,仅供参考: var allowOrigin string allowOrigins := config.AppConf.Get("middleware.cors.allow ...
dotnet OpenXML 解析 PPT 图表面积图入门
本文告诉大家如何使用 OpenXML 解析 PPT 的图表,以面积图为入门例子告诉大家 OpenXML 的存储在 PPT 里面,有强大的图表功能,可以联动 Excel 展示数据.在 PPT 里面的图 ...
vue+vant实现省市联动（van-area）组件（包含比较全面的全国省市数组数据）
组件库太香了,人家nb,自己写的都是** 效果: 1.安装vant库以及main.js的配置 2.一般结合van-popup组件 </template> <van-popup v-m ...
linux-centos7.6 硬盘挂载
目录一 .功能二.VM中设置硬盘 2.1 系统关机状态下 2.2 添加硬盘三.系统中挂载硬盘 3.1 查看硬盘信息 3.2 硬盘分区 3.3 格式化硬盘 3.4 临时挂载硬盘 3.4 开机自动挂 ...