🌠

当我们在用 AI 画图时，AI 到底在干什么？

当我在 Midjourney 上输入这段内容后，AI 绘制了上面这张图。

Ultra realistic tree with green beech leaves, stunning forests in the background, sunrise light, art by Greg Rutkowski + Alphonse Mucha + Rien Portvliet, 8k --ar 16:9 --testp

这段话大概的意思是，希望有一些超现实的树木和光影，在树林中。以及按照三位喜欢的艺术家的作品混合下风格。

虽然成品很满意，但是这个过程中到底发生了什么？AI 究竟是如何知道这三个艺术家混合在一起的风格是什么样的呢？画的时候为何知道树林和光影是这个感觉？AI 能创造一种新的艺术么？

上述这些疑问，在捣鼓一番 DALL · E 2，Stable Diffusion 等新工具后，反而更加困惑了。因为目前 AI 创作内容（简称 AIGC）的应用如雨后春笋冒出来，而周边配套的服务也开始出现，如分享或交易提示词（就是上面那段文字），又或者反 AIGC 的服务等。

的确，如之前沉思录介绍过的层次步速原理，追求最上层的变化，而忽略了对基础结构的理解。所以接下来的一些时间，会试着分享与总结一些关于 AI 生成内容（主要会以图像为主）的相关文章及概念。

AI 内容生成虽然发展很快，但是其根本的部分并没有变化很多，所以最重要的是用自己的方式来理解背后的原理（但是并非是技术细节）

想起之前和 light 直播时，他有个观点对我启发挺大：

如果你觉得一个领域的发生的事情很重要，想理解的话，就不要去判断单个信息，而是去建立基本框架。从最基础的概念来理解。如果你不这么做，那就不要花心思关注单个信息了。

这篇文章来自于 Jon Stokes ，感谢黄东炜的推荐。本来打算直接翻译一版，但后来发给几个朋友提前看说内容不太好理解，所以根据自己的理解重新编排了内容，只保留 AI 生成图片部分。

AI 生成内容的基础分为：机器学习的基础，任务和模型，应用层三个部分。

基础是最稳定的一层，所以这个领域的知识会比较长期有用。
而应用程序则是变化最快的部分。这样当了解了底层，上面的东西很快就能理解。

本文值得关注的点有：

机器学习能做的三件事：生成、分类、转换

当你进行「AI 内容生成」时，您正在使用文本查询，来返回位于数据空间中某个点的图像。
当你进行「AI 图像分类」时，您正在使用图像查询，来返回潜在空间中输入图像附近的文本。
当您进行图像转换或文本摘要时，您正在潜在空间中搜索你用作输入的文件附近的文件。

AI 并没有「生成」图片，而是在已有的数据集中「查找」你要的内容。换句话说，所有的答案早已存在，只不过在等待问题。所以生成提示语时最好的参考不是文学书的描述，而是如何用 Google 搜索的经验。

感兴趣的朋友，推荐阅读编译的内容：

AI 内容生成的原理
延伸阅读： 🤯沉迷 Midjourney 几十小时后，我在思考什么