大型文本生成图像模型

1. 开山之作：Glide

地位：它是首个大型文本引导图像生成模型。
做法：它采用了“级联式架构” (Cascaded Architecture)。
- 通俗解释：它不指望一口气吃成胖子。它先生成一张很小的、模糊的图（$64 \times 64$），然后再用另一个模型把它放大、变清晰（$256 \times 256$）。
结果：比之前的模型（VQ-Diffusion等）真实感强多了。

2. 效率之王：Stable Diffusion

痛点：以前的模型（如Glide）直接在像素上画图，计算量太大，训练太贵、太慢。
创新点（潜向量空间）：
- 压缩：文章提到的“编码器 $E$” 就像一个压缩机，把巨大的图片压缩成一个小小的“潜向量”（Latent Vector）。
- 生成：扩散模型不在巨大的图片上跑，而是在这个小小的“潜向量”上跑。这大大降低了计算成本。
- 解压：最后用“解码器 $D$”把它还原成大图。
文本结合：它使用了交叉注意力层 (Cross-Attention)，把文字信息“注射”到生成过程中，指挥模型画图。

3. 两条不同的“变强”路线：DALLE2 vs. Imagen

这部分对比了 OpenAI 和 Google 的不同思路：

DALLE2 (OpenAI) —— 注重“图像特征”
- 两阶段：
  1. 先用 CLIP 模型把你的文字变成一个“图像编码”（Image Embedding）。
  2. 再把这个编码变成图。
- 特点：它也是级联的（$64 \times 64$ $\to$ $1024 \times 1024$），而且它在逆向过程中预测的是图像特征，而不是噪声。
Imagen (Google) —— 注重“语言理解”
- 核心发现：Google 发现，与其费劲改进画图的 UNet 网络，不如搞一个更好的语言模型。
- 做法：它直接用了一个超级巨大的语言模型（T5-XXL，110亿参数）来理解你的提示词（Prompt）。
- 结论：语言模型越强，生成的图质量越高。

4. 专家分工：ERNIE-ViLG 2.0 和 eDiff-I

这是较新的改进思路。

核心思想（专家系统）：
- 生成一张图的过程很长，刚开始是全是噪点，最后是很干净的图。
- 这两个模型认为：这一路上的任务不同，应该换不同的人（网络）来干。
- 分工：生成早期（全是噪点时）非常依赖文本提示；生成后期（修修补补时）几乎不看文本，只看画质。所以不同阶段用不同的去噪网络。

总结与对比

文章最后做了一个大总结：

画质与风格：
- Midjourney：艺术感强，像动漫，但真实性最差。
- Stable Diffusion：真实性最好（FID指标最低，FID越低越好），优于 DALLE2。
分辨率：除了 Glide 和 Stable Diffusion 是生成 $256/512$ 分辨率外，其他模型（DALLE2, Imagen等）大多通过级联生成 $1024 \times 1024$ 的大图。

特殊场景下的文本生成图像模型

第一类：精准控制派（解决“听不懂话”的问题）

普通的扩散模型有时候会“数不清数”或者“搞错颜色”（比如让你画“三个红苹果”，它画了两个绿的）。

LEE 等人的模型（引入强化学习）：
- 思路：它借用了 ChatGPT 训练中的 RLHF（人类反馈强化学习） 思想。
- 做法：先训练一个“判卷老师”（奖励模型），专门给生成的图打分（比如颜色对不对、数量对不对）。然后用这个分数去微调扩散模型。
- 效果：让模型能精准控制生成对象的颜色、数量和背景。
ZHU 等人的模型（强调一致性）：
- 痛点：有时候输入和输出不够匹配。
- 做法：引入了“对比性扩散损失” (Contrastive Diffusion Loss)。简单说，就是强行拉近“输入条件”和“生成结果”之间的数学关系，确保生成的图严格忠实于你的输入。

第二类：宏大叙事派（解决“画幅太小”的问题）

DiffCollage（拼接专家）：
- 痛点：普通模型只能画 512x512 或 1024x1024 的图，画不了超长全景图。
- 做法：它把一张大图看作是由很多个“节点”组成的拼图。它定义了节点之间的关系，保证拼在一起时是连贯的。
- 应用：专门用来画全景图 (Panorama) 或者长画布内容。

第三类：道德审查派（解决“不安全/偏见”的问题）

由于训练数据是从互联网爬取的，模型很容易学坏（黄赌毒）或者有刻板印象。

Safe Latent Diffusion（安全卫士）：
- 痛点：模型可能会生成暴力、血腥的内容。
- 做法：它不再是生成完再屏蔽，而是在生成过程中就进行干预。它引入了“安全指导参数”，引导去噪过程主动远离那些不良信息的方向。
Fair Diffusion（公平卫士）：
- 痛点：刻板印象。比如输入“消防员”，模型总是生成“白人男性”，这不公平。
- 做法：直接删掉数据集里的偏见数据会把模型变笨（泛化能力下降）。这个模型通过构建一个“公平列表”，在生成时强行加入“公平引导”，让生成的肤色、性别更多样化。

生成包含多个物体图像的文本生成图像模型

这一节（2.2.3 生成包含多个物体图像的文本生成图像模型）主要解决的是扩散模型的一个“智商硬伤”：组合困难（Compositionality）。

简单来说，当你给模型输入“一只猫坐在桌子上，旁边有一只狗”时，模型经常会犯傻：比如把猫画成了狗的样子，或者把狗画到了桌子底下，甚至直接把“狗”这个词忘了，只画了猫。

这一节介绍了四种“聪明”的方法来解决这个问题，它们主要分为“分工合作派”和“注意力控制派”：

1. 分工合作派（把复杂的任务拆开做）

Composable Diffusion（组合扩散）——“各画各的，最后拼起来”

提出了结合多个扩散模型生成不同特征的结构化方法。
- 原理：既然一个模型画复杂场景会晕，那就用多个模型。
- 做法：让不同的扩散模型分别负责生成不同的内容（比如模型A负责画天空，模型B负责画树），最后把它们的生成结果结合在一起。
- 优点：能画出比训练数据更复杂、甚至现实中不存在的全新组合场景。
MagicMix ——“语义搅拌机”
- 场景：当你想要混合两个概念时（比如“用咖啡豆做成的柯基犬”）。
- 做法：分两步走。
  1. 布局生成阶段：先生成一个大致的轮廓和语义布局。
  2. 内容生成阶段：再根据文本描述填充细节。
- 目的：为了把两个语义完全不同的概念完美融合，同时保持高质量。

2. 注意力控制派（指挥模型“看哪里”）

这一派的核心都在“Cross-Attention（交叉注意力）”上做文章。你可以把注意力图理解为模型的“视线焦点”。

Directed Diffusion（导演扩散）——“也就是指哪打哪”

通过控制文本生成图像中多项内容的位置，根据给定文本中的单词将注意力图分为词注意力图和词对应位置注意力图，然后通过在高斯窗口中注入激活函数编辑对应的注意力图，降低周围区域的被关注度。该方法只需操纵交叉注意力层，不需要额外训练。
- 痛点：DALLE2 等模型经常搞不清“左边”和“右边”，空间位置乱放。
- 做法：它像一个导演，通过“滑动窗口（高斯窗口）”来编辑注意力图。如果提示词说“左边是猫”，它就强行把“猫”这个词的注意力集中在画布左边，降低周围区域的关注度。
- 亮点：不需要重新训练模型，直接在推理时操纵注意力层就行了。
Attend-and-Excite（专注与激活）——“防止遗忘”

引入了特定的损失函数以最大化每个物体对应的注意力图
- 痛点：Stable Diffusion 有时候会“灾难性遗忘”（Catastrophic Neglect）。比如你让它画“一只马和一只鸟”，它可能只画了马，完全忽略了鸟。
- 做法：它设计了一个特殊的损失函数，时刻盯着注意力图。如果发现模型对某个词（比如“鸟”）的关注度不够，就通过损失函数“激活”它，强迫模型把这个物体画出来。
- 关系：它的思路和上面的 Directed Diffusion 有点像，都是通过操纵注意力来增强控制力。

这一节其实在讲：“如何让模型不再瞎画？”

如果是概念混合（如混合不同物体），用 Composable Diffusion 或 MagicMix。
如果是位置控制（如左边画A，右边画B），用 Directed Diffusion。
如果是防止漏画（确保所有提到的东西都出现），用 Attend-and-Excite。

基于检索增强的文本生成图像模型

这一节（基于检索增强的文本生成图像模型）讲的是扩散模型的一个“作弊技巧”。

如果把普通的 Stable Diffusion 比作一个“死记硬背”的学生（把所有知识都记在模型参数里），那么这一节讲的“检索增强（Retrieval-Augmented）”模型就是一个“会查资料”的学生（它随身带着一本参考书/数据库，生成的时候会去翻书）。

这种思想最早源于语言模型（CacheLM），目的是为了让模型有“长时记忆”。在图像生成领域，这种方法主要解决了三个大问题。我为您将文中的几个核心模型归纳如下：

1. 解决“风格切换难”的问题：TRDM

在推理时为模型提供含有特定风格的数据集，利用现有模型直接生成含有该风格的图像。

痛点：普通模型要换一种画风（比如从水墨画变赛博朋克），通常需要重新训练或者微调，很麻烦。
TRDM 的做法：它在推理阶段（Inference）才去“查阅”一个特定风格的数据集。
优势：即插即用。你想要什么风格，就给它挂载什么风格的参考数据集，完全不需要重新训练模型。
- 比喻：就像画师，你想让他画梵高风，就给他一本梵高画册做参考；想画毕加索，就换一本毕加索画册。

2. 解决“模型太臃肿”的问题：RDM

用单独的数据库和图像检索策略优化小型的扩散模型

痛点：为了画得好，模型通常越做越大，参数越来越多，跑起来很慢。
RDM (Retrieval-Augmented Diffusion Models) 的做法：它通过检索策略，用外部的数据库来辅助一个小型的扩散模型。
优势：小马拉大车。模型参数量变小了，但在没见过的任务上表现依然很出色。

3. 解决“没见过的东西画不出来”的问题：Re-Imagen 和 KNN-Diffusion

这是检索增强最核心的应用场景。如果用户让你画一个训练集里从来没出现过的“稀有动物”，普通模型只会瞎编。

Re-Imagen：
- 做法：当它遇到不认识的词时，先去数据库里检索相关的图片。然后把检索到的图片作为“辅助信息”（提取高级语义和低级结构特征），喂给生成过程。
- 优势：专门解决“长尾实体”（即训练集中不存在或极少见的物体）的生成问题。
==KNN-Diffusion==：
- 做法：类似于 Re-Imagen，它训练了一个小型模型，通过检索训练集以外的图像来增强生成能力。
- 特色：它不仅能画没见过的东西，还能在保留物体身份信息（Identity）的情况下进行局部的语义编辑。

💡 总结这一节的核心逻辑

这一节其实在传递一个核心观点：不要试图把全世界所有的图片都塞进神经网络的参数里（那太贵、太笨重了）。

相反，我们应该让模型学会“检索”。

利用TRDM来灵活换皮（换风格）；
利用RDM来给模型瘦身；
利用Re-Imagen来让模型画出它这辈子没见过的东西（Out-of-Distribution）。

这种“检索增强”的思路（RAG）目前在 GPT-4 等大语言模型中已经非常普及，在图像生成领域也是一个提升上限的重要手段。

(重要）对图像的主体内容进行演绎的图像生成模型

这一节（2.3 对图像的主体内容进行演绎的图像生成模型）是目前 AIGC 社区最火爆、应用最广泛的领域之一：“个性化生成” (Personalization / Subject-Driven Generation)。

简单来说，通用的 Stable Diffusion 只能画出“一只狗”，但这一节讲的技术能让模型画出“你家那只特定的狗”，并且还能把它放在太空中、穿上超人衣服，同时保持它长得还像它自己。

为了方便理解，我将这一节提到的模型按照“技术流派”分成了三类为你讲解：

1. 开山鼻祖：两条不同的路线

这一节首先介绍了两个最经典的“教模型认识新物体”的方法，它们的思路截然不同：

Textual Inversion (TI) —— “教模型学个新单词”

在不改变图像主体基本属性的情况下，根据文本对图像中的主体进行了创造性演绎，首先通过隐向量空间的文本编码器学习新的概念，然后根据文本所包含的特定概念实现对图像的精细控制
- 原理：它完全不修改生成模型（UNet）的参数。它只是在文本编码器的字典里通过优化找出一个新的向量（比如用 <S*> 代表你的狗）。
- 比喻：就像你告诉模型：“记住，我说‘阿黄’的时候，指的是这张照片里的狗。”
- 优点：模型文件没变，只多了一个很小的词向量文件。
- 缺点：因为不改模型，有时候学得不够像。
DreamBooth —— “给模型做个脑部微调”

给定3~5 张包含主体的图像和文本条件，在保证图像高保真度的情况下合成该主体在不同场景下的新图像。
- 原理：它通过 3~5 张照片，直接修改大模型（全量微调）的参数，把你的物体和特定的标识符绑定。
- 比喻：这就像把模型抓去特训，强行给它洗脑，让它把你的狗刻在脑子里。
- 特点：学得特别像（保真度高），但训练慢，模型文件大，而且容易“过拟合”（除了你的狗，别的狗都不会画了）。

2. 效率与进化派：解决“太慢”和“太笨”的问题

TI 像得不够，DreamBooth 训练太慢，于是后续工作开始在中间找平衡：

DreamArtist（正反双修）：

基于文本编码器和去噪网络从正反两方面学习表达的隐向量，即利用学习策略平衡参考图像的特征保留和生成的可控性，以提升最终生成图像的细节质量和多样性。
- 它发现 TI 和 DreamBooth 有时候控制力不行。DreamArtist 引入了“正负面引导”，不仅学习“它是什么”，还学习“它不是什么”，以此来提升细节质量。
Custom Diffusion（精准手术）：

通过微调预训练文本图像生成模型交叉注意力层中的与键和值相关的参数完成基于给定的样例和文本的图像编辑任务。
- 做法：它发现没必要微调整个模型，只要微调交叉注意力层（Cross-Attention）（只占 5% 的参数）就够了。
- 优势：训练快，而且支持多概念组合（比如同时教模型认识你的猫和你的狗，它能把它们画在一张图里而不混淆）。
SVDiff（紧凑压缩）：

SVDiff引入了紧凑且高效的参数空间，其参数量是DreamBooth 的1/2 200。此外，该模型采用了数据增强技术以提高模型学习多个内容的能力
- 使用一种数学方法（SVD，奇异值分解）来压缩参数空间，参数量只有 DreamBooth 的 1/2200，非常小巧且高效。
ELITE（极速编码）：

先利用 CLIP中的图像编码器提取层级式特征，再利用全局映射和局部映射将图像分别映射为文字向量和特征向量，最后将这两个向量引入扩散模型的去噪网络生成图像，该ELIFE模型只需0.05 s就能生成一张新图像。
- 痛点：上面那些都要训练几分钟到几十分钟。
- 突破：ELITE 不需要常规训练，它利用一种“全局+局部”的映射网络，只需 0.05秒 就能把一张新图片变成模型能懂的向量，实现几乎实时的个性化。

3. 复杂控制派：解决“乱连线”的问题

当你要画多个特定的物体时，模型很容易搞混（比如把A的颜色涂到B身上）。

Cones（神经元控制）：

在扩散模型中一部分网络参数会控制特定物体的生成，这些参数被称为概念参数，如果冻结这些参数，模型能根据不同的文本生成不同场景的图像，当连接不同物体对应的网络时，模型便能生成包含多个物体的图像
- 它在模型里找到了控制特定物体的“概念神经元”。如果我想画 A 和 B，我就激活 A 和 B 对应的神经元。这大大减少了物体之间的特征混淆。
ReVersion（学习“关系”）：

旨在学习关系提示以捕获多个示例图像的共存关系，根据给定的文本生成相应的内容。即从预训练的文本生成图像模型中学习关系提示，利用介词先验将关系提示有效地引导至文本隐向量空间的关系密集区域，从而应用学习到的关系提示生成具有新对象、新背景和新样式的特定图像。
- 这是一个很有趣的思路。前面的模型都在学“名词”（猫、狗），ReVersion 旨在学习“介词/关系”（比如“在…里面”，“在…背上”）。它能捕捉物体之间的共存关系。

💡 核心总结与“鱼和熊掌”

这一节最后用 表3 (Table 3) 做了一个很重要的总结，揭示了这个领域的核心矛盾：

图像一致性 (Image Consistency)：生成的图跟你给的照片像不像？
- 王者：Custom Diffusion 和 Cones (0.868/0.853) 分数很高，说明它们还原度极高。
- 青铜：Textual Inversion (0.689) 还原度相对较低。
文本一致性 (Text Consistency)：生成的图听不听提示词的话（能不能灵活编辑）？
- 王者：SVDiff (0.323) 最高，说明它改得动。
- 青铜：Textual Inversion (0.183) 比较死板。

一句话概括这一节： 如果你想把自己的照片放进 AI 里玩：

追求极度像，选 DreamBooth 或 Custom Diffusion；
追求速度，选 ELITE；
追求文件小，选 Textual Inversion 或 SVDiff。

以草图为条件的图像生成模型

这一节（以草图为条件的图像生成模型）非常有趣，因为它解决了一个“灵魂画手”的痛点：“我脑子里有画面，但我描述不出来，能不能我随手画个圈，你帮我变成真的？”

普通的文生图（Text-to-Image）只能控制“画什么”（比如“一只猫”），但很难控制“长什么样”（比如猫的姿势、尾巴的角度）。这一节介绍的模型，就是为了让你的“涂鸦”变成“精美大作”。

为了让你看懂，我把文中的 5 个核心模型按“功能特点”分成了三类：

第一类：基础转换派（把草图变真图）

这两个模型是该领域的“主力军”，但它们的流派不同。

1. PITI (基于预训练)

将输入条件映射到与预训练模型对应的隐向量空间，利用解码器得到最终的输入。为了提高结果的真实性，采用了层级式生成策略，并使用隐式分类器作为引导。

核心逻辑：它利用了已经很强大的预训练模型（Glide）。
做法：它训练了一个“映射网络”，把你画的草图直接映射到大模型的“潜空间”里。
特点：
- 不看文字：它主要只看你的草图，不依赖文本提示词。
- 输入直接：直接拿你的草图进去算。

2. Sketch2Photo (多才多艺)

以草图为条件直接指导预训练的文本生成图像模型，无需重新训练，其核心在于引入了基于多层感知器的可训练的隐向量引导预测器，预测器能将噪声图像的潜在特征映射为空间图。由于预测器是在隐向量的每个潜在像素上进行训练的，且训练几千张图像使其具有良好的性能，所以这种训练方式具有很好的灵活性。

核心逻辑：基于更强的 Stable Diffusion 模型。
做法：它不仅看你的草图，还看你的文字提示。它通过微调模型，让草图决定“形状”，让文字决定“风格”和“颜色”。
与 PITI 的区别：
- PITI：无文字，基于 Glide。
- Sketch2Photo：有文字（你可以说“红色的”或“油画风”），基于 Stable Diffusion。

第二类：精细控制派（边缘与颜色）

3. Sketch-Guided Diffusion (边缘向导)

引入了基于多层感知器的可训练的隐向量引导预测器，预测器能将噪声图像的潜在特征映射为空间图。由于预测器是在隐向量的每个潜在像素上进行训练的，且训练几千张图像使其具有良好的性能，所以这种训练方式具有很好的灵活性。

痛点：有时候直接生成，边缘对不齐。
做法：它不需要重新训练整个大模型。它外挂了一个“边缘预测器” (Latent Edge Predictor)。在生成过程中，这个预测器会时刻检查：“现在的噪点图对应的边缘，跟用户画的草图边缘对得上吗？”如果对不上，就修正一下。
优势：非常灵活，不需要大量算力去重训大模型。

4. DiSS (填色专家)

扩展了图像生成的条件，考虑草图、颜色图和真实性3个要素，利用隐式分类器将草图、颜色图编码为隐向量，用潜在变量细化技术调整真实度。

痛点：草图只有线条，没有颜色。
做法：它的输入很丰富，包括草图 + 颜色图。它能同时控制形状和色彩，甚至还能调整图片的“真实度”（Realism）。

第三类：垂直领域派（专门画脸）

5. DiffFaceSketch (人像专家)

仅以草图作为输入，对草图编码和图像生成两阶段进行训练，同时使用数据增强技术从输入的草图中合成不同抽象程度的人脸。

痛点：画人脸最难。普通的模型往往把草图只当个“参考”，生成出来的人脸虽然像人，但跟你画的草图细节（比如眼角的形状）对不上。
做法：它非常强势，只以草图为输入（不让文字干扰）。它把训练分成两步，专门学习如何把草图的每一笔都高保真地还原成真人脸。
优势：最大程度保留了你草图里的视觉特征。

💡 总结这张表 (Table 4)

为了方便记忆，你可以这样理解这一节的进化路线：

PITI：早期的尝试，用草图生成图，不带文字玩。
Sketch-Guided：引入了“边缘预测”，让轮廓更准。
Sketch2Photo：拥抱 Stable Diffusion，加入了“文字控制”，想画什么风格都行。
DiSS：加入了“颜色控制”，不仅仅是黑白线稿了。
DiffFaceSketch：专攻“人脸”，死磕细节还原度。

简单说：这些模型让 AI 变成了你的“神笔马良”，你负责画骨架，AI 负责填肉、上色和修图。

以布局为条件的图像生成模型

普通的 Stable Diffusion 虽然能画出“一只猫在草地上”，但你没法告诉它“猫必须在左下角，草地只占右边三分之一”。这一节介绍的模型，就是为了把“甲方”的草图/排版要求准确地传达给 AI。

为了让你更清晰地理解，我把这一节提到的 8 个模型分成了四种“流派”来讲解：

1. “简单粗暴”的区域控制派

这派的核心思想是：你画个框，我就在这个框里画画。

LayoutDiffuse（框住你）：

提出了基于文本边界框的LayoutDiffuse，通过引入注意力机制，根据语义分布在对应的位置生成指定类别的物体，与基于语意图的Stable Diffusion 相比，LayoutDiffuse 的数值指标更高，生成的图像更准确。
- 做法：它使用“文本边界框” (Text-labeled Bounding Boxes)。你画一个框，标上“猫”；再画一个框，标上“树”。
- 原理：它引入了注意力机制，确保模型在生成时，只在那个框的范围内去关注“猫”这个词。
- 对比：比最早期的基于 Stable Diffusion 的布局生成更准，指标更高。
MultiDiffusion（全局与局部兼顾）：

该模型使用预训练的文本生成图像模型，同时生成图像的全局和局部区域，尽可能减小两者之间的误差。实验证明该模型能得到质量高、语义性强的生成结果。
- 做法：它把生成过程分成两块看：全局（整张图要和谐）和局部（这个框里必须是猫）。
- 优势：它能尽量减小全局和局部之间的割裂感，让图看起来不像是拼贴的，而是一张完整的画。

2. “先填坑后装修”派

这派的思路很独特：先把布局里的“坑”填满特征，再生成图片。

SpaText（空间文本转换）：

以布局草图和对应的文本为条件生成图像。，SpaText在训练过程中将物体对应位置的图像向量填充在生成图像的对应位置，在推理过程中先将文本转化为文本向量，再利用CLIP将文本向量转化为图像向量，并将其填充在生成图像的对应位置。
- 做法：这是一个很有趣的流程。
  1. 先把你的文本（比如“蓝色的车”）通过 CLIP 转换成图像向量。
  2. 把这个向量“填”进你画的布局位置里。
  3. 最后模型再根据这些填好的向量去生成图片。
- 比喻：就像先用铅笔把每个位置大概要画什么东西的“感觉”涂好，然后再上色细化。

3. “复杂逻辑”派（场景图）

有时候布局不仅仅是“左边右边”，还有关系（比如“猫在桌子上”）。

SGDiff（关系大师）：

，第 1阶段的目标是预训练一个场景图编码器，第2阶段的目标是构建以场景图编码器输出向量为条件的扩散模型。
- 核心：它是基于“场景图” (Scene Graph) 的。场景图就是一堆关系节点（节点A是人，节点B是马，边是“骑着”）。
- 流程：两阶段。先预训练一个编码器把这种复杂的关系图读懂，然后再喂给扩散模型去生成。
- 优势：特别适合处理那种哪怕人来画都容易搞错的复杂位置关系。

4. “灵活插件”派（当下最主流）

这是目前应用最广泛的思路，特别是 GLIGEN。

GLIGEN（冻结参数，外挂大脑）：

，通过冻结所有参数的预训练文本生成模型，并引入了自注意力层，利用可训练的注意力层处理位置条件。
- 做法：它完全不动原本训练好的大模型（冻结参数）。它通过插入一个新的“自注意力层”来专门处理位置信息（边界框、关键点等）。
- 优势：非常灵活。因为它不破坏原来的模型，所以原来的模型画质有多好，它就能保留多少，同时还能精准控制位置。
MCM 和 Collage Diffusion：

通过确定各图像的空间位置和视觉属性，将多个不同图像中的物体呈现在一张图像上，利用图像之间的位置布局生成图像。

基于预训练扩散的MCM［94］是在目标模态的有限配对实例上进行训练的小型网络，能提高用户对图像生成的控制，以分割图和草图任意一种或两种为条件，增加了生成条件的多样性。
- MCM：可以用分割图，也可以用草图，甚至两个一起用，主打一个“不挑食”（多模态条件）。
- Collage Diffusion：顾名思义，就是把不同图片里的物体，根据空间位置和视觉属性“拼贴”在一张图里生成。

💡 总结与推荐

这一节的核心逻辑是从“大概画画”到“精准排版”的进化。

如果你只要简单的位置控制，LayoutDiffuse 的思路就够了。
如果你要处理非常复杂的物体关系（谁在谁上面），SGDiff 是专家。
如果你想要现在最先进、最不影响画质的控制，GLIGEN 是必须关注的重点（它也是现在很多 ControlNet 变体的技术基础）。

支持多条件形式引导的图像生成模型

之前的章节讲的都是单一条件（要么只用字，要么只用草图），但这在实际工作中往往不够用。比如设计师可能会说：“我要画一个拿着咖啡杯的女孩（文本），动作要像这张照片（姿态），构图要像这张草图（草图），色调要像那张油画（风格）。”

这一节介绍的模型，就是为了解决这种既要、又要、还要的复杂需求。我为您将其中的四大核心模型分为三类流派来讲解：

1. 稳健的“旁路控制”流派：ControlNet

这是目前 AI 绘画领域最著名、应用最广泛的插件技术。

核心机制（复制与锁定）：
- 它不想破坏原本已经很聪明的 Stable Diffusion 模型。
- 所以，它的做法是：先把原来的模型“锁”起来（参数不变），然后“复制”一份出来专门用来训练。
- 这两个网络一前一后：锁定的网络负责保证画质，复制的网络负责学习你给的条件（如边缘、姿态）。
优势：
- 相当于给大模型做了一个“无损手术”或者“外挂”。
- 它可以支持极其精细的控制，比如边缘检测图 (Canny)、人体骨架图 (Pose)、简笔画等。只要你给它一个骨架，它生成的每一张图都能保持完全一样的动作。

2. 灵活的“积木拼接”流派：Composer 和 T2I-Adapter

这一派主要解决“如何同时控制很多样东西”以及“如何更轻便”的问题。

Composer（指挥家）：
- 特点：它的胃口很大，支持的条件非常多。无论是文本、深度图、草图，还是颜色、风格、掩膜（Mask），它全都能吃进去。
- 能力：它擅长把这些杂乱的信息（局部的和全局的）融合在一起。比如你可以把一张图的“构图”和另一张图的“颜色”拆开，再拼到一起生成新图。
T2I-Adapter（轻量级适配器）：
- 痛点：ControlNet 虽然好，但训练起来还是有点重。
- 创新：它受到“适配器（Adapter）”思想的启发，做了一个非常小的模型。
- 优势：
  - 即插即用：它就像一个 USB 插件，插上就能用，拔了就恢复原样。
  - 轻量灵活：参数量极小，而且可以组合使用（比如同时插一个“控制骨架”的 USB 和一个“控制草图”的 USB）。

3. 省钱的“免训练”流派：FreeDoM

这一派通过数学方法来“白嫖”预训练模型的能力。

痛点：上面那些模型（ControlNet, T2I-Adapter）虽然好，但都需要先拿数据去训练（Training）这个插件，这需要算力和时间。
FreeDoM 的做法：
- 核心：它利用能量函数 (Energy Function) 来引导生成过程。
- 通俗理解：它不是教模型“新知识”，而是在模型生成图片的过程中，用一个数学公式在旁边“指挥”它：“往左一点，不对，往右一点”。
优势：完全不需要训练。只要你写得出那个能量公式，你就可以把它用到任何领域的生成中，成本极低。

💡 总结与趋势

这一节通过这四个模型展示了图像生成的未来发展方向：

更强的可控性：从简单的“画只猫”进化到“画一只这样动作、这样颜色、这样构图的猫”。
更低的成本：从 ControlNet（需要较重训练）$\to$ T2I-Adapter（轻量级训练）$\to$ FreeDoM（无需训练）。“高效”和“低耗”是未来的关键词。

我的建议：

在实际应用中，ControlNet 目前生态最成熟，效果最好；但如果你关注前沿研究，T2I-Adapter 这种模块化设计正在成为新的主流（现在的 IP-Adapter 等都受此影响）。

图像修复

这一节（2.7 图像修复相关方法）主要介绍扩散模型在 Inpainting（图像修复/补全） 领域的应用。

简单来说，图像修复就是：给你一张被遮挡、破损或挖掉一块的图，让你把缺失的部分“脑补”出来，并且要和周围的环境天衣无缝地融合。

文章把这个领域的发展逻辑梳理得非常清晰，从“最早的尝试”到“解决大面积缺失”，再到现在的“万能修复工具”。我为您归纳为三个阶段来解读：

第一阶段：开山之作与缝合难题

代表模型：RePaint

地位：它是最早把扩散模型用到修复任务里的模型之一。
原理：
- 扩散模型的生成过程是“一步步去噪”。
- RePaint 的做法很直观：在每一步去噪时，保留原图中未损坏部分的像素（因为它们是已知的），只生成缺失部分的像素。
遇到的问题：
- 简单的“拼接”会导致“割裂感”。生成的补丁可能单独看还行，但跟周围的背景在语义上连不上（比如背景是草地，补丁里长出个水泥地）。
解决方案（重采样）：
- 它引入了“重采样（Resampling）”策略。
- 通俗理解：就像画画时觉得接缝不自然，就倒退几步重新画，反复磨合几次，让新旧像素之间的过渡更自然，增强语义一致性。

第二阶段：攻克“大坑”

代表模型：SDM

痛点：当图片缺失的面积非常大时，模型很容易“瞎编”，或者接缝处很难处理。
创新点：引入了“不确定性引导”。
- 模型会去计算每个像素点的“不确定性”（Uncertainty Estimation）。
- 对于那些缺失的、不确定的区域，模型会通过“注意力机制”重点关照。
效果：即使是大面积缺失，它也能修得很好，不受缺失形状和大小的影响。

第三阶段：全能型“瑞士军刀” (多任务统一)

这是目前的趋势。研究者发现，修图（Inpainting）、去噪（Denoising）、上色（Colorization）、超分辨率（Super-resolution）其实在数学上都是一回事（都是从坏图变好图）。

所以，大家开始搞通用的复原模型：

DDRM & DDNM（数学与速度派）
- 核心假设：它们把修复问题看作是一个“线性变换”问题。
- 最大优势：
  - 零样本 / 免训练：它们直接利用已经训练好的扩散模型，不需要重新训练。
  - 速度快：DDRM 的修复速度比近似的传统方法快 5倍以上。
- 能力：一个模型就能干所有事（超分、去噪、修复、上色）。
Palette（非线性与画质派）
- 区别：它认为线性变换不够完美，提出了“非线性变换”的解决方案。
- 研究重点：它不仅做修复，还深入研究了损失函数（L1 vs L2）对生成多样性的影响，以及自注意力机制在这个过程中的作用。它更侧重于探索如何生成更高质量、更多样的结果。

💡 总结这一节的核心逻辑

这一节展示了图像修复技术的进化路线：

RePaint：先解决“能不能修”的问题（通过重采样解决接缝）。
SDM：再解决“修得大不大”的问题（通过不确定性引导）。
DDRM/DDNM/Palette：最后解决“能不能更通用、更高效”的问题（从单一修复工具变成了多功能的图像处理平台）。

一句话概括： 现在的扩散模型不仅能帮你把照片里被路人遮挡的部分补全，还能顺便帮你把老照片去噪、上色并变清晰，而且这些功能正在被整合进同一个模型里。

其他相关的条件生成图像模型

这一节（2.8 其他相关的条件生成图像模型）其实是一个“扩展包”。

在前面的章节中，综述已经讲完了主流的“文生图”、“图生图”、“布局生图”等大方向。而这一节则汇总了一些虽非主流架构，但极具创意或实用价值的特殊应用场景。

这些模型解决的不是“能不能画出来”的问题，而是“怎么画连环画”、“怎么保护版权”、“怎么帮用户写提示词”等更具体的问题。

我为您将这五个段落归纳为五个有趣的“特种兵”方向：

1. 故事讲述者：生成连环画

代表工作：PAN 等人 / JEONG 等人

痛点：以前的模型一次只能画一张图。如果你想画一本漫画，你会发现第一页的主角和第二页的主角长得不一样（脸变了，衣服变了）。
突破：
- 提出了能生成连续图像的模型。
- 它以“主要人物图像”、“风格图像”和“文本”为输入，保证生成的一系列图片里，人物长相是统一的，风格是连贯的。
- 这标志着扩散模型开始从“画单张画”向“讲故事”进化。

2. 极简主义者：一张图就能训练 (SinFusion)

代表工作：NIKANKIN 等人 (SinFusion)

痛点：训练大模型需要几亿张图，普通人根本玩不起。
突破：
- 单图训练：它只需要一张图或者一段视频就能训练。
- 原理：通过随机裁剪这张图的局部来让模型学习纹理和结构。
- 能力：学会这一张图后，它能生成类似风格的新图，甚至能根据一段视频的前一帧，预测并生成后续的视频帧。

3. 版权卫士：隐形水印

代表工作：ZHAO 等人

背景：AI 现在的图太真了，引发了严重的版权纠纷和造假风险。
突破：
- 研究如何在扩散模型生成的图片里植入水印。
- 这种水印通常是肉眼看不见的（隐式），但可以通过技术手段检测出来。这为 AI 绘画的商业化部署和法律合规奠定了基础。

4. 辅助教练：数据增强 (DA-Fusion)

代表工作：TRABUCCO 等人

概念：这里 AI 不是为了给人看，而是为了给其他 AI 看。
突破：
- 在训练分类器或其他模型时，数据不够怎么办？用扩散模型造！
- 它能根据类别描述，生成符合要求的新样本，甚至能单独修改图片的前景或背景，从而扩充训练数据集，帮助其他模型提高性能。

5. 提示词助手：Prompt Engineering

代表工作：PROMPTIST (HAO 等人)

痛点：也就是大家常说的“咒语太难念”。精心设计的 Prompt 能画出神作，但普通人写不出来。
突破：
- Promptist：专门训练一个模型来优化你的文本。你输入“一只猫”，它帮你改写成“一只超写实的、4k高清的、坐在夕阳下的可爱猫咪”。
- 后续工作还研究了如何衡量文本的好坏，以及什么样的文本属性更容易生成好图。

💡 总结

这一节展示了扩散模型生态的多样性：它不仅在学画画（故事生成），还在学省钱（单图训练）、学法律（水印）、学教学（数据增强），甚至在学怎么陪你聊天（提示词优化）。这些都是让技术从“实验室”走向“真实世界”的关键步骤。

局限和发展方向

这一章（3. 局限和发展方向）是整篇综述的“收官之作”。对于研究者来说，这部分含金量极高，因为它指出了“现在的坑在哪里”以及“未来可以挖什么矿”。

文章从六个维度剖析了扩散模型的现状和未来。为了让你更直观地理解，我把这六点归纳为“四大核心战场”：

第一战场：粮草与安全（数据层面）

对应章节：3.1 数据集 & 3.5 安全风控

这一块讨论的是模型的“食物”（数据）和“副作用”（假新闻）。

数据不仅要多，还要“纯”：
- 现状：现在的模型都靠海量互联网数据喂养，但网上的数据很脏（有偏见、有暴力内容）。
- 改进：比如 Safe Latent Diffusion（去除暴力）和 Fair Diffusion（去除歧视/偏见）。
- 未来：怎么用更少的数据训练出一样好的模型？怎么自动清洗掉那些“有毒”的数据？
“猫鼠游戏”：造假与打假：
- 现状：生成的图片越来越真，已经很难分辨真伪，容易制造假新闻。
- 困境：造假容易打假难。因为生成质量太高，留下的伪影（破绽）越来越少，导致鉴别真伪的模型（鉴别器）必须做得非常巨大才能识别出来。

第二战场：速度与效率（算法层面）

对应章节：3.2 加速策略

这一块讨论的是如何让模型跑得更快，不再是“贵族玩具”。

现状：DALLE2 和 Imagen 这种大模型参数量在十亿级别，跑得慢又烧显卡。
两大减负方向：
1. 给模型瘦身：像 Stable Diffusion 那样，把计算转移到“潜空间”（降维），大大降低复杂度。
2. 少走几步：本来逆向去噪要走 1000 步，现在通过“特殊采样策略”（如 DDIM）或“知识蒸馏”（老师教学生速成），试图把步数降下来。

第三战场：操控与交互（应用层面）

对应章节：3.3 最优条件 & 3.4 控制层次

这一块讨论的是“如何让模型更听话”。

告别“抽卡”体验：
- 痛点：有时候两个意思差不多的提示词，画出来的东西天差地别。这叫“提示词工程”难题。
- 目标：找到“最优条件”，让模型精准理解你的意图。
控制粒度越来越细：
- 进化史：无条件生成 $\to$ 分类器引导 $\to$ 文本引导 $\to$ 多种条件引导（如 ControlNet）。
- 未来：还要更强的控制力。不仅要控制画什么，还要能简单、直观地控制每一个细节，同时简化用户的操作难度。

第四战场：心脏与骨架（架构层面）

对应章节：3.6 网络结构的设计

这一块是非常硬核的技术底层变革，也是目前的超级热点。

旧王：U-Net
- 目前的绝对主流。因为它结构简单、效率高，且输入输出维度一致，天然适合图像生成。
新皇：Transformer (DiT)
- 趋势：受到计算机视觉领域（Vision Transformer）的启发，大家开始尝试用 Transformer 来代替 U-Net 做去噪网络。
- 代表作：文中提到了 U-ViT 和 DiT (Diffusion Transformers)。
- 原理：把图片切成小块（Patches），像处理文字一样处理图片。
- 注：这部分非常有前瞻性，后来 OpenAI 发布的 Sora 视频模型，核心就是基于 DiT 架构。