大型文本生成图像模型

1. 开山之作:Glide

  • 地位:它是首个大型文本引导图像生成模型。
  • 做法:它采用了“级联式架构” (Cascaded Architecture)
    • 通俗解释:它不指望一口气吃成胖子。它先生成一张很小的、模糊的图($64 \times 64$),然后再用另一个模型把它放大、变清晰($256 \times 256$)。
  • 结果:比之前的模型(VQ-Diffusion等)真实感强多了。

2. 效率之王:Stable Diffusion

  • 痛点:以前的模型(如Glide)直接在像素上画图,计算量太大,训练太贵、太慢。
  • 创新点(潜向量空间)
    • 压缩:文章提到的“编码器 $E$” 就像一个压缩机,把巨大的图片压缩成一个小小的“潜向量”(Latent Vector)。
    • 生成:扩散模型不在巨大的图片上跑,而是在这个小小的“潜向量”上跑。这大大降低了计算成本。
    • 解压:最后用“解码器 $D$”把它还原成大图。
  • 文本结合:它使用了交叉注意力层 (Cross-Attention),把文字信息“注射”到生成过程中,指挥模型画图。

3. 两条不同的“变强”路线:DALLE2 vs. Imagen

这部分对比了 OpenAI 和 Google 的不同思路:

  • DALLE2 (OpenAI) —— 注重“图像特征”
    • 两阶段
      1. 先用 CLIP 模型把你的文字变成一个“图像编码”(Image Embedding)。
      2. 再把这个编码变成图。
    • 特点:它也是级联的($64 \times 64$ $\to$ $1024 \times 1024$),而且它在逆向过程中预测的是图像特征,而不是噪声。
  • Imagen (Google) —— 注重“语言理解”
    • 核心发现:Google 发现,与其费劲改进画图的 UNet 网络,不如搞一个更好的语言模型
    • 做法:它直接用了一个超级巨大的语言模型(T5-XXL,110亿参数)来理解你的提示词(Prompt)。
    • 结论:语言模型越强,生成的图质量越高。

4. 专家分工:ERNIE-ViLG 2.0 和 eDiff-I

这是较新的改进思路。

  • 核心思想(专家系统)
    • 生成一张图的过程很长,刚开始是全是噪点,最后是很干净的图。
    • 这两个模型认为:这一路上的任务不同,应该换不同的人(网络)来干
    • 分工:生成早期(全是噪点时)非常依赖文本提示;生成后期(修修补补时)几乎不看文本,只看画质。所以不同阶段用不同的去噪网络。

总结与对比

文章最后做了一个大总结:

  • 画质与风格
    • Midjourney:艺术感强,像动漫,但真实性最差。
    • Stable Diffusion:真实性最好(FID指标最低,FID越低越好),优于 DALLE2。
  • 分辨率:除了 Glide 和 Stable Diffusion 是生成 $256/512$ 分辨率外,其他模型(DALLE2, Imagen等)大多通过级联生成 $1024 \times 1024$ 的大图。

特殊场景下的文本生成图像模型

第一类:精准控制派(解决“听不懂话”的问题)

普通的扩散模型有时候会“数不清数”或者“搞错颜色”(比如让你画“三个红苹果”,它画了两个绿的)。

  1. LEE 等人的模型(引入强化学习)
    • 思路:它借用了 ChatGPT 训练中的 RLHF(人类反馈强化学习) 思想。
    • 做法:先训练一个“判卷老师”(奖励模型),专门给生成的图打分(比如颜色对不对、数量对不对)。然后用这个分数去微调扩散模型。
    • 效果:让模型能精准控制生成对象的颜色、数量和背景
  2. ZHU 等人的模型(强调一致性)
    • 痛点:有时候输入和输出不够匹配。
    • 做法:引入了“对比性扩散损失” (Contrastive Diffusion Loss)。简单说,就是强行拉近“输入条件”和“生成结果”之间的数学关系,确保生成的图严格忠实于你的输入。

第二类:宏大叙事派(解决“画幅太小”的问题)

  1. DiffCollage(拼接专家)
    • 痛点:普通模型只能画 512x512 或 1024x1024 的图,画不了超长全景图。
    • 做法:它把一张大图看作是由很多个“节点”组成的拼图。它定义了节点之间的关系,保证拼在一起时是连贯的。
    • 应用:专门用来画全景图 (Panorama) 或者长画布内容。

第三类:道德审查派(解决“不安全/偏见”的问题)

由于训练数据是从互联网爬取的,模型很容易学坏(黄赌毒)或者有刻板印象。

  1. Safe Latent Diffusion(安全卫士)
    • 痛点:模型可能会生成暴力、血腥的内容。
    • 做法:它不再是生成完再屏蔽,而是在生成过程中就进行干预。它引入了“安全指导参数”,引导去噪过程主动远离那些不良信息的方向。
  2. Fair Diffusion(公平卫士)
    • 痛点:刻板印象。比如输入“消防员”,模型总是生成“白人男性”,这不公平。
    • 做法:直接删掉数据集里的偏见数据会把模型变笨(泛化能力下降)。这个模型通过构建一个“公平列表”,在生成时强行加入“公平引导”,让生成的肤色、性别更多样化。

生成包含多个物体图像的文本生成图像模型

这一节(2.2.3 生成包含多个物体图像的文本生成图像模型)主要解决的是扩散模型的一个“智商硬伤”组合困难(Compositionality)

简单来说,当你给模型输入“一只猫坐在桌子上,旁边有一只狗”时,模型经常会犯傻:比如把猫画成了狗的样子,或者把狗画到了桌子底下,甚至直接把“狗”这个词忘了,只画了猫。

这一节介绍了四种“聪明”的方法来解决这个问题,它们主要分为“分工合作派”“注意力控制派”

1. 分工合作派(把复杂的任务拆开做)

  • Composable Diffusion(组合扩散)——“各画各的,最后拼起来”

    提出了结合多个扩散模型 生成不同特征的结构化方法。

    • 原理:既然一个模型画复杂场景会晕,那就用多个模型。
    • 做法:让不同的扩散模型分别负责生成不同的内容(比如模型A负责画天空,模型B负责画树),最后把它们的生成结果结合在一起。
    • 优点:能画出比训练数据更复杂、甚至现实中不存在的全新组合场景。
  • MagicMix ——“语义搅拌机”

    • 场景:当你想要混合两个概念时(比如“用咖啡豆做成的柯基犬”)。
    • 做法:分两步走。
      1. 布局生成阶段:先生成一个大致的轮廓和语义布局。
      2. 内容生成阶段:再根据文本描述填充细节。
    • 目的:为了把两个语义完全不同的概念完美融合,同时保持高质量。

2. 注意力控制派(指挥模型“看哪里”)

这一派的核心都在“Cross-Attention(交叉注意力)”上做文章。你可以把注意力图理解为模型的“视线焦点”。

  • Directed Diffusion(导演扩散)——“也就是指哪打哪”

    通过控制文本生成图像中 多项内容的位置,根据给定文本中的单词将注意力 图分为词注意力图和词对应位置注意力图,然后通 过在高斯窗口中注入激活函数编辑对应的注意力 图,降低周围区域的被关注度。该方法只需操纵交 叉注意力层,不需要额外训练。

    • 痛点:DALLE2 等模型经常搞不清“左边”和“右边”,空间位置乱放。
    • 做法:它像一个导演,通过“滑动窗口(高斯窗口)”来编辑注意力图。如果提示词说“左边是猫”,它就强行把“猫”这个词的注意力集中在画布左边,降低周围区域的关注度。
    • 亮点不需要重新训练模型,直接在推理时操纵注意力层就行了。
  • Attend-and-Excite(专注与激活)——“防止遗忘”

    引入了特定的损 失函数以最大化每个物体对应的注意力图

    • 痛点:Stable Diffusion 有时候会“灾难性遗忘”(Catastrophic Neglect)。比如你让它画“一只马和一只鸟”,它可能只画了马,完全忽略了鸟。
    • 做法:它设计了一个特殊的损失函数,时刻盯着注意力图。如果发现模型对某个词(比如“鸟”)的关注度不够,就通过损失函数“激活”它,强迫模型把这个物体画出来。
    • 关系:它的思路和上面的 Directed Diffusion 有点像,都是通过操纵注意力来增强控制力。

这一节其实在讲:“如何让模型不再瞎画?”

  • 如果是概念混合(如混合不同物体),用 Composable DiffusionMagicMix
  • 如果是位置控制(如左边画A,右边画B),用 Directed Diffusion
  • 如果是防止漏画(确保所有提到的东西都出现),用 Attend-and-Excite

基于检索增强的文本生成图像模型

这一节(基于检索增强的文本生成图像模型)讲的是扩散模型的一个“作弊技巧”

如果把普通的 Stable Diffusion 比作一个“死记硬背”的学生(把所有知识都记在模型参数里),那么这一节讲的“检索增强(Retrieval-Augmented)”模型就是一个“会查资料”的学生(它随身带着一本参考书/数据库,生成的时候会去翻书)。

这种思想最早源于语言模型(CacheLM),目的是为了让模型有“长时记忆”。在图像生成领域,这种方法主要解决了三个大问题。我为您将文中的几个核心模型归纳如下:

1. 解决“风格切换难”的问题:TRDM

在推理时为模型提供含有特定风格的数 据集,利用现有模型直接生成含有该风格的图像。

  • 痛点:普通模型要换一种画风(比如从水墨画变赛博朋克),通常需要重新训练或者微调,很麻烦。
  • TRDM 的做法:它在推理阶段(Inference)才去“查阅”一个特定风格的数据集。
  • 优势即插即用。你想要什么风格,就给它挂载什么风格的参考数据集,完全不需要重新训练模型
    • 比喻:就像画师,你想让他画梵高风,就给他一本梵高画册做参考;想画毕加索,就换一本毕加索画册。

2. 解决“模型太臃肿”的问题:RDM

用单独的数据库和图像检索策略优化小型的 扩散模型

  • 痛点:为了画得好,模型通常越做越大,参数越来越多,跑起来很慢。
  • RDM (Retrieval-Augmented Diffusion Models) 的做法:它通过检索策略,用外部的数据库来辅助一个小型的扩散模型。
  • 优势小马拉大车。模型参数量变小了,但在没见过的任务上表现依然很出色。

3. 解决“没见过的东西画不出来”的问题:Re-Imagen 和 KNN-Diffusion

这是检索增强最核心的应用场景。如果用户让你画一个训练集里从来没出现过的“稀有动物”,普通模型只会瞎编。

  • Re-Imagen
    • 做法:当它遇到不认识的词时,先去数据库里检索相关的图片。然后把检索到的图片作为“辅助信息”(提取高级语义和低级结构特征),喂给生成过程。
    • 优势:专门解决“长尾实体”(即训练集中不存在或极少见的物体)的生成问题。
  • ==KNN-Diffusion==:
    • 做法:类似于 Re-Imagen,它训练了一个小型模型,通过检索训练集以外的图像来增强生成能力。
    • 特色:它不仅能画没见过的东西,还能在保留物体身份信息(Identity)的情况下进行局部的语义编辑。

💡 总结这一节的核心逻辑

这一节其实在传递一个核心观点:不要试图把全世界所有的图片都塞进神经网络的参数里(那太贵、太笨重了)。

相反,我们应该让模型学会“检索”

  • 利用TRDM来灵活换皮(换风格);
  • 利用RDM来给模型瘦身;
  • 利用Re-Imagen来让模型画出它这辈子没见过的东西(Out-of-Distribution)。

这种“检索增强”的思路(RAG)目前在 GPT-4 等大语言模型中已经非常普及,在图像生成领域也是一个提升上限的重要手段。

(重要)对图像的主体内容进行演绎的图像生成模型

这一节(2.3 对图像的主体内容进行演绎的图像生成模型)是目前 AIGC 社区最火爆、应用最广泛的领域之一:“个性化生成” (Personalization / Subject-Driven Generation)

简单来说,通用的 Stable Diffusion 只能画出“一只狗”,但这一节讲的技术能让模型画出“你家那只特定的狗”,并且还能把它放在太空中、穿上超人衣服,同时保持它长得还像它自己。

为了方便理解,我将这一节提到的模型按照“技术流派”分成了三类为你讲解:

1. 开山鼻祖:两条不同的路线

这一节首先介绍了两个最经典的“教模型认识新物体”的方法,它们的思路截然不同:

  • Textual Inversion (TI) —— “教模型学个新单词”

    在不改变图像主体基本属 性的情况下,根据文本对图像中的主体进行了创造 性演绎,首先通过隐向量空间的文本编码器学习新 的概念,然后根据文本所包含的特定概念实现对图 像的精细控制

    • 原理:它完全不修改生成模型(UNet)的参数。它只是在文本编码器的字典里通过优化找出一个新的向量(比如用 <S*> 代表你的狗)。
    • 比喻:就像你告诉模型:“记住,我说‘阿黄’的时候,指的是这张照片里的狗。”
    • 优点:模型文件没变,只多了一个很小的词向量文件。
    • 缺点:因为不改模型,有时候学得不够像。
  • DreamBooth —— “给模型做个脑部微调”

    给定3~5 张包含主体的图像和文本条件,在保证图像高保真 度的情况下合成该主体在不同场景下的新图像。

    • 原理:它通过 3~5 张照片,直接修改大模型(全量微调)的参数,把你的物体和特定的标识符绑定。
    • 比喻:这就像把模型抓去特训,强行给它洗脑,让它把你的狗刻在脑子里。
    • 特点:学得特别像(保真度高),但训练慢,模型文件大,而且容易“过拟合”(除了你的狗,别的狗都不会画了)。

2. 效率与进化派:解决“太慢”和“太笨”的问题

TI 像得不够,DreamBooth 训练太慢,于是后续工作开始在中间找平衡:

  • DreamArtist(正反双修)

    基于文本编码器和去噪网络从正反两方面学习表达 的隐向量,即利用学习策略平衡参考图像的特征保 留和生成的可控性,以提升最终生成图像的细节质 量和多样性。

    • 它发现 TI 和 DreamBooth 有时候控制力不行。DreamArtist 引入了“正负面引导”,不仅学习“它是什么”,还学习“它不是什么”,以此来提升细节质量。
  • Custom Diffusion(精准手术)

    通过微调预训 练文本图像生成模型交叉注意力层中的与键和值相 关的参数完成基于给定的样例和文本的图像编辑任 务。

    • 做法:它发现没必要微调整个模型,只要微调交叉注意力层(Cross-Attention)(只占 5% 的参数)就够了。
    • 优势:训练快,而且支持多概念组合(比如同时教模型认识你的猫和你的狗,它能把它们画在一张图里而不混淆)。
  • SVDiff(紧凑压缩)

    SVDiff引入 了紧凑且高效的参数空间,其参数量是DreamBooth 的1/2 200。此外,该模型采用了数据增强技术以提 高模型学习多个内容的能力

    • 使用一种数学方法(SVD,奇异值分解)来压缩参数空间,参数量只有 DreamBooth 的 1/2200,非常小巧且高效。
  • ELITE(极速编码)

    先利用 CLIP中的图像编码器提取层级式特征,再利用全局 映射和局部映射将图像分别映射为文字向量和特征 向量,最后将这两个向量引入扩散模型的去噪网络 生成图像,该ELIFE模型只需0.05 s就能生成一张 新图像。

    • 痛点:上面那些都要训练几分钟到几十分钟。
    • 突破:ELITE 不需要常规训练,它利用一种“全局+局部”的映射网络,只需 0.05秒 就能把一张新图片变成模型能懂的向量,实现几乎实时的个性化。

3. 复杂控制派:解决“乱连线”的问题

当你要画多个特定的物体时,模型很容易搞混(比如把A的颜色涂到B身上)。

  • Cones(神经元控制)

    在扩散模型中一部分网络参数 会控制特定物体的生成,这些参数被称为概念参数, 如果冻结这些参数,模型能根据不同的文本生成不 同场景的图像,当连接不同物体对应的网络时,模型 便能生成包含多个物体的图像

    • 它在模型里找到了控制特定物体的“概念神经元”。如果我想画 A 和 B,我就激活 A 和 B 对应的神经元。这大大减少了物体之间的特征混淆。
  • ReVersion(学习“关系”)

    旨在学习关系提示以捕获多个示例图 像的共存关系,根据给定的文本生成相应的内容。 即从预训练的文本生成图像模型中学习关系提示, 利用介词先验将关系提示有效地引导至文本隐向量 空间的关系密集区域,从而应用学习到的关系提示 生成具有新对象、新背景和新样式的特定图像。

    • 这是一个很有趣的思路。前面的模型都在学“名词”(猫、狗),ReVersion 旨在学习“介词/关系”(比如“在…里面”,“在…背上”)。它能捕捉物体之间的共存关系。

💡 核心总结与“鱼和熊掌”

这一节最后用 表3 (Table 3) 做了一个很重要的总结,揭示了这个领域的核心矛盾

  • 图像一致性 (Image Consistency):生成的图跟你给的照片像不像?
    • 王者Custom DiffusionCones (0.868/0.853) 分数很高,说明它们还原度极高。
    • 青铜:Textual Inversion (0.689) 还原度相对较低。
  • 文本一致性 (Text Consistency):生成的图听不听提示词的话(能不能灵活编辑)?
    • 王者SVDiff (0.323) 最高,说明它改得动。
    • 青铜:Textual Inversion (0.183) 比较死板。

一句话概括这一节: 如果你想把自己的照片放进 AI 里玩:

  • 追求极度像,选 DreamBoothCustom Diffusion
  • 追求速度,选 ELITE
  • 追求文件小,选 Textual InversionSVDiff

以草图为条件的图像生成模型

这一节(以草图为条件的图像生成模型)非常有趣,因为它解决了一个“灵魂画手”的痛点:“我脑子里有画面,但我描述不出来,能不能我随手画个圈,你帮我变成真的?”

普通的文生图(Text-to-Image)只能控制“画什么”(比如“一只猫”),但很难控制“长什么样”(比如猫的姿势、尾巴的角度)。这一节介绍的模型,就是为了让你的“涂鸦”变成“精美大作”

为了让你看懂,我把文中的 5 个核心模型按“功能特点”分成了三类:


第一类:基础转换派(把草图变真图)

这两个模型是该领域的“主力军”,但它们的流派不同。

1. PITI (基于预训练)

将输入条件映射到与预训 练模型对应的隐向量空间,利用解码器得到最终的 输入。为了提高结果的真实性,采用了层级式生成 策略,并使用隐式分类器作为引导。

  • 核心逻辑:它利用了已经很强大的预训练模型(Glide)。
  • 做法:它训练了一个“映射网络”,把你画的草图直接映射到大模型的“潜空间”里。
  • 特点
    • 不看文字:它主要只看你的草图,不依赖文本提示词。
    • 输入直接:直接拿你的草图进去算。

2. Sketch2Photo (多才多艺)

以草图为条件直接 指导预训练的文本生成图像模型,无需重新训练,其 核心在于引入了基于多层感知器的可训练的隐向量 引导预测器,预测器能将噪声图像的潜在特征映射 为空间图。由于预测器是在隐向量的每个潜在像素 上进行训练的,且训练几千张图像使其具有良好的 性能,所以这种训练方式具有很好的灵活性。

  • 核心逻辑:基于更强的 Stable Diffusion 模型。
  • 做法:它不仅看你的草图,还看你的文字提示。它通过微调模型,让草图决定“形状”,让文字决定“风格”和“颜色”。
  • 与 PITI 的区别
    • PITI:无文字,基于 Glide。
    • Sketch2Photo:有文字(你可以说“红色的”或“油画风”),基于 Stable Diffusion。

第二类:精细控制派(边缘与颜色)

3. Sketch-Guided Diffusion (边缘向导)

引入了基于多层感知器的可训练的隐向量 引导预测器,预测器能将噪声图像的潜在特征映射 为空间图。由于预测器是在隐向量的每个潜在像素 上进行训练的,且训练几千张图像使其具有良好的 性能,所以这种训练方式具有很好的灵活性。

  • 痛点:有时候直接生成,边缘对不齐。
  • 做法:它不需要重新训练整个大模型。它外挂了一个“边缘预测器” (Latent Edge Predictor)。在生成过程中,这个预测器会时刻检查:“现在的噪点图对应的边缘,跟用户画的草图边缘对得上吗?”如果对不上,就修正一下。
  • 优势:非常灵活,不需要大量算力去重训大模型。

4. DiSS (填色专家)

扩展了图像生成的条件,考虑草图、颜色 图和真实性3个要素,利用隐式分类器将草图、颜色 图编码为隐向量,用潜在变量细化技术调整真实度。

  • 痛点:草图只有线条,没有颜色。
  • 做法:它的输入很丰富,包括草图 + 颜色图。它能同时控制形状和色彩,甚至还能调整图片的“真实度”(Realism)。

第三类:垂直领域派(专门画脸)

5. DiffFaceSketch (人像专家)

仅以草图作为输入,对草图编码和 图像生成两阶段进行训练,同时使用数据增强技术 从输入的草图中合成不同抽象程度的人脸。

  • 痛点:画人脸最难。普通的模型往往把草图只当个“参考”,生成出来的人脸虽然像人,但跟你画的草图细节(比如眼角的形状)对不上。
  • 做法:它非常强势,只以草图为输入(不让文字干扰)。它把训练分成两步,专门学习如何把草图的每一笔都高保真地还原成真人脸。
  • 优势:最大程度保留了你草图里的视觉特征。

💡 总结这张表 (Table 4)

为了方便记忆,你可以这样理解这一节的进化路线:

  1. PITI:早期的尝试,用草图生成图,不带文字玩。
  2. Sketch-Guided:引入了“边缘预测”,让轮廓更准。
  3. Sketch2Photo:拥抱 Stable Diffusion,加入了“文字控制”,想画什么风格都行。
  4. DiSS:加入了“颜色控制”,不仅仅是黑白线稿了。
  5. DiffFaceSketch:专攻“人脸”,死磕细节还原度。

简单说:这些模型让 AI 变成了你的“神笔马良”,你负责画骨架,AI 负责填肉、上色和修图。

以布局为条件的图像生成模型

普通的 Stable Diffusion 虽然能画出“一只猫在草地上”,但你没法告诉它“猫必须在左下角,草地只占右边三分之一”。这一节介绍的模型,就是为了把“甲方”的草图/排版要求准确地传达给 AI。

为了让你更清晰地理解,我把这一节提到的 8 个模型分成了四种“流派”来讲解:

1. “简单粗暴”的区域控制派

这派的核心思想是:你画个框,我就在这个框里画画。

  • LayoutDiffuse(框住你)

    提出了基于文本边 界框的LayoutDiffuse,通过引入注意力机制,根据语 义分布在对应的位置生成指定类别的物体,与基于 语意图的Stable Diffusion 相比,LayoutDiffuse 的数 值指标更高,生成的图像更准确。

    • 做法:它使用“文本边界框” (Text-labeled Bounding Boxes)。你画一个框,标上“猫”;再画一个框,标上“树”。
    • 原理:它引入了注意力机制,确保模型在生成时,只在那个框的范围内去关注“猫”这个词。
    • 对比:比最早期的基于 Stable Diffusion 的布局生成更准,指标更高。
  • MultiDiffusion(全局与局部兼顾)

    该模型使用预训练的文本生成图像模型,同时 生成图像的全局和局部区域,尽可能减小两者之间 的误差。实验证明该模型能得到质量高、语义性强 的生成结果。

    • 做法:它把生成过程分成两块看:全局(整张图要和谐)和局部(这个框里必须是猫)。
    • 优势:它能尽量减小全局和局部之间的割裂感,让图看起来不像是拼贴的,而是一张完整的画。

2. “先填坑后装修”派

这派的思路很独特:先把布局里的“坑”填满特征,再生成图片。

  • SpaText(空间文本转换)

    以布局草图和对应的文本为条件生 成图像。,SpaText在 训练过程中将物体对应位置的图像向量填充在生成 图像的对应位置,在推理过程中先将文本转化为文 本向量,再利用CLIP将文本向量转化为图像向量, 并将其填充在生成图像的对应位置。

    • 做法:这是一个很有趣的流程。
      1. 先把你的文本(比如“蓝色的车”)通过 CLIP 转换成图像向量
      2. 把这个向量“填”进你画的布局位置里。
      3. 最后模型再根据这些填好的向量去生成图片。
    • 比喻:就像先用铅笔把每个位置大概要画什么东西的“感觉”涂好,然后再上色细化。

3. “复杂逻辑”派(场景图)

有时候布局不仅仅是“左边右边”,还有关系(比如“猫桌子”)。

  • SGDiff(关系大师)

    ,第 1阶段的目标是预训练一个场景图编码 器,第2阶段的目标是构建以场景图编码器输出向 量为条件的扩散模型。

    • 核心:它是基于“场景图” (Scene Graph) 的。场景图就是一堆关系节点(节点A是人,节点B是马,边是“骑着”)。
    • 流程:两阶段。先预训练一个编码器把这种复杂的关系图读懂,然后再喂给扩散模型去生成。
    • 优势:特别适合处理那种哪怕人来画都容易搞错的复杂位置关系。

4. “灵活插件”派(当下最主流)

这是目前应用最广泛的思路,特别是 GLIGEN。

  • GLIGEN(冻结参数,外挂大脑)

    ,通过冻 结所有参数的预训练文本生成模型,并引入了自注 意力层,利用可训练的注意力层处理位置条件。

    • 做法:它完全不动原本训练好的大模型(冻结参数)。它通过插入一个新的“自注意力层”来专门处理位置信息(边界框、关键点等)。
    • 优势:非常灵活。因为它不破坏原来的模型,所以原来的模型画质有多好,它就能保留多少,同时还能精准控制位置。
  • MCM 和 Collage Diffusion

    通过确定各图像的空间位 置和视觉属性,将多个不同图像中的物体呈现在一 张图像上,利用图像之间的位置布局生成图像。

    基于预训练扩散的MCM[94]是在目标模态的有 限配对实例上进行训练的小型网络,能提高用户对 图像生成的控制,以分割图和草图任意一种或两种 为条件,增加了生成条件的多样性。

    • MCM:可以用分割图,也可以用草图,甚至两个一起用,主打一个“不挑食”(多模态条件)。
    • Collage Diffusion:顾名思义,就是把不同图片里的物体,根据空间位置和视觉属性“拼贴”在一张图里生成。

💡 总结与推荐

这一节的核心逻辑是从“大概画画”到“精准排版”的进化

  • 如果你只要简单的位置控制,LayoutDiffuse 的思路就够了。
  • 如果你要处理非常复杂的物体关系(谁在谁上面),SGDiff 是专家。
  • 如果你想要现在最先进、最不影响画质的控制,GLIGEN 是必须关注的重点(它也是现在很多 ControlNet 变体的技术基础)。

支持多条件形式引导的图像生成模型

之前的章节讲的都是单一条件(要么只用字,要么只用草图),但这在实际工作中往往不够用。比如设计师可能会说:“我要画一个拿着咖啡杯的女孩(文本),动作要像这张照片(姿态),构图要像这张草图(草图),色调要像那张油画(风格)。”

这一节介绍的模型,就是为了解决这种既要、又要、还要的复杂需求。我为您将其中的四大核心模型分为三类流派来讲解:

1. 稳健的“旁路控制”流派:ControlNet

这是目前 AI 绘画领域最著名、应用最广泛的插件技术。

  • 核心机制(复制与锁定)
    • 它不想破坏原本已经很聪明的 Stable Diffusion 模型。
    • 所以,它的做法是:先把原来的模型“锁”起来(参数不变),然后“复制”一份出来专门用来训练
    • 这两个网络一前一后:锁定的网络负责保证画质,复制的网络负责学习你给的条件(如边缘、姿态)。
  • 优势
    • 相当于给大模型做了一个“无损手术”或者“外挂”。
    • 它可以支持极其精细的控制,比如边缘检测图 (Canny)人体骨架图 (Pose)简笔画等。只要你给它一个骨架,它生成的每一张图都能保持完全一样的动作。

2. 灵活的“积木拼接”流派:Composer 和 T2I-Adapter

这一派主要解决“如何同时控制很多样东西”以及“如何更轻便”的问题。

  • Composer(指挥家)
    • 特点:它的胃口很大,支持的条件非常多。无论是文本、深度图、草图,还是颜色、风格、掩膜(Mask),它全都能吃进去。
    • 能力:它擅长把这些杂乱的信息(局部的和全局的)融合在一起。比如你可以把一张图的“构图”和另一张图的“颜色”拆开,再拼到一起生成新图。
  • T2I-Adapter(轻量级适配器)
    • 痛点:ControlNet 虽然好,但训练起来还是有点重。
    • 创新:它受到“适配器(Adapter)”思想的启发,做了一个非常小的模型。
    • 优势
      • 即插即用:它就像一个 USB 插件,插上就能用,拔了就恢复原样。
      • 轻量灵活:参数量极小,而且可以组合使用(比如同时插一个“控制骨架”的 USB 和一个“控制草图”的 USB)。

3. 省钱的“免训练”流派:FreeDoM

这一派通过数学方法来“白嫖”预训练模型的能力。

  • 痛点:上面那些模型(ControlNet, T2I-Adapter)虽然好,但都需要先拿数据去训练(Training)这个插件,这需要算力和时间。
  • FreeDoM 的做法
    • 核心:它利用能量函数 (Energy Function) 来引导生成过程。
    • 通俗理解:它不是教模型“新知识”,而是在模型生成图片的过程中,用一个数学公式在旁边“指挥”它:“往左一点,不对,往右一点”。
  • 优势完全不需要训练。只要你写得出那个能量公式,你就可以把它用到任何领域的生成中,成本极低。

💡 总结与趋势

这一节通过这四个模型展示了图像生成的未来发展方向

  1. 更强的可控性:从简单的“画只猫”进化到“画一只这样动作、这样颜色、这样构图的猫”。
  2. 更低的成本:从 ControlNet(需要较重训练)$\to$ T2I-Adapter(轻量级训练)$\to$ FreeDoM(无需训练)。“高效”和“低耗”是未来的关键词

我的建议:

在实际应用中,ControlNet 目前生态最成熟,效果最好;但如果你关注前沿研究,T2I-Adapter 这种模块化设计正在成为新的主流(现在的 IP-Adapter 等都受此影响)。

图像修复

这一节(2.7 图像修复相关方法)主要介绍扩散模型在 Inpainting(图像修复/补全) 领域的应用。

简单来说,图像修复就是:给你一张被遮挡、破损或挖掉一块的图,让你把缺失的部分“脑补”出来,并且要和周围的环境天衣无缝地融合。

文章把这个领域的发展逻辑梳理得非常清晰,从“最早的尝试”到“解决大面积缺失”,再到现在的“万能修复工具”。我为您归纳为三个阶段来解读:

第一阶段:开山之作与缝合难题

代表模型:RePaint

  • 地位:它是最早把扩散模型用到修复任务里的模型之一。
  • 原理
    • 扩散模型的生成过程是“一步步去噪”。
    • RePaint 的做法很直观:在每一步去噪时,保留原图中未损坏部分的像素(因为它们是已知的),只生成缺失部分的像素。
  • 遇到的问题
    • 简单的“拼接”会导致“割裂感”。生成的补丁可能单独看还行,但跟周围的背景在语义上连不上(比如背景是草地,补丁里长出个水泥地)。
  • 解决方案(重采样)
    • 它引入了“重采样(Resampling)”策略。
    • 通俗理解:就像画画时觉得接缝不自然,就倒退几步重新画,反复磨合几次,让新旧像素之间的过渡更自然,增强语义一致性。

第二阶段:攻克“大坑”

代表模型:SDM

  • 痛点:当图片缺失的面积非常大时,模型很容易“瞎编”,或者接缝处很难处理。
  • 创新点:引入了“不确定性引导”
    • 模型会去计算每个像素点的“不确定性”(Uncertainty Estimation)。
    • 对于那些缺失的、不确定的区域,模型会通过“注意力机制”重点关照。
  • 效果:即使是大面积缺失,它也能修得很好,不受缺失形状和大小的影响。

第三阶段:全能型“瑞士军刀” (多任务统一)

这是目前的趋势。研究者发现,修图(Inpainting)、去噪(Denoising)、上色(Colorization)、超分辨率(Super-resolution)其实在数学上都是一回事(都是从坏图变好图)。

所以,大家开始搞通用的复原模型

  1. DDRM & DDNM(数学与速度派)
    • 核心假设:它们把修复问题看作是一个“线性变换”问题。
    • 最大优势
      • 零样本 / 免训练:它们直接利用已经训练好的扩散模型,不需要重新训练。
      • 速度快:DDRM 的修复速度比近似的传统方法快 5倍以上
    • 能力:一个模型就能干所有事(超分、去噪、修复、上色)。
  2. Palette(非线性与画质派)
    • 区别:它认为线性变换不够完美,提出了“非线性变换”的解决方案。
    • 研究重点:它不仅做修复,还深入研究了损失函数(L1 vs L2)对生成多样性的影响,以及自注意力机制在这个过程中的作用。它更侧重于探索如何生成更高质量、更多样的结果。

💡 总结这一节的核心逻辑

这一节展示了图像修复技术的进化路线

  1. RePaint:先解决“能不能修”的问题(通过重采样解决接缝)。
  2. SDM:再解决“修得大不大”的问题(通过不确定性引导)。
  3. DDRM/DDNM/Palette:最后解决“能不能更通用、更高效”的问题(从单一修复工具变成了多功能的图像处理平台)。

一句话概括: 现在的扩散模型不仅能帮你把照片里被路人遮挡的部分补全,还能顺便帮你把老照片去噪、上色并变清晰,而且这些功能正在被整合进同一个模型里。

其他相关的条件生成图像模型

这一节(2.8 其他相关的条件生成图像模型)其实是一个“扩展包”

在前面的章节中,综述已经讲完了主流的“文生图”、“图生图”、“布局生图”等大方向。而这一节则汇总了一些虽非主流架构,但极具创意或实用价值的特殊应用场景。

这些模型解决的不是“能不能画出来”的问题,而是“怎么画连环画”、“怎么保护版权”、“怎么帮用户写提示词”等更具体的问题。

我为您将这五个段落归纳为五个有趣的“特种兵”方向

1. 故事讲述者:生成连环画

代表工作:PAN 等人 / JEONG 等人

  • 痛点:以前的模型一次只能画一张图。如果你想画一本漫画,你会发现第一页的主角和第二页的主角长得不一样(脸变了,衣服变了)。
  • 突破
    • 提出了能生成连续图像的模型。
    • 它以“主要人物图像”、“风格图像”和“文本”为输入,保证生成的一系列图片里,人物长相是统一的,风格是连贯的
    • 这标志着扩散模型开始从“画单张画”向“讲故事”进化。

2. 极简主义者:一张图就能训练 (SinFusion)

代表工作:NIKANKIN 等人 (SinFusion)

  • 痛点:训练大模型需要几亿张图,普通人根本玩不起。
  • 突破
    • 单图训练:它只需要一张图或者一段视频就能训练。
    • 原理:通过随机裁剪这张图的局部来让模型学习纹理和结构。
    • 能力:学会这一张图后,它能生成类似风格的新图,甚至能根据一段视频的前一帧,预测并生成后续的视频帧

3. 版权卫士:隐形水印

代表工作:ZHAO 等人

  • 背景:AI 现在的图太真了,引发了严重的版权纠纷和造假风险。
  • 突破
    • 研究如何在扩散模型生成的图片里植入水印
    • 这种水印通常是肉眼看不见的(隐式),但可以通过技术手段检测出来。这为 AI 绘画的商业化部署和法律合规奠定了基础。

4. 辅助教练:数据增强 (DA-Fusion)

代表工作:TRABUCCO 等人

  • 概念:这里 AI 不是为了给人看,而是为了给其他 AI 看
  • 突破
    • 在训练分类器或其他模型时,数据不够怎么办?用扩散模型造!
    • 它能根据类别描述,生成符合要求的新样本,甚至能单独修改图片的前景或背景,从而扩充训练数据集,帮助其他模型提高性能。

5. 提示词助手:Prompt Engineering

代表工作:PROMPTIST (HAO 等人)

  • 痛点:也就是大家常说的“咒语太难念”。精心设计的 Prompt 能画出神作,但普通人写不出来。
  • 突破
    • Promptist:专门训练一个模型来优化你的文本。你输入“一只猫”,它帮你改写成“一只超写实的、4k高清的、坐在夕阳下的可爱猫咪”。
    • 后续工作还研究了如何衡量文本的好坏,以及什么样的文本属性更容易生成好图。

💡 总结

这一节展示了扩散模型生态的多样性: 它不仅在学画画(故事生成),还在学省钱(单图训练)、学法律(水印)、学教学(数据增强),甚至在学怎么陪你聊天(提示词优化)。这些都是让技术从“实验室”走向“真实世界”的关键步骤。

局限和发展方向

这一章(3. 局限和发展方向)是整篇综述的“收官之作”。对于研究者来说,这部分含金量极高,因为它指出了“现在的坑在哪里”以及“未来可以挖什么矿”

文章从六个维度剖析了扩散模型的现状和未来。为了让你更直观地理解,我把这六点归纳为“四大核心战场”


第一战场:粮草与安全(数据层面)

对应章节:3.1 数据集 & 3.5 安全风控

这一块讨论的是模型的“食物”(数据)和“副作用”(假新闻)。

  • 数据不仅要多,还要“纯”
    • 现状:现在的模型都靠海量互联网数据喂养,但网上的数据很脏(有偏见、有暴力内容)。
    • 改进:比如 Safe Latent Diffusion(去除暴力)和 Fair Diffusion(去除歧视/偏见)。
    • 未来:怎么用更少的数据训练出一样好的模型?怎么自动清洗掉那些“有毒”的数据?
  • “猫鼠游戏”:造假与打假
    • 现状:生成的图片越来越真,已经很难分辨真伪,容易制造假新闻。
    • 困境:造假容易打假难。因为生成质量太高,留下的伪影(破绽)越来越少,导致鉴别真伪的模型(鉴别器)必须做得非常巨大才能识别出来。

第二战场:速度与效率(算法层面)

对应章节:3.2 加速策略

这一块讨论的是如何让模型跑得更快,不再是“贵族玩具”。

  • 现状:DALLE2 和 Imagen 这种大模型参数量在十亿级别,跑得慢又烧显卡。
  • 两大减负方向
    1. 给模型瘦身:像 Stable Diffusion 那样,把计算转移到“潜空间”(降维),大大降低复杂度。
    2. 少走几步:本来逆向去噪要走 1000 步,现在通过“特殊采样策略”(如 DDIM)或“知识蒸馏”(老师教学生速成),试图把步数降下来。

第三战场:操控与交互(应用层面)

对应章节:3.3 最优条件 & 3.4 控制层次

这一块讨论的是“如何让模型更听话”。

  • 告别“抽卡”体验
    • 痛点:有时候两个意思差不多的提示词,画出来的东西天差地别。这叫“提示词工程”难题。
    • 目标:找到“最优条件”,让模型精准理解你的意图。
  • 控制粒度越来越细
    • 进化史:无条件生成 $\to$ 分类器引导 $\to$ 文本引导 $\to$ 多种条件引导(如 ControlNet)。
    • 未来:还要更强的控制力。不仅要控制画什么,还要能简单、直观地控制每一个细节,同时简化用户的操作难度。

第四战场:心脏与骨架(架构层面)

对应章节:3.6 网络结构的设计

这一块是非常硬核的技术底层变革,也是目前的超级热点

  • 旧王:U-Net
    • 目前的绝对主流。因为它结构简单、效率高,且输入输出维度一致,天然适合图像生成。
  • 新皇:Transformer (DiT)
    • 趋势:受到计算机视觉领域(Vision Transformer)的启发,大家开始尝试用 Transformer 来代替 U-Net 做去噪网络。
    • 代表作:文中提到了 U-ViTDiT (Diffusion Transformers)
    • 原理:把图片切成小块(Patches),像处理文字一样处理图片。
    • 注:这部分非常有前瞻性,后来 OpenAI 发布的 Sora 视频模型,核心就是基于 DiT 架构。

💡 总结与启发

读完这一章,如果你想在这个领域做点研究或开发,方向其实很明确:

  1. 如果你是做算法优化的:去研究 DiT 架构(替代 U-Net)或者 加速采样(让出图从 5 秒变成 0.5 秒)。
  2. 如果你是做应用的:去研究如何让 ControlNet 更强,或者如何让用户更容易写出好的提示词
  3. 如果你是做社会伦理的:去研究 AI 换脸检测 或者 去除数据偏见