本文的主要贡献

  • 首次将Diffuse Model用于姿态引导任务合成

  • 设计了一个叫 “纹理扩散模块(Texture Diffusion Module)” 的新组件,为了处理长相(Appearance)和动作(Pose)之间复杂的关系。 它能找到源图像和目标图像之间的对应关系(Correspondences),从而生成没有瑕疵(artefact free)的图片。

  • 在生成图片的阶段(Sampling procedure),我们引入了一种 “解耦的无分类器引导(Disentangled Classifier-Free Guidance)” 技术。

    原理:它可以把“风格/外貌”和“姿态”分开控制(Disentangled),让生成的图严格听话:

    • 风格(Style)紧紧贴合(Tightly align)原图。
    • 姿态(Pose)紧紧贴合目标姿态。
    • 结果: 保证了输入条件和输出结果的高度相似性(Resemblance)
  • 结果最强

    • 证据 1: 在两个经典数据集(DeepFashion 和 Market 1501)上跑分第一。
    • 证据 2: 我们做了用户调研(User study),找真人来打分,大家都觉得好。
    • 证据 3: 我们的图不仅好看,还有实用价值。我们证明了用这些生成的图作为数据,可以提高下游任务(比如行人重识别 Person Re-ID)的准确率。