本文的主要贡献

首次将Diffuse Model用于姿态引导任务合成
设计了一个叫 “纹理扩散模块（Texture Diffusion Module）” 的新组件，为了处理长相（Appearance）和动作（Pose）之间复杂的关系。它能找到源图像和目标图像之间的对应关系（Correspondences），从而生成没有瑕疵（artefact free）的图片。
在生成图片的阶段（Sampling procedure），我们引入了一种 “解耦的无分类器引导（Disentangled Classifier-Free Guidance）” 技术。

原理：它可以把“风格/外貌”和“姿态”分开控制（Disentangled），让生成的图严格听话：
- 风格（Style）紧紧贴合（Tightly align）原图。
- 姿态（Pose）紧紧贴合目标姿态。
- 结果： 保证了输入条件和输出结果的高度相似性（Resemblance）。
结果最强
- 证据 1： 在两个经典数据集（DeepFashion 和 Market 1501）上跑分第一。
- 证据 2： 我们做了用户调研（User study），找真人来打分，大家都觉得好。
- 证据 3： 我们的图不仅好看，还有实用价值。我们证明了用这些生成的图作为数据，可以提高下游任务（比如行人重识别 Person Re-ID）的准确率。