毕业设计文献阅读——[CVPR2023]Person Image Synthesis via Denoising Diffusion Model
本文的主要贡献
首次将Diffuse Model用于姿态引导任务合成
设计了一个叫 “纹理扩散模块(Texture Diffusion Module)” 的新组件,为了处理长相(Appearance)和动作(Pose)之间复杂的关系。 它能找到源图像和目标图像之间的对应关系(Correspondences),从而生成没有瑕疵(artefact free)的图片。
在生成图片的阶段(Sampling procedure),我们引入了一种 “解耦的无分类器引导(Disentangled Classifier-Free Guidance)” 技术。
原理:它可以把“风格/外貌”和“姿态”分开控制(Disentangled),让生成的图严格听话:
- 风格(Style)紧紧贴合(Tightly align)原图。
- 姿态(Pose)紧紧贴合目标姿态。
- 结果: 保证了输入条件和输出结果的高度相似性(Resemblance)。
结果最强
- 证据 1: 在两个经典数据集(DeepFashion 和 Market 1501)上跑分第一。
- 证据 2: 我们做了用户调研(User study),找真人来打分,大家都觉得好。
- 证据 3: 我们的图不仅好看,还有实用价值。我们证明了用这些生成的图作为数据,可以提高下游任务(比如行人重识别 Person Re-ID)的准确率。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 The Site Of Liu!






