2019-2020 文本生成图片 Text To Image（T2I） Synthesis 论文整理

1252 0 0

作者:团子好软

（只看了摘要）

1. A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis

　　介绍了关于GAN的相关Text-to-Image论文，将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类，介绍了代表性model。

2. Adversarial Learning of Semantic Relevance in Text to Image Synthesis

　　介绍的模型以conditional GANs为基础，改进了discriminator的一个辅助功能。该模型生成的图片不受特定种类的限制，并且在语义上匹配文本输入时不会模式崩溃（mode collapse）。采用了负采样的训练方法。数据集：Oxford-102 flflower，使用inception score和multi-scale structural similarity index (MS-SSIM) metrics评定可分辨率和生成图片多样性。

3. Controllable Text-to-Image Generation

　　ControlGAN。可以控制图片局部生成，一个word-level的generator。有github代码。

4. CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis

　　content parsing。同时parse文本和图片。设计了一个memory structure。使用了一个conditional discriminator来判断文本图片局部的联系。

5. Cycle Text-to-Image GAN with BERT

　　基于Attention GAN的改进。引入循环机制，将生成的图片翻译回文本。以BERT预训练的word embedding为基本text featurizer。

6. Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach

　　使用文本控制image-to-image特定部分的改变，比如“把头发的颜色变成红色”。

7. Development of a New Image-to-text Conversion System for Pashto Farsi and Traditional Chinese

　　这是ocr，已删。

8. DF-GAN: Deep Fusion Generative Adversarial Networks for Text-to-Image Synthesis

　　针对高分辨率。提出了一个只有一队discriminator和generator的基本模型，一个新的正则化方法来保证图片和文本的semantic consistency，一个有效利用文本的语义特征并在生产过程中深入融合文本和图像的深度文本图像fusion block。

9. DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis

　　现有的生成是先生成轮廓，在逐步细化。本论文针对当生成的轮廓效果不好时，引入一个dynamic memory module来修改生成的轮廓。

　　数据集：Caltech-UCSD Birds 200 dataset， the Microsoft Common Objects in Context dataset

10. Dual Adversarial Inference for Text-to-Image Synthesis

　　学习了文本中的两个部分：content（例如color, composition）和style description(例如location, quantity,size等)，提出dual adversarial inference（双重对抗性推理）。数据集：Oxford-102, CUB，COCO datasets.

11. Efficient Neural Architecture for Text-to-Image Synthesis

　　using a single stage training with a single generator and a single discriminator。引入deep residual networks 和entence interpolation strategy来学习一个平滑的条件空间。

12. GILT Generating Images from Long Text

　　基于不直接描述图片的visual content长文本生成。模型基于StackGAN-v2。数据集：recipe1M。

13.Image-to-Image Translation with Text Guidance

　　文本控制image-to-image,数据集：COCO。

14. MirrorGAN: Learning Text-to-image Generation by Redescription

　　介绍了MirrorGAN：text-to-image-to-text framework，思想有点类似于CycleGAN。

15. Improving Training of Text-to-image Model Using Mode-seeking Function

　　通过使用特定的mode-seeking loss function 来规避图片生成过程中发生的mode collapse，数据集：Caltech Birds (CUB) ， Microsoft COCO。

16. ManiGAN Text-Guided Image Manipulation

　　文本控制image-to-image生成。ManiGAN分为两个部分：ACM建立要修改部分的text到image的映射，并对不需要修改的部分进行编码，DCM完成修改。数据集：Caltech Birds (CUB) ， Microsoft COCO。有代码。

17.PerceptionGAN Real-world Image Construction from Provided Text through Perceptual Understanding

　　通过结合perceptual understanding感知来生成good-initialized的轮廓。基于StackGAN。数据集MS COCO。