(只看了摘要)
1. A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
介绍了关于GAN的相关Text-to-Image论文,将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,介绍了代表性model。
2. Adversarial Learning of Semantic Relevance in Text to Image Synthesis
介绍的模型以conditional GANs为基础,改进了discriminator的一个辅助功能。该模型生成的图片不受特定种类的限制,并且在语义上匹配文本输入时不会模式崩溃(mode collapse)。采用了负采样的训练方法。数据集:Oxford-102 flflower,使用inception score和multi-scale structural similarity index (MS-SSIM) metrics评定可分辨率和生成图片多样性。
3. Controllable Text-to-Image Generation
ControlGAN。可以控制图片局部生成,一个word-level的generator。有github代码。
4. CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis
content parsing。同时parse文本和图片。设计了一个memory structure。使用了一个conditional discriminator来判断文本图片局部的联系。
5. Cycle Text-to-Image GAN with BERT
基于Attention GAN的改进。引入循环机制,将生成的图片翻译回文本。以BERT预训练的word embedding为基本text featurizer。
6. Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach
使用文本控制image-to-image特定部分的改变,比如“把头发的颜色变成红色”。
7. Development of a New Image-to-text Conversion System for Pashto Farsi and Traditional Chinese
这是ocr,已删。
8. DF-GAN: Deep Fusion Generative Adversarial Networks for Text-to-Image Synthesis
针对高分辨率。提出了一个只有一队discriminator和generator的基本模型,一个新的正则化方法来保证图片和文本的semantic consistency,一个有效利用文本的语义特征并在生产过程中深入融合文本和图像的深度文本图像fusion block。
9. DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis
现有的生成是先生成轮廓,在逐步细化。本论文针对当生成的轮廓效果不好时,引入一个dynamic memory module来修改生成的轮廓。
数据集:Caltech-UCSD Birds 200 dataset, the Microsoft Common Objects in Context dataset
10. Dual Adversarial Inference for Text-to-Image Synthesis
学习了文本中的两个部分:content(例如color, composition)和style description(例如location, quantity,size等),提出dual adversarial inference(双重对抗性推理)。数据集:Oxford-102, CUB,COCO datasets.
11. Efficient Neural Architecture for Text-to-Image Synthesis
文章来源: 博客园
- 还没有人评论,欢迎说说您的想法!