参考:文本生成图像!GAN生成对抗网络相关论文大汇总

(只看了摘要)

1.  A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis 

  介绍了关于GAN的相关Text-to-Image论文,将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,介绍了代表性model。

 

2. Adversarial Learning of Semantic Relevance in Text to Image Synthesis 

  介绍的模型以conditional GANs为基础,改进了discriminator的一个辅助功能。该模型生成的图片不受特定种类的限制,并且在语义上匹配文本输入时不会模式崩溃(mode collapse)。采用了负采样的训练方法。数据集:Oxford-102 flflower,使用inception score和multi-scale structural similarity index (MS-SSIM) metrics评定可分辨率和生成图片多样性。

 

3. Controllable Text-to-Image Generation

  ControlGAN。可以控制图片局部生成,一个word-level的generator。有github代码。

 

4. CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis

  content parsing。同时parse文本和图片。设计了一个memory structure。使用了一个conditional discriminator来判断文本图片局部的联系。

 

5. Cycle Text-to-Image GAN with BERT

  基于Attention GAN的改进。引入循环机制,将生成的图片翻译回文本。以BERT预训练的word embedding为基本text featurizer。

 

6. Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach

  使用文本控制image-to-image特定部分的改变,比如“把头发的颜色变成红色”。

 

7. Development of a New Image-to-text Conversion System for Pashto Farsi and Traditional Chinese

  这是ocr,已删。

 

8. DF-GAN: Deep Fusion Generative Adversarial Networks for Text-to-Image Synthesis

  针对高分辨率。提出了一个只有一队discriminator和generator的基本模型,一个新的正则化方法来保证图片和文本的semantic consistency,一个有效利用文本的语义特征并在生产过程中深入融合文本和图像的深度文本图像fusion block。

 

9. DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis

  现有的生成是先生成轮廓,在逐步细化。本论文针对当生成的轮廓效果不好时,引入一个dynamic memory module来修改生成的轮廓。

  数据集:Caltech-UCSD Birds 200 dataset, the Microsoft Common Objects in Context dataset

 

10.  Dual Adversarial Inference for Text-to-Image Synthesis

  学习了文本中的两个部分:content(例如color, composition)和style description(例如location, quantity,size等),提出dual adversarial inference(双重对抗性推理)。数据集:Oxford-102, CUB,COCO datasets.

 

11. Efficient Neural Architecture for Text-to-Image Synthesis

  using a single stage training with a single generator and a single discriminator。引入deep residual networks 和entence interpolation strategy来学习一个平滑的条件空间。
 
  基于不直接描述图片的visual content长文本生成。模型基于StackGAN-v2。数据集:recipe1M。
 
  文本控制image-to-image,数据集:COCO。
 
  介绍了MirrorGAN:text-to-image-to-text framework,思想有点类似于CycleGAN。
 
  通过使用特定的mode-seeking loss function 来规避图片生成过程中发生的mode collapse,数据集:Caltech Birds (CUB) , Microsoft COCO。
 
  文本控制image-to-image生成。ManiGAN分为两个部分:ACM建立要修改部分的text到image的映射,并对不需要修改的部分进行编码,DCM完成修改。数据集:Caltech Birds (CUB) , Microsoft COCO。有代码。
 
  通过结合perceptual understanding感知来生成good-initialized的轮廓。基于StackGAN。数据集MS COCO。
 
  不知道是什么论文,有点奇怪。待看。
 
  Object-driven的注意力GAN,专注于以对象为中心的text-to-image生成。数据集COCO。
 
  文本控制image-to-image生成。
 
  Segmentation Attention GAN。数据集CUB,Oxford-102。
 
  新的评估标准Semantic Object Accuracy (SOA)评断文本和图片的语义一致性。
 
  消除语义混乱。数据集:Caltech Birds (CUB) , Microsoft COCO。
 
  attention-based encoder学习word到pixel,条件自回归decoder学习pixel到pixel和图像的生成。使用了Structural Similarity Index评估。数据集:COCO,MNIST-with-captions。
 
  文本控制人像的image-to-image生成。用VQA Perceptual Score评估。(效果看起来不是很好)
 
  文本控制图像修复。有代码。
 
  文本生成图片再生成视频。分两步训练,先根据文本生成高质量的单帧图片,再生成连续帧。
 
  先从图片生成文本,在用到text-to-image 的训练。数据集:LSUN-bedroom
 
  提出新的评估metrics,应该是向量距离差不多的东西。
 
  图片文本互相转化。轻量级模型。使用了transformer,和annealing conditional hinge loss。数据集:CUB,MS-COCO。
 
内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/zyyz1126/p/14474382.html

你还没有登录,请先登录注册
  • 还没有人评论,欢迎说说您的想法!