文本生成统一框架Texygen实践

文本生成是自然语言理解的高级阶段，是实现类人智能的重要手段之一。Geek.AI在AAAI2018中推出了LeakGAN后，终于又推出了TexyGen这个开源文本生成框架。由于之前就想对leakgan深入地看一下，不过这回可以通过TexyGen这个框架来实现实现对近几年的所有文本生成模型的直接实现。

目前其支持的模型如下：

Implemented Models and Original Papers

SeqGAN - SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
MaliGAN - Maximum-Likelihood Augmented Discrete Generative Adversarial Networks
RankGAN - Adversarial ranking for language generation
LeakGAN - Long Text Generation via Adversarial Training with Leaked Information
TextGAN - Adversarial Feature Matching for Text Generation
GSGAN - GANS for Sequences of Discrete Elements with the Gumbel-softmax Distribution

从SeqGAN, LeakGAN、TextGAN等全部涵盖在里面。GAN是实现无监督学习和样本生成的重要方法，而GAN与NLP的结合来实现文本生成也是很自然的切入点。GAN的成功激发了人们对文本离散数据对抗性训练研究的兴趣。例如，序列生成对抗网络SeqGAN是应用REINFORCE算法解决原始GAN目标函数的离散优化的早期尝试之一。自那以后，研究人员提出了许多改进SeqGAN的方法来进一步提升SeqGAN的性能，例如梯度消失（MaliGAN ，RankGAN ，LeakGAN 使用的自举再激活），以及生成长文本时的鲁棒性（LeakGAN）。

如SeqGAN的框架如下所示：