GPT模型的生成策略/解码方法

生成模型,在训练过程中一般采用教师强制(Teacher-forcing)的模式,在生成过程中则采用自由运行(Free-run)的模式。具体地,训练过程中,在第 � 步模型已知真实输出序列前缀 �<� ,训练目标是最大化 �(��|�<�,�) ;在生成过程中,真实文本未知,解码器需要利用模型本身生成的前缀 �^<� 来预测下一个词 �^� 在词表上的概率分布,进而通过搜索或采样的方法从词表中得到一个词作为 �^� ,然后继续下一步的生成。


1、简介

对于生成模型而言,如果生成目标是得到模型认为最优(即概率最高)的文本,则生成时需要解决的问题可以归结为:求一个单词序列 �^ ,使其生成概率 �(�^|�) 达到最大,这是一个典型的搜索问题,搜索空间大小为 |�|� ,其中 |�| 是词表大小, � 是句子的最大长度。得到最优解的搜索方法自然是先遍历所有可能的文本,再比较文本的生成概率,从而取得概率最高的文本,这是一种穷举搜索。但这种方法的时间复杂度、空间复杂度都非常高,因此其它一些搜索方法,如贪心搜索、集束搜索等被广泛使用。尽管这些搜索算法通常不能得到最优解,但因简单有效而被广泛使用。

除此之外,大多数生成任务要求在保证生成文本质量的基础上达到较好的多样性,因此解码时也经常采用基于随机

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/131666655