Natural Language Generation using Transformers and Seq2

作者:禅与计算机程序设计艺术

1.简介

自然语言生成(NLG)任务旨在通过计算机系统生成人类可以理解的文本、图像或音频等多种形式的输出。这一领域的研究已经有了长足进步,基于神经网络的模型已取得令人满意的成果,但这些模型通常依赖于非常高级的特征工程技巧、复杂的数据预处理方法和极其繁琐的训练过程,导致它们在实际应用中难以部署到生产环境。近年来,随着计算平台、硬件资源、存储容量等的扩充,基于深度学习技术的模型正在迅速崛起。本文将探讨如何利用Transformer和Seq2seq模型进行NLG任务。这两种模型都可用于实现序列到序列的映射,并能够根据输入序列生成出对应的输出序列。

2.基本概念术语说明

NLP

natural language processing,即自然语言处理,是指能够让计算机“懂”人类的语言,如汉语、英语、法语等。NLP有许多子领域,如词性标注、句法分析、命名实体识别、机器翻译、信息提取等。

Transformer

Transformer由Vaswani等人在2017年提出,它是一种用于文本序列转换(sequence translation)的前馈神经网络模型。Transformer对传统seq2seq模型的缺点做出改进,主要特点是使用自注意力机制来建立输入序列与输出序列之间的关联。其关键思想是用注意力机制来消除循环依赖,从而降低模型的过拟合风险,同时保留序列中的全局依赖关系。

Seq2seq模型

seq2seq模型最早由Cho et al.在2014年提出,它是一个编码器-解码器结构,其中编码器生成一个固定长度的向量表示,解码器根据这个向量表示生成目标序列。seq2seq模型最大的

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132867741