Sequence-to-Sequence model - 代码天地

Sequence-to-Sequence model

其他 2019-03-23 10:10:57 阅读次数: 0

版权声明：转载请注明出处，谢谢！！！ https://blog.csdn.net/tszupup/article/details/87086740

在2017年发表在AAAI上的论文Topic Aware Neural Response Generation中看到的Sequence-to-Sequence model（序列到序列模型 / Seq2Seq模型）的定义。

在Seq2Seq模型中，给定一个源序列 $X=(x_1,x_2,\cdots,x_T)$ 和一个目标序列 $Y=(y_1,y_2,\cdots,y_{T'})$ ，在 $X$ 已知的情况下，模型最大化 $Y$ 的生成概率： $p(y_1,y_2,\cdots,y_{T'}|x_1,x_2,\cdots,x_T)$ 具体而言，Seq2Seq模型属于编码器-解码器框架的范畴，编码器逐个读取 $X$ 中的元素并通过一个 $RNN$ 模型将其表示成情境向量 $c$ ，然后解码器将 $c$ 作为输入并计算 $Y$ 的生成概率。Seq2Seq模型的目标函数可以变形为以下形式： $p(y_1,y_2,\dots,y_{T'}|x_1,x_2,\dots,x_T)=p(y_1|c)\prod_{t=2}^{T'}p(y_t|c,y_1,\cdots,y_{t-1})$ 作为编码器的RNN模型通过以下方式计算情境向量 $c$ ： $h_t=f(x_t,h_{t-1})$ ； $c=h_T$ ，其中 $h_t$ 表示第 $t$ 个时间步编码器的隐层状态， $f$ 是一个非线性变换，一般是 $LSTM$ 单元或者 $GRU$ 单元。
解码器是一个标准的 $RNN$ 模型，它基于情境向量 $c$ 在每个时间步 $t$ 通过以下公式计算候选词的概率分布： $s_t=f(y_{t-1},s_{t-1},c)$ ； $p_t=softmax(s_t,y_{t-1})$ ，其中 $s_t$ 为解码器 $RNN$ 模型在时间步 $t$ 的隐状态， $y_{t-1}$ 是解码器在时间步 $t-1$ 生成的序列元素。

猜你喜欢

转载自blog.csdn.net/tszupup/article/details/87086740

Sequence-to-Sequence model

Direct speech-to-speech translation with a sequence-to-sequence model

DeepLearning - Overview of Sequence model

Sequence Model (四)

Sequence Model (三)

Sequence Model (二)

【论文阅读】Incorporating copying mechanisim in sequence-to-sequence learning

State of the art speech recognition with sequence-to-sequence models

TensorFlow中Sequence-to-Sequence样例代码详解

Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond

Lecture 8: Machine Translation, Sequence-to-sequence and Attention

A sequence-to-sequence approach for document-level relation extraction

Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting翻译

SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documen

Sequence Models Week 1 Character level language model - Dinosaurus land

BERT Enhanced Neural Machine Translation and Sequence Tagging Model翻译

sequence

【读】seq2seq——（3）Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond

(Copynet)Incorporating Copying Mechanism in Sequence-to-Sequence Learning论文笔记

论文笔记：Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-Sequence Prediction

实体-关系联合抽取：Incorporating Copying Mechanism in Sequence-to-Sequence Learning

语音合成论文优选：声音转换Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification

OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Fr

论文解读：PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training

UML图中的domain model，object model，system sequence diagram以及interaction diagram

Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generation | 文本生成系列论文阅读笔记

【深度学习】语义分割-论文阅读：（ CVPR 2021）SETR：Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspe

李宏毅机器学习课程笔记8：Structured Learning - Linear Model、Structured SVM、Sequence Labeling

[Coling2018]SGM:Sequence Generation Model for Multi-Label Classification

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)