Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context 论文总结

其他 2022-07-14 14:28:12 阅读次数: 0

Paper：Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context

Code：Transformer-XL code

1. 论文简介

Transfomer-XL = Transformer Extra Long

2. 什么是Transformer

XLNet 使用了 Transformer-XL 中的 Segment Recurrence Mechanism (段循环) 和 Relative Positional Encoding (相对位置编码) 进行优化。

Segment Recurrence Mechanism 段循环的机制会将上一段文本输出的信息保存下来，用于当前文本的计算，使模型可以拥有更广阔的上下文信息。

在引入上一段信息后，可能会有两个 token 拥有相同的位置信息，例如上一段的第一个单词和当前段的第一个单词位置信息都是一样的。因此 Transformer-XL 采用了 Relative Positional Encoding (相对位置编码) ，不使用固定的位置，而是采用单词之间的相对位置进行编码。

3. Vanilla transfomer langange models 简单介绍与缺点

3.1 简单介绍

3.2 缺点

3.2.1 Training with the Vanilla Model (Vanila的训练阶段问题)

1. Tokens at the beginning of each segment do not have sufficent context for proper optimization.

2. Limited by a fixed-length context

3.2.2 Evaluation with the Vanilla Model

1. Longest context limited by segment length.

2. very expensive due to recomputation.

3.2.3. Temporal Incoherence

4. Transformer-XL贡献或主要改进

4.1 Transformer-XL 介绍

4.1.1 Training with Transformer-XL

4.1.2 Evaluation with Transformer-XL

4.1.3. Solution: Relative Positional Encodings

Benefits:

1. Allows recurrence mechanism

2. Better generalization

-> WordLM: Train with memory length 150 , evaluate with 640

-> CharLM: Train with memory length 680, evalute with 3800

4.1 Segment-level Recurrence

Cache and reuse hidden states from last batch

Analogous to Truncated BPTT for RNN : pass the last hidden state to the next segment as the initial hidden

4.2. Keep Temporal information coherenet

5. 总结

参考资料

Transformer-XL_ Attentive Language Models beyond a Fixed-Length Context_哔哩哔哩_bilibili

猜你喜欢

转载自blog.csdn.net/keeppractice/article/details/119790553

Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context 论文总结

论文阅读 | Transformer-XL: Attentive Language Models beyond a Fixed-Length Context

【论文解读】Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

[NLP]Transformer-XL论文解读

NLP 3.9 使用permutation 对 Language model的缺点进行改进；Transformer-XL:对Transformer空间复杂度高进行改进

Transformer-XL框架

LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS

Transformer-XL(未写)

transformer-XL与XLNet笔记

Transformer-XL 模型详解

Attentive Pooling Networks论文讲解

7. Transformer-XL原理介绍

【NLP-16】Transformer-XL

Transformer-XL模型简单介绍

Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

【读论文】Attentive Collaborative Filtering【待完成】

Transformer 和 Transformer-XL——从基础框架理解BERT与XLNet

flutter报错 flutter can not clear a fixed-length list

论文阅读：CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION

论文阅读-Transformer-based language models for software vulnerability detection

常用文本向量化算法总结与代码实现[词袋/N-Gram/TF-IDF/Word2Vec/Glove/FastText/ELMo/BERT/GPT/Transformer-XL/USE/LASER等]

《Enhanced LSTM for Natural Language Inference》论文总结

【文本分类】ACT: an Attentive Convolutional Transformer for Efficient Text Classification

NLP培训课程第3章: 细说Language Model内幕及Transformer XL源码实现

论文笔记：Deep Attentive Tracking via Reciprocative Learning

【论文阅读】HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

【论文笔记】AS Reader vs Stanford Attentive Reader

论文笔记：NAIS: Neural Attentive Item Similarity Model for Recommendation

预训练模型之BERT、Transformer-XL、XL-Net等

Transformer家族2 -- 编码长度优化（Transformer-XL、Longformer）

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)