Multi-Task-DNN（2019ACL）

在这里插入图片描述

  Multi-Task Deep Neural Networks for Natural Language Understanding
  https://github.com/namisan/mt-dnn.

Model

在这里插入图片描述

Lexicon Encoder ( l1):

输入 $X$ = { $x_1$ ,…, $x_m$ }， $m$ 个token,X可以是单个句子，也可以是多个句子的打包
首个token：[CLS]
句子分割：[SEP]
embedding：word, segment, and positional embeddings的加权

Transformer Encoder (l2):

多层biTransformer encoder将输入表示向量映射到一系列上下文嵌入向量：
$C$ $\in$ $R$ $^d$ $^×$ $^m$
这是不同任务之间的共享表示。与BERT不同，MT-DNN除了预训练之外，还使用多任务目标学习表征。

Multi-task layer:

Single-Sentence Classification Output:

$x$ 表示[ $C$ $L$ $S$ ]位置的上下文embedding（可以看作是句子 $X$ 的整体语义表示）
逻辑回归预测：
在这里插入图片描述

Text Similarity Output:

在这里插入图片描述

Pairwise Text Classification Output:

自然语言推理为例：
前提 $P$ ={ $p_1$ ,…, $p_m$ }
假设 $H$ ={ $h_1$ ,… $h_n$ }
关系 $R$
输出模块和stochastic answer network(SAN)方法一样：
在这里插入图片描述
首先通过连接 $P$ 中单词的上下文嵌入来构建前提 $P$ 的working memory， $P$ 是Transformer encoder的输出，表示为 $M^p$ $\in$ $R$ $^d$ $^×$ $^m$ ，类似地，假设 $H$ 的working memory，表示为 $M^h$ $\in$ $R$ $^d$ $^×$ $^n$ 。然后，对记忆执行 $K$ 步推理以输出关系标签，其中 $K$ 是超参数。在开始，初始状态 $s_0$ 是 $M_h$ 的总结:
= P jαjMh j，

其中
在这里插入图片描述

在{ $1$ ， $2$ ,…， $K$ $-$ $1$ }范围内的时间步长 $K$ ，state由
sk = GRU(sk 1，xk)

定义。这里， $x^k$ 根据先前的状态 $s$ $^k$ $^-$ $^1$ 和memory $M^p$ 计算:
xk = P jβJmp jandβj = soft max(sk 1W > 2MP)。
$β_j$ = $s$ $o$ $f$ $t$ $m$ $a$ $x$ ( $s$ $^k$ $^−$ $^1$ $W$ $^T$ $M^p$ )