运用自注意力机制检测相关语境进行多论对话

ReCoSa: Detecting the Relevant Contexts with Self-Attention forMulti-turn Dialogue Generation[原文]

模型

Word-level Encoder

  • 文本集
  • 句子
  • 输入句子$s_i$,编码输出$h_M$

    • $i_k$:输入,$f_k$:记忆,$o_k$:输出.
    • $w_k$是$x_k$的词嵌入
    • $W_i,W_f,W_o,W_l$是模型参数
    • 用$h_M$代表一个句子,得到句子表示集$\{h^{s_1},\dots,h^{s_N}\}$
  • 定义位置嵌入向量$P_i \in \mathbb R^d,i=1,\dots,N$

    得到句子表示$\{(h^{s_1},P_1),\dots,(h^{s_N},P_N)\}$

注意力计算(参见论文attention-is-all-you-need)

  • 定义注意力分数

    其中$Q\in\mathbb R^{n \times d},K\in\mathbb R^{n\times d},V\in \mathbb R^{n\times d}$

    $d$是隐藏单元

  • multi-head attention(多层scaled dot-product attention)

    其中$W_i^Q\in\mathbb R^{n \times d/H},W_i^K\in\mathbb R^{n\times d/H},W_i^V\in \mathbb R^{n\times d/H}$,$M\in\mathbb R^{n\times d},W\in \mathbb R^{d\times d}$

    $\{(h^{s_1},P_1),\dots,(h^{s_N},P_N)\}$->$O_s$->feed-forward network->$O_s^f$

    是否可以将语境检测运用到机器翻译中?