當前位置：首頁 > news >簡體>論文筆記--Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

論文筆記--Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

news 來源：原創 2025/6/14 2:15:59

論文筆記--Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

1. 文章簡介
2. 文章概括
3 文章重點技術
- 3.1 Segment-Level Recurrence with State Reuse
- 3.2 相對位置編碼
4. 文章亮點
5. 原文傳送門

1. 文章簡介

標題：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
作者：Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov
日期：2019
期刊：arxiv preprint

2. 文章概括

??傳統的RNN常常面臨梯度消失或爆炸的問題，LSTM的提出在一定程度上有所緩解，但實驗表明LSTM只能有效利用200個左右上下文單詞信息。Transformer的提出可以充分利用上下文的信息，但受限于輸入的固定長度，一般為256，512等。Al-Fou提出的character-level的Transformer可以將輸入分為不同的segment，但不同的segment之間沒有交互：比如輸入被劃分為 $s_1, \dots, s_L$ 和 $s_{L+1}, \dots, s_N$ 兩個片段，則模型無法利用到 $t < L + 1$ 的信息來預測 $S_{L+1}$ ，從而第二個片段開始位置的幾個token則變得很難預測。
??為了解決上述問題，文章提出了一種類似RNN的循環機制Transformer：Transformer-XL，可有效處理長文本輸入。且文章提出了適應于Transformer-XL的位置編碼方法：相對位置編碼。實驗表明，Transformer-XL在多個數據集上取得了SOTA結果。

3 文章重點技術

3.1 Segment-Level Recurrence with State Reuse

??為了解決Context Fragmentation（基于segmentation的方法無法實現segmentation之間的交互）和fixed length（輸入大小受限）的問題。文章將循環機制引入到Transformer架構。訓練階段，上一個文本片段(segment)的隱藏層狀態被固定（不參與梯度更新）并緩存，在下一個片段中作為擴展的上下文使用。整體架構如下圖所示：

??具體來說，令 $s_\tau = [x_{\tau_1}, \dots, x_{\tau_L}]$ 為第 $\tau$ 個片段，其中 $L$ 為每個片段接收的最大輸入長度。則在計算第 $\tau + 1$ 個片段的第 $n$ 個隱藏層 $h_{\tau + 1}^n$ 時，我們首先通過當前片段和上一個片段的第 $n ? 1$ 個片段的隱藏層得到候選隱藏層 $\tilde{h}_{\tau+1}^{n-1} = StopGradient(h_{\tau}^{n-1}) + h_{\tau + 1}^{n-1}$ ，然后通過候選隱藏層更新當前Transformer的Q, K ,V： $q_{\tau+1}^n,k_{\tau+1}^n,v_{\tau+1}^n = h_{\tau + 1}^{n-1}W_q^T, \tilde{h}_{\tau+1}^{n-1} W_k^T, \tilde{h}_{\tau+1}^{n-1} W_v^T$ ，注意到key和value向量由上下文和當前詞共同確定，從而引入了上一個segment的信息，而query向量只有當前隱藏層確定。再由Q, K, V計算得到當前層的 $h_{\tau+1}^n$ ，即注意力分數。
??上述方法可以有效解決長文本依賴問題，且不丟失上下文信息。此外在評估階段模型無需重新計算前面片段的表征，從而速率更高。另一方面，我們可以很容易地使用前面多個segment的上下文信息，從而文本依賴不局限于前一個segment。

3.2 相對位置編碼

??注意到，按照上述分割方式傳入到模型每個segment的位置編碼均為從1 到 $L$ ，無法有效區分不同segment的信息。從而文章提出了relative positional encoding，即相對位置編碼。具體地，文章預先定義了一個不可學習的位置編碼矩陣（sinusoid） $\mathcal{R}\in\mathbb{R}^{L\times d}$ 。其中行 $R_i$ 表示相對位置為 $i$ 的兩個向量之間的位置編碼向量，即當query和key之間距離為i時直接用 $R_i$ 來作為其位置編碼，和詞向量嵌入進行拼接。
??為了使用相對位置編碼，文章對Transformer的注意力計算公式進行了優化。傳統的Transformer計算方式為 $Q^TK = (W^Q(E_x + U))^T (W^K(E_x + U))$ ，其中 $E_x, U$ 分別表示詞向量和位置向量，則 $q_i$ 和 $k_j$ 之間的注意力分數為 $A_{i,j}^{abs} = E_{x_i}^TW_q^T W_kE_{x_j} + E_{x_i}^TW_q^T U_j + U_i^TW_q^T W_kE_{x_j} + U_i^TW_q^T W_kU_j$ 。我們將其優化為 $A_{i,j}^{rel} = E_{x_i}^TW_q^T W_{k, E}E_{x_j} + E_{x_i}^TW_{k, R}^T R_{i-j} + u^TW_q^T W_{k, E}E_{x_j} + v^TW_q^T W_{k, R}R_{i-j}$ ，上述四項分別代表1）基于內容的尋址 2）內容有關的位置偏差 3）整體內容偏差 4）整體位置偏差。