Weekly-221015 - WYM's Blog

本文最后更新于：October 16, 2022 pm

Foundation Transformers

Foundation Transformers

^[1]随着Transformer的发展与完善，人工智能领域的许多任务都有了相关的应用（如Vision、Language与Speech等）。由于任务的不同，我们通常会采用不同的网络架构。

目的： 提出MAGNETO，建立Transformer的通用模型，介绍其不同的变种（针对不同任务），保证训练稳定性。
基础的Transformer模型： ^[2]如下图所示，以注意力机制连接编码器（左）与解码器（右），是一个实现seq2seq的模型，最初在机器翻译的任务上体现了其独特的优势（对长距离信息提取十分有效）。
MAGNETO的改进：网络结构与初始化方法。
- 网络结构： 与Pre-LN相比，Sub-LN对每一个子层(multi-head self-attention、feed-forward network)的输入投影之前和输出投影之前引入了另一种层归一化机制。
- 初始化方法： 采用DeepNet^[3]的初始化机制，这一做法极大提高了训练稳定性，可无副作用地使模型尺寸放大(也就是层数变多)。

论文主要贡献（我觉得最主要的一幅图)

网络结构对比(注意看红色部分，即本文的改进)

在输入的qkv投影之前加入的LN层： 其中，W代表多头注意力机制的一些参数。 $\begin{aligned} Q, K, V &=W^{Q} \mathrm{LN}(x), W^{K} \mathrm{LN}(x), W^{V} \mathrm{LN}(x) \\ \operatorname{MSA}(x) &=x+W^{O} \mathrm{LN}(\operatorname{Attention}(Q, K, V)) \end{aligned}$
在前馈网络中加入的LN层： 其中， $\phi$ 代表非线性激活层。 $\begin{aligned} \mathrm{FC}_{1}(x) &=W^{1} \mathrm{LN}(x) \\ \mathrm{FC}_{2}(x) &=W^{2} \mathrm{LN}(x) \\ \mathrm{FFN}(x) &=\mathrm{FC}_{2}\left(\phi\left(\mathrm{FC}_{1}(x)\right)\right) \end{aligned}$

结论： MAGNETO的初始化方法相比于原始模型更具稳定性（可适用于更大的模型）。
Pre-LN的预期模型更新：
- 前向传播过程： 其中 $x^{l-1}$ 与 $x^{l}$ 分别代表 $l-th$ 子层 $G^{l}$ （Self- Attention MSA）的输入和输出。 $\begin{array}{l} F(x ; \theta)=W^{v o c a b} x^{e} \\ x^{e}=\operatorname{LN}\left(x+\sum_{l=1}^{L} G^{l}\left(x^{l-1}, \theta_{e l}\right)\right), \quad x^{l}=G^{l}\left(x^{l-1}, \theta_{e l}\right) \text { and } x^{0}=x \end{array}$
- 前向计算表示： 其中W代表模型参数，参数量越多，说明模型越大。 $x^{l}=x^{l-1}+W^{l, 2} \phi\left(W^{l, 1} \mathrm{LN}\left(x^{l-1}\right)\right)$
MAGNETO的预期模型更新：
- 前向计算表示： 与上式对比。 $x^{l}=x^{l-1}+W^{l, 2} \mathrm{LN}\left(\phi\left(W^{l, 1} \mathrm{LN}\left(x^{l-1}\right)\right)\right)$
方法对比：
- Pre-LN 参数更新
- MAGNETO 参数更新
- 对权重的处理： 见论文主要贡献图中表格部分。

本文主要目的是进一步提高Transformer的性能，其一是改变网络结构，增加LN层，其二是提高模型稳定性，对模型的参数进行一定的约束，得到一种更加通用的架构，并适用于尽可能多的模型规模。

Transformer