Transformer简介

Transformer:

一、总体架构

Transformer是“编码器—解码器”架构，由编码器(encoder)和解码器(decoder)组成，其都是多头自注意力模块的叠加。其中，input sequence分成两部分，分别为源(input)输入序列和目标(output)输出序列。前者输入编码器，后者输入解码器，两个序列均需进行embedding表示并加入位置信息。

二、 encoder

1. 总体架构：

Transformer编码器由多个相同的层叠加而成，每个层都有两个子层(sublayer)，第一个是多头自注意力(multi-head self-attention)汇聚；第二个子层是基于位置的前馈神经网络。每个子层都采用了残差链接。

2. 架构设计：

首先对输入序列进行词嵌入表示并加入位置信息。
之后，将当前编码器层的输入序列放入多头自注意力层生成新的向量。具体来说，在计算编码器的自注意力时，查询、键和值都来自于前一个编码器层的输出。
将多头自注意力层的输出与当前编码器层的输入做残差连接并将结果做layer normalization。
将layer normalization后的结果放入全连接层(feed forward)层。该层的作用是对自注意力层中输出的所有位置表示进行变换，所以其被称为基于位置的前馈神经网络。
之后进行残差连接并进行layer normalization。
将结果送入下一个编码器层重复 $次。$

三、 decoder

1.总体架构

如图，解码器接入编码器最后的输出向量。假设编码器学习的序列是“机器学习”。当解码器接收到[BEGIN]Token时会产生第一个字符“机”，之后由产生的第一个字符“机”产生第二个字符“器”，之后由前两个字符“机器”产生第三个字符“机器学”，之后由产生的前三个字符生成“习”，之后由产生的前四个字符产生[END]token，序列生成结束。

如图，序列在经过decoder后，会对生成向量做softmax分类，从词表中查表得到生成的字符。

2. 架构设计：

如图：

如图，解码器与编码器组成很相似，其中：

解码器的第一个multi-head attention变成了masked multi-head attention，该自注意力层只能”向前“看不能”向后看“，因为在解码器中，字符是一个一个产生的，不能”向后“看到当前生成序列的后面字符。
采用了cross attention层
在经过 $个解码器层后，将输出的向量输入到全连接层并进行softmax分类，得到最终输出字符，并将所有输出字符作为下次输入，直到输出 [END] 。$