TransformerDecoder详解

游戏开发
2025-08-26 00:45:02

Transformer Decoder 详解 1. 模型结构图解

Transformer Decoder 由 N 个相同的层堆叠而成，每个层包含以下组件（与 Encoder 不同，Decoder 包含两种注意力机制）：

Input (Shifted Output) │ ├─> Masked Multi-Head Self-Attention → Add & LayerNorm → Encoder-Decoder Attention → Add & LayerNorm → Feed Forward → Add & LayerNorm │ │ │ │ │ └───────────────────────┘ └───────────────┘ └───────────────┘ │ 残差连接残差连接残差连接 │ └─> Output (与输入维度相同)

2. 核心公式与原理 (1) 带掩码的自注意力（Masked Self-Attention）输入矩阵：Decoder 输入 X dec ∈ R m × d model X_{\text{dec}} \in \mathbb{R}^{m \times d_{\text{model}}} Xdec∈Rm×dmodel（m 是目标序列长度）注意力掩码：防止当前位置关注未来信息（训练时用于自回归生成） Mask i j = { 0 if i ≥ j − ∞ if i < j \text{Mask}_{ij} = \begin{cases} 0 & \text{if } i \geq j \\ -\infty & \text{if } i < j \end{cases} Maskij={ 0−∞ifi≥jifi<j 掩码注意力计算： Attention ( Q , K , V ) = softmax ( Q K T d k + Mask ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}} + \text{Mask}\right) V Attention

标签：

TransformerDecoder详解由讯客互联游戏开发栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“TransformerDecoder详解”

上一篇
从面试中的“漏掉步骤”谈自我表达与思维方式的转变

下一篇
【Leetcode】二叉树的最大深度