主页 > 软件开发 >

TokenEmbedding（词嵌入）和PositionalEncoding（位置编码）的矩阵形状关系及转换过程

软件开发
2025-08-28 05:42:02

TokenEmbedding（词嵌入）和PositionalEncoding（位置编码）的矩阵形状关系及转换过程

在从零开始构建一个小型字符级语言模型时，简化的实现步骤是：数据准备→模型架构设计→训练→评估与生成。模型架构设计阶段的流程如下：

图1 模型架构设计阶段的流程

包含了输入层、嵌入层、解码器层和输出层。其中在嵌入层中包括了Token Embedding（词嵌入）和Positional Encoding（位置编码），那么这两个矩阵具体是如何实现的，以及它们之间有什么关系呢？

在Transformer模型中，Token Embedding（词嵌入）和Positional Encoding（位置编码）的矩阵形状关系及转换过程如下：

本文的前置基础，Windows安装Hugging Face Transformers库，看我的文章：Windows安装Hugging Face Transformers库并实现案例训练的详细教程_ktransformers本地windows安装部署-CSDN博客

从零开始构建一个小型字符级语言模型的详细教程（基于Transformer架构）之一数据准备-CSDN博客

一、矩阵形状的对应关系 1.Token Embedding矩阵

形状: (vocab_size=50, d_model=128)

作用: 将字符索引（0~49）映射到128维语义向量空间

示例：字符'h'（索引0）→ 向量[0.2, -1.3, ..., 0.7]（128维）

这里是原始文本提取出来的唯一字符编码成词汇表，再将词汇表中的字符映射到128维语义向量空间。示意图如下：

图2 将所有唯一字符转换为向量表示

2.Positional Encoding矩阵

形状: (block_size=64, d_model=128)

标签：

TokenEmbedding（词嵌入）和PositionalEncoding（位置编码）的矩阵形状关系及转换过程由讯客互联软件开发栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“TokenEmbedding（词嵌入）和PositionalEncoding（位置编码）的矩阵形状关系及转换过程”

上一篇
hive编译慢问题处理

下一篇
火语言RPA--Excel关闭保存文档