GPT-2大模型
- 开源代码
- 2025-09-02 17:24:01

GPT-2 大模型 模型架构训练核心思想
GPT-2 :
OpenAI 在 2019 年 2 月推出 GPT-2,并发表 Language Models are Unsupervised Multitask Learners核心思想 : 多任务学习,仅用无监督预训练得到泛化能力更强的语言模型参数 : 最大模型共计 48 层,参数量达 15 亿模型特点 :
训练数据规模更大 , 800w 文档 40G训练参数, batch_size 从 64 增加到 512, 上文窗口大小从 512 增加到 1024优点 : 文本生成效果好,仅 zero-shot 学习 ; 无需额外训练缺点 : 监督学习能力有待提升 , 有些任务表现不佳数据集 :
数据量 : 足够大且覆盖面广,共 800 万篇文章,约 40G来源 : Reddit 高赞的文章 模型架构GPT-2 改动 :
Self-Attention 层 和 Feed Forward 层前 , 放 LN (Layer Normalization,层归一化) 层最后一层放 LN 层输入序列的最大长度扩充到 1024 训练核心思想GPT-2 :
目的 : 用无监督的预训练模型 , 做有监督的任务观念 : zero-shot (零样本学习) , 无需标注数据 , 模型训练