主页 > 开源代码  > 

GPT-2大模型

GPT-2大模型

GPT-2 大模型 模型架构训练核心思想

GPT-2 :

OpenAI 在 2019 年 2 月推出 GPT-2,并发表 Language Models are Unsupervised Multitask Learners核心思想 : 多任务学习,仅用无监督预训练得到泛化能力更强的语言模型参数 : 最大模型共计 48 层,参数量达 15 亿

模型特点 :

训练数据规模更大 , 800w 文档 40G训练参数, batch_size 从 64 增加到 512, 上文窗口大小从 512 增加到 1024优点 : 文本生成效果好,仅 zero-shot 学习 ; 无需额外训练缺点 : 监督学习能力有待提升 , 有些任务表现不佳

数据集 :

数据量 : 足够大且覆盖面广,共 800 万篇文章,约 40G来源 : Reddit 高赞的文章 模型架构

GPT-2 改动 :

Self-Attention 层 和 Feed Forward 层前 , 放 LN (Layer Normalization,层归一化) 层最后一层放 LN 层输入序列的最大长度扩充到 1024

训练核心思想

GPT-2 :

目的 : 用无监督的预训练模型 , 做有监督的任务观念 : zero-shot (零样本学习) , 无需标注数据 , 模型训练
标签:

GPT-2大模型由讯客互联开源代码栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“GPT-2大模型