主页 > 互联网  > 

T5大模型

T5大模型

T5 大模型

T5 架构:与 Transformer 一致 , 改进点 :

用简化版 LayerNormalization ,去除 LayerNorm的bias ,放在残差连接外面用简化版相对位置编码,各层共享位置编码,同一层内不同注意力头的位置编码独立学习

预训练任务:

用类似于 BERT 模型的 MLM 预训练任务多任务预训练:利用不同任务的标注数据 , 进行有监督的多任务预训练,如 : SQuAD 问答 , 机器翻译等任务

特点 :

优点 : 处理多种NLP任务,具有良好的可扩展性缺点 : 训练时间较长,需要更大的算力,模型的可解释性不足
标签:

T5大模型由讯客互联互联网栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“T5大模型