T5大模型
- 互联网
- 2025-09-01 04:39:02

T5 大模型
T5 架构:与 Transformer 一致 , 改进点 :
用简化版 LayerNormalization ,去除 LayerNorm的bias ,放在残差连接外面用简化版相对位置编码,各层共享位置编码,同一层内不同注意力头的位置编码独立学习预训练任务:
用类似于 BERT 模型的 MLM 预训练任务多任务预训练:利用不同任务的标注数据 , 进行有监督的多任务预训练,如 : SQuAD 问答 , 机器翻译等任务特点 :
优点 : 处理多种NLP任务,具有良好的可扩展性缺点 : 训练时间较长,需要更大的算力,模型的可解释性不足上一篇
hystrix超详细教学
下一篇
进制和编码