主页 > 其他  > 

LLM-AttentionIsAllYouNeed的理解

LLM-AttentionIsAllYouNeed的理解
一:概述

当前主流的序列转换(sequence transduction)模型主要基于复杂的循环神经网络(Recurrent Neural Networks, RNNs)或卷积神经网络(Convolutional Neural Networks, CNNs),这些模型通常包含编码器(encoder)和解码器(decoder)。性能最优的模型通常通过“ 注意力机制(attention mechanism)”将编码器和解码器连接起来。

我们提出了一种新的、简单的网络架构——Transformer,它完全基于注意力机制,完全摒弃了循环(recurrence)和卷积(convolution)。 在两个机器翻译任务上的实验表明,这些模型在翻译质量上更优,同时具备更强的并行性,并且训练时间显著减少。在WMT 2014 英语-德语(English-to-German)翻译任务中,我们的模型取得了 28.4 BLEU 分数(BLEU是用于评估机器翻译质量的指标),相较于当时最好的结果(包括集成模型),提高了 2 BLEU 以上。 在WMT 2014 英语-法语(English-to-French࿰

标签:

LLM-AttentionIsAllYouNeed的理解由讯客互联其他栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“LLM-AttentionIsAllYouNeed的理解