主页 > 其他  > 

一周热点:基于向量的推理,而非文本

一周热点:基于向量的推理,而非文本

背景介绍

大型语言模型(LLMs):大型语言模型(如GPT-2)可以通过生成思维链(CoT)来提高性能。CoT是将回应提示的过程分解为一系列步骤的中间文本标记。然而,大部分CoT文本旨在保持流畅性(例如“a”、“of”、“we know that”),而非推理(例如“a² + b² = c²”)。这导致了效率低下。

新动态

Coconut方法:加州大学圣地亚哥分校和Meta的Shibo Hao、Sainbayar Sukhbaatar及其同事推出了Coconut(连续思维链),这是一种训练大型语言模型(LLMs)将思维链处理为向量而非单词的方法。

关键见解

模型结构:大型语言模型(LLM)可以分为嵌入层、Transformer和分类层。为了从输入文本生成下一个文本标记,嵌入层对文本进行嵌入;给定文本,Transformer输出一个隐藏向量;分类层将向量映射到文本标记概率。基于这些概率,解码算法选择下一个要生成的标记,该标记反馈到输入文本序列中以生成下一个向量,依此类推。

向量的优势:

标签:

一周热点:基于向量的推理,而非文本由讯客互联其他栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“一周热点:基于向量的推理,而非文本