LLM论文笔记12:TeachingArithmetictoSmallTransformers
- 手机
- 2025-08-30 09:21:02

Arxiv日期:2023.7.7机构:University of Wisconsin-Madison / Princeton University 关键词 算数运算推理长度泛化实验结论 核心结论
1. 算数运算NTP中数据格式使用reverse或者scratchpad格式(CoT)可以显著提高精确度,cot可以显著减小需要的训练数据量
2. 数据平衡和采样策略:平衡不同位数和进位的sample显著提高性能
3. 泛化能力:对训练中未见的数值表现出一定的泛化能力,但对未训练的更长位数加法的泛化能力有限(基本没有长度泛化)-> 学习的是一种有限的函数映射,而非灵活的算法
4. 混合数据训练(文本+算术)+ few shot 显著提高精度
5. 精心设计的数据格式可以在小模型上提到极高的性能
主要方法观察到算数运算(加减乘除开根)上简单微调NTP是次优的(如加法123+456=579第一个预测的结果位是5,但是5由7和9决定),提出算数运算上的结构化数据(reverse / scratchpad即cot),以加法为例建模为低秩矩阵补全并提出一定数据量产生性能跃迁。
还发现了平衡不同位数和进位的sample显著提高性能。局限性在于长度泛化几乎不出现。
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文
LLM论文笔记12:TeachingArithmetictoSmallTransformers由讯客互联手机栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“LLM论文笔记12:TeachingArithmetictoSmallTransformers”
上一篇
文章索引