AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:
[email protected];
[email protected]年夜模子低精度练习跟推理是年夜模子范畴中的主要研讨偏向,旨在经由过程下降模子精度来增加盘算跟存储本钱,同时坚持模子的机能。由于在年夜模子研发本钱下降上的宏大代价而遭到行业普遍存眷 。近期,业界对低精度练习跟推理的普遍存眷与探讨。在现实的研发进程中,特殊是模子练习方面,教训标明浮点数目化计划比拟整数目化计划对模子后果形成的丧失更小,以是浮点数经常被用作量化练习的范例。这就引出了一些成绩:整数范例量化练习的教训是否直策应用到浮点数范例的量化练习义务中?假如不克不及,浮点数范例又会有怎么的论断?量化练习究竟有不极限?年夜模子社区亟需一个愈加合适现实浮点数目化练习的 Scaling Laws,领导年夜模子量化的现实抉择跟将来摸索偏向。为了答复这些成绩,腾讯混元团队停止了 366 组差别参数范围跟精度的浮点数目化练习,对浮点数目化练习停止具体剖析后提出了浮点数目化的 Scaling Laws。论文题目:《Scaling Laws for Floating–Point Quantization Training》论文链接:https://huggingface.co/papers/2501.02423弁言年夜模子(Large Language Model, LLM)现在曾经融入到咱们出产生涯的各个层面。年夜模子的参数范围一直增年夜,挪用量也连续降低,这使得年夜模子的练习跟推理本钱成为 LLM 社区极为存眷的主要成绩。低比特量化技巧可能在必定水平上下降年夜模子练习跟推理的本钱。鉴于此,这一技巧在主流年夜模子的练习跟推理进程中失掉了普遍利用。前沿研讨任务对 8 比特、4 比特乃至更低比特的量化战略停止了实验,并对这些战略予以验证。近期,论文《Scaling Laws for Precision》深刻探究了整数范例量化战略下的精度对模子 loss 的影响,不外仅在附录中简单说起了浮点数范例量化战略的表示,并未深刻探索。但是,在现实的出产进程中,特殊是模子练习方面,教训标明浮点数目化(floating–point quantization)计划比拟整数目化计划对模子后果形成的丧失更小,以是浮点数更常被用于超低精器量化练习。腾讯混元团队的新任务《Scaling Laws for Floating–Point Quantization Training》体系片面地研讨了浮点数目化练习的 Scaling Laws,弥补了这一范畴的空缺。详细地,他们在年夜模子 Scaling Law 的经典因素:模子巨细(简称 N)跟练习数据量(简称 D)之外,结合斟酌浮点数目化练习中主要的量化目的,指数位(Exponent,简称 E),尾数位(Mantissa,简称 M),以及量化时放缩因子共享粒度(Block-size,简称 B)对年夜模子练习丧失的影响。他们停止了 366 组差别参数范围跟精度设置的浮点数目化练习,得出终极的浮点数目化的同一 Scaling Law 情势如下:而且根据这一 Scaling Law 深刻剖析与推导之后,可能得出如下一些主要论断:在恣意低精度年夜模子浮点数目化练习中,都存在一个模子极限后果及对应的最佳数据量。超越此最佳数据量时持续增添数据,反而会对模子后果发生负面影响;限制盘算资本下,在一个十分年夜的算力范畴内,实践猜测的最佳性价比的浮点数目化练习精度落在 4-8 比特之间;在现实任务中,借助咱们的 Scaling Laws 及其推论,同时联合盘算资本,能够明白得出差别盘算资本下存在最佳性价比的浮点数目化练习精度设置、模子参数目以及练习数据量的设置战略。最佳的浮点数与整数范例只有标记位(Signal,简称 S)跟整数位比拟,参考 IEEE 754 尺度,浮点数显得庞杂很多。它由标记位、指数位(Exponent,简称 E)跟尾数位(Mantissa,简称 M)独特感化决议终极取值。经由过程大批试验与实践剖析,腾讯混元团队推导出了指数位跟尾数位对终极模子后果之间的定量关联:同时还得出给定精度(Precision,简称 P)P=1+E+M 情形下,指数位与尾数位的最佳配比法则需满意:将来硬件制作商也能够参考此论断,供给在差别精度下的浮点运算才能支撑:精致量化量化进程中,为了增加精度丧失会对需量化 Tensor 停止放缩(Scaling)。同时,为节俭放缩因子(Scaling Factor)的存储空间,平日会让 Tensor 中的多少元素共享一个放缩因子。显然,放缩因子共享粒度越年夜,其存储空间越小,但由此带来的量化丧失也会越年夜。混元团队定量地研讨了放缩因子共享粒度(Block-size,简称 B)对模子后果的影响,发明练习时的验证丧失(Validate Loss)与 B 的对数成正比例关联:Scaling Law在综合了全部浮点数目化练习中影响模子后果的要素(如参数目 N,数据量 D,指数位 E,尾数位 M 跟量化粒度 B)后,混元团队终极得出了浮点数目化练习的 Scaling Law:前三项基于经典的 Chinchilla Scaling Law 的情势,第四项能够看做浮点数目化对模子的额定丧失。有意思的是,能够被看作某种情势的 “常识密度”,而 E, M 跟 B 的结合项能够被看作某种情势的精度表现。直不雅地剖析,年夜模子过低精度下无奈承载过高的常识密度,招致了额定丧失。别的值得留神的是,咱们 Scaling Law 中 N 跟 D 的指数参数 α 跟 β,在第一项 / 第二项 / 第四项都是完整雷同的,情势愈加同一。为了断定终极同一情势的泛化才能,腾讯混元团队在小模子(41M - 679M)上拟合预算出 n, d, α, β, γ, δ, ν 以及 ϵ 等参数的取值后:在更年夜的模子(1.2B)上也验证了差别量化设置下的猜测后果。无奈逾越的后果屏蔽在下面 Scaling Law 公式里,第二项跟第四项对于数据量(D)的局部形成一个有最值的函数,即存在一个对于 D 的 loss 最低点,这个最值点在:留神此时这里并不给 Scaling Law 增加任何限度前提,这象征着当练习某个模子时,每个精度都存在一个对应的极限后果,无论应用几多数据都无奈超出。而且当应用的数据量超越 Dcrit 时,持续增添数据反而对模子后果是无害的。从公式中,咱们发明,模子越小,精度越低,那么这个极限数据量就会越早到来,增添数据招致模子后果变差越显明。因而,越小的模子越须要越年夜的精度才干保障给定命据的无效练习。这一跟着练习停止丧失不降反升的景象,也失掉了混元团队的实在练习成果支撑。然而,经由盘算当采取 BF16 练习 1B 参数目模子时,会发明这一极限数据量高达 1730T,这可能也是之前不人发明这一景象的起因。但是,跟着精度下降,比方采取 FP8-E4M3 时这一数值下降至 27T,而应用 FP4-E2M1 时则只有 0.4T。限制资本下的最优解于是能够得悉,即便在无穷资本下,因为后果屏蔽存在的起因,练习模子时应用的数据量也不该该超越 Dcrit。那么在限制资本下,经由过程求解方程组:能够得出一个合乎经典幂律关联(Power-law)的最佳性价比精度配方:依据试验成果推算,在一个十分年夜的算力范畴内,实践猜测的最佳性价比落在 4-8 比特之间。精度与参数目的汇率在资本受限的情形下,只管咱们已知在最佳性价比时精度应怎样拔取,但是参数目 N 与数据量 D 毕竟该怎样搭配这一成绩仍旧尚未失掉处理。经由过程对方程组:停止求解可能发明,在限制资本的情形下,若要坚持性价比,精度 P 跟参数目 N 之间存在着一个相似于 “汇率” 的关联:以是,在现实任务傍边,能够借助 “精度 —— 参数目的汇率”,而且联合,进一步明白在最佳性价比下的精度 P、参数目 N 以及数据量 D 的设置战略。这项研讨为年夜模子练习中的浮点数目化供给了主要的实践领导。其代价不只在于明白了在给定资本跟精度下的最优参数设置战略,辅助进步练习效力跟下降本钱,并且对推进年夜模子在现实利用中的更普遍安排存在要害意思。经由过程提醒浮点数目化练习的极限跟法则,为硬件制作商优化浮点运算才能供给了根据,也为研讨职员在年夜模子的优化跟翻新方面开拓了新的思绪跟偏向。