NVIDIA推出的全新FP8强化学习配方,训练速度提升48%,同时保持与BF16相同的准确度,大幅降低AI基础设施成本。(ReadNVIDIA推出的全新FP8强化学习配方,训练速度提升48%,同时保持与BF16相同的准确度,大幅降低AI基础设施成本。(Read

NVIDIA NeMo RL 通过端到端 FP8 精度训练实现 48% 加速

2026/04/21 07:41
阅读时长 6 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

NVIDIA NeMo RL 通过端到端 FP8 精度训练实现 48% 加速

Jessie A Ellis 2026年4月20日 23:41

NVIDIA 针对强化学习的全新 FP8 方案实现了 48% 的训练加速,同时与 BF16 精度相当,大幅降低了人工智能基础设施成本。

NVIDIA NeMo RL 通过端到端 FP8 精度训练实现 48% 加速

NVIDIA 发布了一套全面的强化学习 FP8 精度方案,可实现高达 48% 的训练吞吐量提升,同时保持与传统 BF16 方法相当的准确度——这一发展对人工智能基础设施成本和 GPU 计算经济学具有重大意义。

这项技术在 NVIDIA 的 Guyue Huang 撰写的技术博客文章中详细说明,解决了强化学习训练中最棘手的问题之一:在不同引擎中使用不同精度级别时,生成阶段和训练阶段之间的数值差异。

技术突破

传统的强化学习管道使用 vLLM 进行推演,使用 Megatron Core 进行训练——每个都有独特的 CUDA 核心,会引入累积的数值差异。这些差异在较低精度级别下会放大,历史上限制了 FP8 的采用。

NVIDIA 的解决方案是什么?在生成和训练中一致应用 FP8,而不是混合精度级别。在 Llama 3.1 8B Instruct 上的测试显示,端到端 FP8 的验证准确度为 0.613,而 BF16 为 0.616——有效缩小了差距。同时,仅在生成中使用 FP8 会使准确度降至 0.586。

该方案使用块级量化 FP8(E4M3 格式),权重使用 128x128 粒度,激活使用 1x128。线性层以 FP8 数学运算,理论峰值吞吐量是 BF16 的 2 倍,而注意力、归一化和非线性函数保持在 BF16。

实际性能提升

仅对于线性层,FP8 方案就能提供稳定的 15-25% 吞吐量改进。理论 2 倍加速与实际收益之间的差距来自于注意力层保持在 BF16 以及量化核心开销。

将 FP8 扩展到 KV 缓存和注意力操作,可将总加速推至比 BF16 基准高约 48%。问题在于:强化学习不断更新的策略权重需要在每个训练步骤后动态重新校准量化比例。NVIDIA 的方法为此重新校准增加了大约 2-3% 的开销——这是获得大幅加速的微小代价。

在 Qwen3-30B(一个专家混合模型)上的测试显示,FP8 和 BF16 配置之间的准确度曲线匹配,表明该技术可跨架构扩展。

为何这对人工智能经济学很重要

针对推理能力模型(如高级人工智能助手背后的模型)的强化学习训练需要大量计算。48% 的加速直接转化为减少的 GPU 小时数和降低的电费,适用于训练这些系统的组织。

实现准确度保持的重要性采样技术可能同样有价值。通过在每个标记的基础上纠正生成模型和训练模型之间的分布不匹配,它允许激进的精度降低而不牺牲模型质量。

完整实现可在 NVIDIA 的开源 NeMo RL 库中获得,并为 Llama 3.1 8B 和 Moonlight 16B 模型提供预配置方案。高级用户可以微调该方法——将特定的变压器层保持在 BF16 或切换到 2 的幂次缩放因子以进行额外优化。

对于关注计算成本随模型复杂性攀升的人工智能基础设施运营商来说,这代表了一个有意义的效率杠杆,不需要硬件升级——只需更智能地使用现有的 H100 能力。

图片来源:Shutterstock
  • nvidia
  • 人工智能训练
  • fp8 精度
  • 机器学习
  • nemo rl
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

USD1 Genesis:0 费率 + 12% APR

USD1 Genesis:0 费率 + 12% APRUSD1 Genesis:0 费率 + 12% APR

新用户:质押最高享 600% APR。限时福利!