NVIDIA NeMo RLがエンドツーエンドFP8精度トレーニングで48%の高速化を達成

Jessie A Ellis 2026/4/20 23:41

NVIDIAの新しい強化学習向けFP8レシピは、BF16の精度を維持しながら48%高速なトレーニングを実現し、AIインフラストラクチャコストを大幅に削減します。

NVIDIA NeMo RLがエンドツーエンドFP8精度トレーニングで48%の高速化を達成

NVIDIAは、従来のBF16アプローチと同等の精度を維持しながら、最大48%高速なトレーニングスループットを実現する強化学習向けの包括的なFP8精度レシピをリリースしました。これは、AIインフラストラクチャコストとGPU計算経済に大きな影響を与える開発です。

NVIDIAのGuyue Huangによる技術ブログ記事で詳述されているこの技術は、RLトレーニングの最も厄介な問題の1つに対処しています。それは、異なるエンジン間で異なる精度レベルを使用する際の生成フェーズとトレーニングフェーズ間の数値的な不一致です。

技術的なブレークスルー

従来のRLパイプラインは、ロールアウトにvLLMを、トレーニングにMegatron Coreを使用しており、それぞれが固有のCUDAカーネルを持ち、累積的な数値差を生じさせます。これらの不一致は、より低い精度レベルで拡大し、歴史的にFP8の採用を制限してきました。

NVIDIAのソリューションは?精度レベルを混在させるのではなく、生成とトレーニングの両方に一貫してFP8を適用することです。Llama 3.1 8B Instructでのテストでは、エンドツーエンドFP8で0.613の検証精度を示し、BF16の0.616と比較してギャップを効果的に埋めました。一方、生成のみにFP8を使用すると、精度は0.586に低下しました。

このレシピは、重みに128x128の粒度、活性化に1x128の粒度を持つブロック単位で量子化されたFP8(E4M3形式)を使用します。線形レイヤーは、BF16と比較して理論上のピークスループットの2倍でFP8演算を実行し、アテンション、正規化、非線形関数はBF16のままです。

実世界でのパフォーマンス向上

線形レイヤーのみで、FP8レシピは一貫して15-25%のスループット改善を提供します。理論上の2倍の高速化と実際の向上の間のギャップは、BF16に残るアテンションレイヤーと量子化カーネルのオーバーヘッドから生じます。

FP8をKVキャッシュとアテンション操作に拡張すると、BF16ベースラインに比べて合計約48%の高速化が実現されます。問題点は、RLの常に更新されるポリシー重みが、各トレーニングステップ後に量子化スケールの動的な再較正を必要とすることです。NVIDIAのアプローチは、この再較正に約2-3%のオーバーヘッドを追加します。これは大幅な加速のためのわずかなコストです。

Qwen3-30B(混合専門家モデル)でのテストでは、FP8とBF16構成の間で一致する精度曲線が示され、この技術がアーキテクチャ全体でスケールすることを示唆しています。

AI経済にとってなぜ重要か

高度なAIアシスタントの背後にあるような推論可能なモデルのRLトレーニングには、大規模な計算が必要です。48%の高速化は、これらのシステムをトレーニングする組織にとって、GPU時間の削減と電気代の低減に直接つながります。

精度保持を可能にする重要度サンプリング技術も同様に価値があることが証明される可能性があります。トークンごとに生成モデルとトレーニングモデル間の分布の不一致を修正することで、モデル品質を犠牲にすることなく積極的な精度削減が可能になります。

完全な実装は、NVIDIAのオープンソースNeMo RLライブラリで利用可能で、Llama 3.1 8BおよびMoonlight 16Bモデル用の事前構成されたレシピが含まれています。上級ユーザーは、特定のトランスフォーマーレイヤーをBF16に保持したり、追加の最適化のためにpower-of-2スケーリング係数に切り替えたりするなど、アプローチを微調整できます。

モデルの複雑さとともに計算コストが増加するのを見守っているAIインフラストラクチャオペレーターにとって、これはハードウェアのアップグレードを必要としない意味のある効率化手段を表しています。既存のH100機能のよりスマートな使用だけで実現できます。

画像ソース: Shutterstock