NVIDIA NeMo RL osiąga 48% przyspieszenie dzięki kompleksowemu treningowi precyzji FP8
Jessie A Ellis 20 kwi 2026 23:41
Nowy przepis FP8 firmy NVIDIA do uczenia ze wzmocnieniem zapewnia o 48% szybszy trening, jednocześnie dorównując dokładności BF16, znacząco obniżając koszty infrastruktury AI.
NVIDIA udostępniła kompleksowy przepis precyzji FP8 do uczenia ze wzmocnieniem, który zapewnia do 48% szybszą przepustowość treningu przy zachowaniu równości dokładności z tradycyjnymi podejściami BF16 — rozwój o znaczących implikacjach dla kosztów infrastruktury AI i ekonomiki obliczeń GPU.
Technika, szczegółowo opisana we wpisie technicznym na blogu autorstwa Guyue Huang z NVIDIA, rozwiązuje jeden z najtrudniejszych problemów treningu RL: rozbieżność numeryczną między fazami generowania i treningu podczas używania różnych poziomów precyzji w oddzielnych silnikach.
Przełom techniczny
Tradycyjne potoki RL wykorzystują vLLM do rolloutów i Megatron Core do treningu — każdy z unikalnymi jądrami CUDA, które wprowadzają skumulowane różnice numeryczne. Te rozbieżności powiększają się przy niższych poziomach precyzji, historycznie ograniczając adopcję FP8.
Rozwiązanie NVIDIA? Stosować FP8 konsekwentnie zarówno w generowaniu, jak i treningu, zamiast mieszać poziomy precyzji. Testowanie na Llama 3.1 8B Instruct wykazało dokładność walidacji 0,613 przy kompleksowym FP8 w porównaniu z 0,616 dla BF16 — skutecznie zmniejszając różnicę. Tymczasem użycie FP8 tylko do generowania obniżyło dokładność do 0,586.
Przepis wykorzystuje blokową kwantyzację FP8 (format E4M3) z granularnością 128x128 dla wag i 1x128 dla aktywacji. Warstwy liniowe wykonują obliczenia FP8 z 2-krotną teoretyczną szczytową przepustowością w porównaniu z BF16, podczas gdy uwaga, normalizacja i funkcje nieliniowe pozostają w BF16.
Rzeczywiste przyrosty wydajności
Dla samych warstw liniowych przepis FP8 zapewnia stałe poprawy przepustowości o 15-25%. Różnica między teoretycznym 2-krotnym przyspieszeniem a rzeczywistymi zyskami wynika z warstw uwagi pozostających w BF16 oraz narzutu jądra kwantyzacji.
Rozszerzenie FP8 na pamięć podręczną KV i operacje uwagi zwiększa całkowite przyspieszenie do około 48% w porównaniu z bazą BF16. Haczyk: stale aktualizowane wagi polityki RL wymagają dynamicznej rekalibracji skal kwantyzacji po każdym kroku treningowym. Podejście NVIDIA dodaje około 2-3% narzutu dla tej rekalibracji — niewielki koszt za znaczne przyspieszenie.
Testowanie na Qwen3-30B (modelu mixture-of-experts) wykazało zgodne krzywe dokładności między konfiguracjami FP8 i BF16, sugerując, że technika skaluje się w różnych architekturach.
Dlaczego to ma znaczenie dla ekonomii AI
Trening RL dla modeli zdolnych do rozumowania, takich jak te stojące za zaawansowanymi asystentami AI, wymaga masywnych obliczeń. 48% przyspieszenie przekłada się bezpośrednio na zmniejszone godziny GPU i niższe rachunki za prąd dla organizacji trenujących te systemy.
Technika importance sampling, która umożliwia zachowanie dokładności, może okazać się równie cenna. Korygując niezgodności dystrybucji między modelami generowania i treningu na podstawie pojedynczych tokenów, pozwala na agresywną redukcję precyzji bez poświęcania jakości modelu.
Pełna implementacja jest dostępna w bibliotece open-source NVIDIA NeMo RL, z wstępnie skonfigurowanymi przepisami dla modeli Llama 3.1 8B i Moonlight 16B. Zaawansowani użytkownicy mogą dostroić podejście — zachowując określone warstwy transformera w BF16 lub przełączając się na czynniki skalowania będące potęgami 2 dla dodatkowej optymalizacji.
Dla operatorów infrastruktury AI obserwujących rosnące koszty obliczeń wraz ze złożonością modelu, reprezentuje to znaczącą dźwignię efektywności, która nie wymaga aktualizacji sprzętu — tylko mądrzejsze wykorzystanie istniejących możliwości H100.
Źródło obrazu: Shutterstock- nvidia
- trening ai
- precyzja fp8
- uczenie maszynowe
- nemo rl







