Nowy przepis NVIDIA FP8 dla uczenia ze wzmocnieniem zapewnia o 48% szybsze trenowanie przy zachowaniu dokładności BF16, znacząco obniżając koszty infrastruktury AI. (ReadNowy przepis NVIDIA FP8 dla uczenia ze wzmocnieniem zapewnia o 48% szybsze trenowanie przy zachowaniu dokładności BF16, znacząco obniżając koszty infrastruktury AI. (Read

NVIDIA NeMo RL osiąga 48% przyspieszenie dzięki kompleksowemu treningowi precyzji FP8

2026/04/21 07:41
3 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem [email protected]
```html

NVIDIA NeMo RL osiąga 48% przyspieszenie dzięki kompleksowemu treningowi precyzji FP8

Jessie A Ellis 20 kwi 2026 23:41

Nowy przepis FP8 firmy NVIDIA do uczenia ze wzmocnieniem zapewnia o 48% szybszy trening, jednocześnie dorównując dokładności BF16, znacząco obniżając koszty infrastruktury AI.

NVIDIA NeMo RL osiąga 48% przyspieszenie dzięki kompleksowemu treningowi precyzji FP8

NVIDIA udostępniła kompleksowy przepis precyzji FP8 do uczenia ze wzmocnieniem, który zapewnia do 48% szybszą przepustowość treningu przy zachowaniu równości dokładności z tradycyjnymi podejściami BF16 — rozwój o znaczących implikacjach dla kosztów infrastruktury AI i ekonomiki obliczeń GPU.

Technika, szczegółowo opisana we wpisie technicznym na blogu autorstwa Guyue Huang z NVIDIA, rozwiązuje jeden z najtrudniejszych problemów treningu RL: rozbieżność numeryczną między fazami generowania i treningu podczas używania różnych poziomów precyzji w oddzielnych silnikach.

Przełom techniczny

Tradycyjne potoki RL wykorzystują vLLM do rolloutów i Megatron Core do treningu — każdy z unikalnymi jądrami CUDA, które wprowadzają skumulowane różnice numeryczne. Te rozbieżności powiększają się przy niższych poziomach precyzji, historycznie ograniczając adopcję FP8.

Rozwiązanie NVIDIA? Stosować FP8 konsekwentnie zarówno w generowaniu, jak i treningu, zamiast mieszać poziomy precyzji. Testowanie na Llama 3.1 8B Instruct wykazało dokładność walidacji 0,613 przy kompleksowym FP8 w porównaniu z 0,616 dla BF16 — skutecznie zmniejszając różnicę. Tymczasem użycie FP8 tylko do generowania obniżyło dokładność do 0,586.

Przepis wykorzystuje blokową kwantyzację FP8 (format E4M3) z granularnością 128x128 dla wag i 1x128 dla aktywacji. Warstwy liniowe wykonują obliczenia FP8 z 2-krotną teoretyczną szczytową przepustowością w porównaniu z BF16, podczas gdy uwaga, normalizacja i funkcje nieliniowe pozostają w BF16.

Rzeczywiste przyrosty wydajności

Dla samych warstw liniowych przepis FP8 zapewnia stałe poprawy przepustowości o 15-25%. Różnica między teoretycznym 2-krotnym przyspieszeniem a rzeczywistymi zyskami wynika z warstw uwagi pozostających w BF16 oraz narzutu jądra kwantyzacji.

Rozszerzenie FP8 na pamięć podręczną KV i operacje uwagi zwiększa całkowite przyspieszenie do około 48% w porównaniu z bazą BF16. Haczyk: stale aktualizowane wagi polityki RL wymagają dynamicznej rekalibracji skal kwantyzacji po każdym kroku treningowym. Podejście NVIDIA dodaje około 2-3% narzutu dla tej rekalibracji — niewielki koszt za znaczne przyspieszenie.

Testowanie na Qwen3-30B (modelu mixture-of-experts) wykazało zgodne krzywe dokładności między konfiguracjami FP8 i BF16, sugerując, że technika skaluje się w różnych architekturach.

Dlaczego to ma znaczenie dla ekonomii AI

Trening RL dla modeli zdolnych do rozumowania, takich jak te stojące za zaawansowanymi asystentami AI, wymaga masywnych obliczeń. 48% przyspieszenie przekłada się bezpośrednio na zmniejszone godziny GPU i niższe rachunki za prąd dla organizacji trenujących te systemy.

Technika importance sampling, która umożliwia zachowanie dokładności, może okazać się równie cenna. Korygując niezgodności dystrybucji między modelami generowania i treningu na podstawie pojedynczych tokenów, pozwala na agresywną redukcję precyzji bez poświęcania jakości modelu.

Pełna implementacja jest dostępna w bibliotece open-source NVIDIA NeMo RL, z wstępnie skonfigurowanymi przepisami dla modeli Llama 3.1 8B i Moonlight 16B. Zaawansowani użytkownicy mogą dostroić podejście — zachowując określone warstwy transformera w BF16 lub przełączając się na czynniki skalowania będące potęgami 2 dla dodatkowej optymalizacji.

Dla operatorów infrastruktury AI obserwujących rosnące koszty obliczeń wraz ze złożonością modelu, reprezentuje to znaczącą dźwignię efektywności, która nie wymaga aktualizacji sprzętu — tylko mądrzejsze wykorzystanie istniejących możliwości H100.

Źródło obrazu: Shutterstock
  • nvidia
  • trening ai
  • precyzja fp8
  • uczenie maszynowe
  • nemo rl
```
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z [email protected] w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!