NVIDIA NeMo RL osiąga 48% przyspieszenie dzięki kompleksowemu treningowi precyzji FP8

Jessie A Ellis 20 kwi 2026 23:41

Nowy przepis FP8 firmy NVIDIA do uczenia ze wzmocnieniem zapewnia o 48% szybszy trening, jednocześnie dorównując dokładności BF16, znacząco obniżając koszty infrastruktury AI.

NVIDIA NeMo RL osiąga 48% przyspieszenie dzięki kompleksowemu treningowi precyzji FP8

NVIDIA udostępniła kompleksowy przepis precyzji FP8 do uczenia ze wzmocnieniem, który zapewnia do 48% szybszą przepustowość treningu przy zachowaniu równości dokładności z tradycyjnymi podejściami BF16 — rozwój o znaczących implikacjach dla kosztów infrastruktury AI i ekonomiki obliczeń GPU.

Technika, szczegółowo opisana we wpisie technicznym na blogu autorstwa Guyue Huang z NVIDIA, rozwiązuje jeden z najtrudniejszych problemów treningu RL: rozbieżność numeryczną między fazami generowania i treningu podczas używania różnych poziomów precyzji w oddzielnych silnikach.

Przełom techniczny

Tradycyjne potoki RL wykorzystują vLLM do rolloutów i Megatron Core do treningu — każdy z unikalnymi jądrami CUDA, które wprowadzają skumulowane różnice numeryczne. Te rozbieżności powiększają się przy niższych poziomach precyzji, historycznie ograniczając adopcję FP8.

Rozwiązanie NVIDIA? Stosować FP8 konsekwentnie zarówno w generowaniu, jak i treningu, zamiast mieszać poziomy precyzji. Testowanie na Llama 3.1 8B Instruct wykazało dokładność walidacji 0,613 przy kompleksowym FP8 w porównaniu z 0,616 dla BF16 — skutecznie zmniejszając różnicę. Tymczasem użycie FP8 tylko do generowania obniżyło dokładność do 0,586.

Przepis wykorzystuje blokową kwantyzację FP8 (format E4M3) z granularnością 128x128 dla wag i 1x128 dla aktywacji. Warstwy liniowe wykonują obliczenia FP8 z 2-krotną teoretyczną szczytową przepustowością w porównaniu z BF16, podczas gdy uwaga, normalizacja i funkcje nieliniowe pozostają w BF16.

Rzeczywiste przyrosty wydajności

Dla samych warstw liniowych przepis FP8 zapewnia stałe poprawy przepustowości o 15-25%. Różnica między teoretycznym 2-krotnym przyspieszeniem a rzeczywistymi zyskami wynika z warstw uwagi pozostających w BF16 oraz narzutu jądra kwantyzacji.

Rozszerzenie FP8 na pamięć podręczną KV i operacje uwagi zwiększa całkowite przyspieszenie do około 48% w porównaniu z bazą BF16. Haczyk: stale aktualizowane wagi polityki RL wymagają dynamicznej rekalibracji skal kwantyzacji po każdym kroku treningowym. Podejście NVIDIA dodaje około 2-3% narzutu dla tej rekalibracji — niewielki koszt za znaczne przyspieszenie.

Testowanie na Qwen3-30B (modelu mixture-of-experts) wykazało zgodne krzywe dokładności między konfiguracjami FP8 i BF16, sugerując, że technika skaluje się w różnych architekturach.

Dlaczego to ma znaczenie dla ekonomii AI

Trening RL dla modeli zdolnych do rozumowania, takich jak te stojące za zaawansowanymi asystentami AI, wymaga masywnych obliczeń. 48% przyspieszenie przekłada się bezpośrednio na zmniejszone godziny GPU i niższe rachunki za prąd dla organizacji trenujących te systemy.

Technika importance sampling, która umożliwia zachowanie dokładności, może okazać się równie cenna. Korygując niezgodności dystrybucji między modelami generowania i treningu na podstawie pojedynczych tokenów, pozwala na agresywną redukcję precyzji bez poświęcania jakości modelu.

Pełna implementacja jest dostępna w bibliotece open-source NVIDIA NeMo RL, z wstępnie skonfigurowanymi przepisami dla modeli Llama 3.1 8B i Moonlight 16B. Zaawansowani użytkownicy mogą dostroić podejście — zachowując określone warstwy transformera w BF16 lub przełączając się na czynniki skalowania będące potęgami 2 dla dodatkowej optymalizacji.

Dla operatorów infrastruktury AI obserwujących rosnące koszty obliczeń wraz ze złożonością modelu, reprezentuje to znaczącą dźwignię efektywności, która nie wymaga aktualizacji sprzętu — tylko mądrzejsze wykorzystanie istniejących możliwości H100.

Źródło obrazu: Shutterstock

nvidia
trening ai
precyzja fp8
uczenie maszynowe
nemo rl

NVIDIA NeMo RL osiąga 48% przyspieszenie dzięki kompleksowemu treningowi precyzji FP8

NVIDIA NeMo RL osiąga 48% przyspieszenie dzięki kompleksowemu treningowi precyzji FP8

Przełom techniczny

Rzeczywiste przyrosty wydajności

Dlaczego to ma znaczenie dla ekonomii AI

Możesz także polubić

Japońskie duże banki przenoszą obligacje rządowe na blockchain

Kandydat Trumpa na ratowanie amerykańskiej gospodarki ma ogromną przeszkodę

ETF Bitcoinowy Morgan Stanley Przyciągnął Ponad 100 Milionów Dolarów w Pierwszym Tygodniu

Popularne wiadomości

Senator Tillis forsuje Komisję Bankową Senatu do przyspieszenia ustawy o strukturze rynku kryptowalut w maju

Cicha strona kryptowalut w zmianie na stanowisku CEO Apple

Kospi osiąga nowy rekord, gdy akcje spółek półprzewodnikowych rosną dzięki popytowi na AI

Znormalizowaliśmy kompleks mesjasza Trumpa — i co to oznacza dla Ameryki

Prognoza ceny tokena Polygon Ecosystem – szacuje się, że cena POL spadnie do 0,072935 USD do 25 kwietnia 2026 r.

Wiadomości na żywo 24/7

Ceny kryptowalut