Tony Kim
23.12.2025 21:56
Character.ai enthüllt innovative Methoden zur Optimierung von großangelegtem Pretraining, wobei der Fokus auf Techniken wie Squinch, Dynamic Clamping und Gumbel Softmax liegt, um die Effizienz beim KI-Modelltraining zu verbessern.
Character.ai, ein bedeutender Akteur im KI-Bereich, hat kürzlich Einblicke in seine frühen Bemühungen zur Optimierung des großangelegten Transformer-Trainings geteilt. Das Unternehmen, das seinen Fokus inzwischen auf Open-Source-Modellfundamente verlagert hat, erforschte ursprünglich verschiedene Techniken zur Verbesserung der Trainingseffizienz und -geschwindigkeit, so der Character.AI Blog.
Gradientenkompression: Squinch
Eine der wichtigsten Innovationen in den Bemühungen von Character.ai ist ein Gradientenkompressionsalgorithmus namens Squinch. Diese vom Mitbegründer Noam Shazeer entwickelte 6-Bit-Kompressionstechnik wurde entwickelt, um die Kommunikationsbandbreite während des verteilten Trainings erheblich zu reduzieren und gleichzeitig die Modellgenauigkeit zu erhalten. Der Algorithmus komprimiert Gradienten effektiv auf 6 Bits pro Element und optimiert die Bandbreitennutzung von Trainings-Clustern.
Präzisionsregularisierung: Attention Z-Reg
Character.ai entwickelte auch Attention Z-Reg, eine Regularisierungsmethode, die auf Attention-Logits angewendet wird, um numerische Stabilität zu gewährleisten. Diese Technik hilft, die Präzision von bfloat16-Darstellungen zu erhalten, was für die Optimierung des Trainings großer Modelle entscheidend ist.
Quantisierungsstabilität: Dynamic Clamping
Dynamic Clamping ist eine weitere Technik zur Verbesserung der Quantisierungsstabilität. Sie verhindert, dass kleine Aktivierungswerte auf null kollabieren, indem der Clamping-Bereich dynamisch basierend auf dem quadratischen Mittelwert der Eingabegewichte berechnet wird. Diese Methode verbessert die Trainingsstabilität durch Reduzierung von Quantisierungsfehlern.
Effiziente Attention API: Visibility Mask
Die Einführung der Visibility Mask, eines Tools zur Darstellung von Inter-Token-Beziehungen während des Trainings und der Inferenz, hat die Effizienz von Trainingssystemen verbessert. Dieser API hilft, Attention-Bereiche innerhalb von Batches zu verwalten und unterstützt baumstrukturierte Dokumentbeziehungen und bidirektionale Attention.
Distillationsoptimierung: Gumbel Softmax
Im Bereich der Modelldistillation hat Character.ai die Gumbel-Softmax-Technik genutzt, um Speicher- und Bandbreitenkosten zu reduzieren und gleichzeitig die Genauigkeit der Teacher-Modelle zu erhalten. Dieser Ansatz beinhaltet die Stichprobennahme von Teilmengen der Teacher-Modell-Outputs und bewahrt weiche Zielwerte für ein effizienteres Student-Modelltraining.
Die Bemühungen von Character.ai zur Optimierung des Pretrainings haben den Weg für effizienteres KI-Modelltraining geebnet, auch wenn das Unternehmen sich nun auf Post-Training Reinforcement Learning für Open-Source-Modelle verlagert. Diese Techniken, einschließlich Squinch und Gumbel Softmax, unterstreichen das Engagement des Unternehmens für die Förderung von KI-Effizienz und Skalierbarkeit.
Bildquelle: Shutterstock
Quelle: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


