Статья Character.ai представляет эффективные методы крупномасштабного предобучения опубликована на BitcoinEthereumNews.com. Тони Ким 23 декабря 2025 21:56 Character.aiСтатья Character.ai представляет эффективные методы крупномасштабного предобучения опубликована на BitcoinEthereumNews.com. Тони Ким 23 декабря 2025 21:56 Character.ai

Character.ai представляет эффективные методы крупномасштабного предобучения



Tony Kim
21:56, 23 декабря 2025

Character.ai раскрывает инновационные методы оптимизации крупномасштабного предобучения, сосредоточившись на таких техниках, как Squinch, динамическое ограничение и Gumbel Softmax, для повышения эффективности обучения моделей ИИ.

Character.ai, заметный игрок в сфере ИИ, недавно поделился информацией о своих ранних усилиях по оптимизации крупномасштабного обучения трансформеров. Компания, которая с тех пор переключила свое внимание на основы моделей с открытым исходным кодом, изначально изучала различные техники для повышения эффективности и скорости обучения, согласно блогу Character.AI.

Сжатие градиентов: Squinch

Одной из ключевых инноваций, выделенных в усилиях Character.ai, является алгоритм сжатия градиентов, известный как Squinch. Разработанная соучредителем Ноамом Шазиром, эта техника 6-битного сжатия была создана для значительного сокращения пропускной способности связи во время распределенного обучения при сохранении точности модели. Алгоритм эффективно сжимает градиенты до 6 бит на элемент, оптимизируя использование пропускной способности обучающих кластеров.

Регуляризация точности: Attention Z-Reg

Character.ai также разработал Attention Z-Reg, метод регуляризации, применяемый к логитам внимания для обеспечения численной стабильности. Эта техника помогает поддерживать точность представлений bfloat16, что критически важно для оптимизации обучения больших моделей.

Стабильность квантования: динамическое ограничение

Динамическое ограничение - это еще одна техника, используемая для повышения стабильности квантования. Она предотвращает схлопывание малых значений активации к нулю путем динамического вычисления диапазона ограничения на основе среднеквадратичного значения входных весов. Этот метод улучшает стабильность обучения за счет снижения ошибок квантования.

Эффективный API внимания: Visibility Mask

Внедрение Visibility Mask, инструмента для представления межтокенных отношений во время обучения и вывода, улучшило эффективность обучающих систем. Этот API помогает управлять диапазонами внимания в пакетах, поддерживая древовидные структуры документов и двунаправленное внимание.

Оптимизация дистилляции: Gumbel Softmax

В области дистилляции моделей Character.ai использовал технику Gumbel Softmax для снижения затрат на хранение и пропускную способность при сохранении точности моделей-учителей. Этот подход включает в себя выборку подмножеств выходных данных модели-учителя, сохраняя мягкие целевые значения для более эффективного обучения модели-ученика.

Усилия Character.ai по оптимизации предобучения проложили путь для более эффективного обучения моделей ИИ, даже когда компания переходит к обучению с подкреплением после обучения для моделей с открытым исходным кодом. Эти техники, включая Squinch и Gumbel Softmax, подчеркивают приверженность компании повышению эффективности и масштабируемости ИИ.

Источник изображения: Shutterstock

Источник: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Возможности рынка
Логотип Sleepless AI
Sleepless AI Курс (AI)
$0.03703
$0.03703$0.03703
+1.14%
USD
График цены Sleepless AI (AI) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Слабое завершение 2025 года для Bitcoin не означает медвежий первый квартал 2026 года, говорит эксперт

Слабое завершение 2025 года для Bitcoin не означает медвежий первый квартал 2026 года, говорит эксперт

Энтони Помплиано заявил, что отсутствие роста Bitcoin в конце года не свидетельствует о неизбежном обвале в первом квартале 2026 года. Публикация «Слабое завершение 2025 года для Bitcoin не означает
Поделиться
Coinspeaker2025/12/24 18:41
HashKey Capital привлекает $250 млн для нового мультистратегического криптофонда

HashKey Capital привлекает $250 млн для нового мультистратегического криптофонда

Статья HashKey Capital привлекает 250 млн $ для нового мультистратегического криптовалютного фонда впервые появилась на Coinpedia Fintech News Несмотря на более жесткую ликвидность и более избирательный
Поделиться
CoinPedia2025/12/24 18:41
Эксперты указали на концентрацию капитала в биткоине и Ethereum

Эксперты указали на концентрацию капитала в биткоине и Ethereum

Структура крипторынка «сужается»: капитал все больше концентрируется в двух крупнейших монетах. Таким мнением поделились аналитики маркетмейкера Wintermute. ht
Поделиться
ProBlockChain2025/12/24 14:15