Grok Imagine ― это инструмент для генерации медиа, представленный в конце 2024 года. А уже за январь 2026 года по словам Илона Маска с помощью этого сервиса было создано больше видео, чем во всех других нейронках вместе взятых.
За первый месяц 2026 года пользователи создали 1,2 млрд видеороликов и 5,5 млрд изображений.
Технические возможности
Платформа предлагает такой набор характеристик:
- форматы — поддержка пяти различных соотношений сторон, включая классический горизонтальный 16:9 и вертикальный 9:16 как для изображений, так и для видеофайлов;
- длительность ролика — 6 или 10 секунд;
- разрешение видео — 480p или 720p;
- нативное аудио — автоматическая генерация звукового сопровождения, включая реалистичные голоса с эмоциями и фоновую музыку, синхронизированную с картинкой.
12 марта 2026 года к этому списку добавили функцию «компоненты». С ней можно использовать до 7 референсов как при генерации изображений, так и видео.
Функция «Компоненты»
Пользователи могут прямо в текстовом запросе ссылаться на загруженные картинки с помощью символа @, присваивая каждому компоненту роль в финальной сцене.
Этот подход решает сразу несколько проблем.
- Консистентность персонажа — лицо, одежда и физические пропорции героя остаются неизменными от кадра к кадру на протяжении всего видео.
- Перенос стиля — можно загрузить карандашный набросок или скриншот из старого аниме и применить его эстетику к новому фотореалистичному видео.
- Контроль окружения — помещение персонажа в строго заданную локацию без искажения ключевых архитектурных деталей.
- Работа с продуктом — задачи, в которых упаковка товара должна выглядеть в точности как в реальной жизни без ИИ-галлюцинаций.
Наиболее привлекательным аспектом нововведения является его доступность. Функция компонентов работает интуитивно понятно и доступна на базовом бесплатном уровне.
Однако наличие мощного инструмента не гарантирует идеального результата. Чтобы нейросеть поняла задачу с первого раза, необходимо освоить правильный рабочий процесс.
Как работать с референсами
Работа с компонентами требует определенной дисциплины в написании запросов. Искусственный интеллект хорошо понимает контекст, но ему нужны четкие и недвусмысленные инструкции относительно того, что делать с каждым конкретным файлом. Ниже представлен пошаговый гайд создания сложных сцен с использованием референсов.
- Подготовка и загрузка исходников
Для начала необходимо собрать визуальные материалы. Предположим, стоит задача создать ролик собственной сцены Incrypted на NBX в Варшаве. Для этого нам нужны фотографии шести спикеров и самой сценой. Как раз 7 файлов – максимально допустимое количество.
В интерфейсе генератора (через веб-браузер или мобильное приложение X) необходимо перетащить или загрузить файлы в рабочую область. Оптимально использовать чистые изображения без лишнего визуального шума. Как только файлы загружены, система автоматически присваивает им идентификаторы. Достаточно набрать символ @ в строке запроса, чтобы появилось выпадающее меню с выбором загруженных картинок.
- Написание запроса с обращением к компонентам
ИИ должен понимать, как объекты взаимодействуют между собой.
Запрос к Grok Imagine с семью референсами. Данные: Incrypted.
Каждый референс при необходимости может получить свою четкую функцию. В нашем примере запрос с использованием компонентов выглядит так:
- Настройка и генерация видео
Перед нажатием кнопки генерации необходимо выбрать соотношение сторон (например, 16:9 для YouTube или 9:16 для TikTok), разрешение и продолжительность.
Для пользователей с бесплатным уровнем подписки доступна генерация видео разрешением 480р и длительностью 6 сек.
Результат генерации видео с использованием 7 компонентов. Данные: Incrypted.
Чтобы качество было лучше, а ролик длиннее, нужно перейти на платный тарифный план.