Всем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеров выпустили новые модели, много у кого появились новые фичи, и я решил обновить статью. Если вы - бизнес и вам нужен надежный API, или если вы просто энтузиаст, и вам интересно подобрать решение для себя, добро пожаловать!
Для замера качества провайдеров, я собрал бенчмарк из 20 видео с ютуба на разных языках с авторскими субтитрами. Я понимаю, что в них есть описания звуков, а не только слова, но цель статьи - замерить относительную ошибку между провайдерами и найти лучшего. Замерять буду метрику Word Error Rate (WER), и если запрос в API вернул ошибку, ставлю WER = 1.0, так как это равнозначно пустому ответу. На этот раз я включил в бенчмарк 3 видеоурока английского, там примерно 30% слов на английском, остальное - на русском. Добавил их, чтобы проверить, насколько хорошо модели могут менять языки во время генерации. Также в конце будет табличка, где я сравню только российских провайдеров на русских записях. Тестить буду на ссылке на файл в S3, чтобы сеть не влияла на результат (но те провайдеры, которые поддерживают только отправку файла, придется проверить файлом).
ElevenLabs (Scribe v2 модель) - те самые гении озвучки текста, посмотрим, насколько хорошо они решили обратную задачу. За год они успели уже две модели выпустить, буду тестировать только последнюю (м-да, я бы еще в 2030 году статью написал). Есть диаризация (разделение речи на спикеров), временные метки слов, NER (извлечение имен собственных) и мультиязычность.
Deepgram (Nova 3 модель) - провайдер с самым щедрым Free Tier и с очень богатым функционалом. Есть и диаризация, и speech-to-speech агенты, и LLMки прикручены, и чего только у них нет.
AssemblyAI (2 и 3 Pro модели) - в прошлом году у них были проблемы с определением языка, посмотрим, поменялось ли что-то. Недавно выкатили новую модель (3 Pro), но она поддерживает меньше языков, и русский в сделку не входит. В документации написано, мол, используйте сразу две, а там в зависимости от языка будет выбираться модель. Сомнительно, но окэй. В коде это выглядит вот так:
config = aai.TranscriptionConfig( speech_models=["universal-3-pro", "universal-2"], )
Fireworks (large-v3 модель) - в прошлом году были самыми быстрыми и почти самыми точными, и цены у них совсем не кусались. Диаризация и временные метки слов в комплекте.
Groq (turbo модель) - провайдер, который работает на in-house железе, обещает адские скорости, и имеет самую низкую цену за минуту среди всех перечисленных провайдеров. Функционал, конечно, скудный, отправка только файлом, ссылки не поддерживают, диаризации нет и LLM тоже нет.
Speechmatics (Enhanced модель) - нашел недавно в интернете, уже давно на рынке, тоже богатый функционал. Дороговаты, но у них свои модели, посмотрим, оправдает ли это цену.
Gladia (Solaria-1 модель) - говорят, что смогли натренировать Whisper и лишить его всех галлюцинаций, не потеряв в качестве. У них самая высокая цена среди всех зарубежных провайдеров в этом списке, посмотрим, обосновано ли это.
Yandex SpeechKit - на этот раз, я понял как работает их решение и смогу протестить его уже по-нормальному. Есть диаризация, обработка LLM, удаление нецензурной лексики, богатый функционал, в общем. Единственное, что я думал, что можно потестировать за бесплатно, но потом увидел цветные столбики во вкладке "Потребление и оплата" :-(
Шопот - проверим, что у них изменилось за прошлый год. Тоже много функционала - диаризация, LLM-обработка, временные метки и еще интерфейс красивый.
Nexara - есть диаризация и LLM-постпроцессинг, уже не просто голый API, как был раньше. Не такой богатый функционал, как у Яндекса или Deepgram, но и цены ниже. Посмотрим на их качество транскрибации, в прошлом году они на бенчмарке опередили конкурентов.
Palatine (highspeed модель) - обещают высокую скорость и качество. На лэндинге сравнивают свое решение с другими моделями, и по качеству проигрывают только AssemblyAI и ElevenLabs. Также, есть диаризация и временные метки, но LLM обработку не увидел.
Sber - их буду тестировать только на русском языке, так как у них нет такой же богатой поддержки языков, как у всех остальных провайдеров. Опенсорс у Сбера отличный, посмотрим, как с API у них вопрос обстоит. В функционале API даже заявлено определение эмоций, интересно.
Однако же, есть парочка нюансов, про которые хотелось бы рассказать, перед тем как перейдем к результатам.
Провайдер Groq, к сожалению, не поддерживает файлы больше 25 МБ, и мне пришлось нарезать файлы перед их отправкой. При склеивании уже теряется точность (на стыке чанков могли потеряться слова), и из-за этого могло ухудшиться качество.
Провайдер Шопот, к сожалению, вернул ошибку на одном из файлов. Я попробовал несколько раз, и каждый раз возвращалась Server Error. Также, меня немного выбесило неприятно удивило, что почему-то нельзя пользоваться API, если у тебя осталось менее 60 минут на аккаунте. А каждая минута на самом дешевом плане стоит 8 (!) рублей. В табличке я укажу цену в 2 руб / мин, потому что у них на сайте написано, что цены от 2 руб / мин, но в планах я таких низких цен не увидел. Может при персональном обращении и больших объемах они вам сделают такую скидку.
Сразу без прелюдий перейдем к сравнению скорости и точности провайдеров:
Scribe v2 показал самую лучшую точность, затем идет комбинация из двух моделей AssemblyAI (на русском языке работает только 2 модель, 3 Pro отработала на остальных языках). Третье почетное место по точности занял русский провайдер Nexarа, и я не знаю, чем они кормят свои видеокарты, что при хорошей точности они получают такую скорость обработки. Видимо, из-за того что сервера в России, и из-за использования ссылок на S3 в Яндекс облаке, задержка на загрузку файла получилась гораздо меньше, чем у зарубежных провайдеров. Но тем не менее, запись длиной в час они обработали всего за 6 секунд. Deepgram тоже стоит проверить на допинг.
Теперь самая, наверное, важная картинка этой статьи - сравнение цены и точности моделей:
По соотношению цена / качество AssemblyAI явно побеждают, у них относительно небольшая цена и высокое качество. Gladia, конечно, красавчики, сделали почти самого дорогого провайдера и качеством их модель, мягко говоря, не обделена. Яндекс тоже разочаровал :-( Fireworks с Groq - короли низких цен. Однако, если бы мне пришлось между двумя этими провайдерами, я бы выбрал Fireworks, так как у них гораздо больше функционала: нет ограничения в 25 МБ, есть диаризация и есть возможность настроить модель под себя.
Также, держите табличку, короче говоря, Scribe v2 самый точный, Groq самый дешевый, а Nexara - самый быстрый:
|
Провайдер |
WER |
Скорость (×) |
Цена (₽/1000 мин) |
% ошибок |
|---|---|---|---|---|
|
ElevenLabs (Scribe v2) |
0.3879 |
26.6× |
667 ₽ |
— |
|
AssemblyAI (2 / 3 Pro) |
0.3974 |
28.5× |
250 ₽ |
— |
|
🇷🇺 Nexara |
0.4080 |
235.0× |
360 ₽ |
— |
|
AssemblyAI |
0.4157 |
39.8× |
250 ₽ |
— |
|
🇷🇺 Palatine (highspeed) |
0.4412 |
51.0× |
300 ₽ |
— |
|
Deepgram (Nova 3) |
0.4492 |
128.8× |
430 ₽ |
— |
|
Groq (turbo) |
0.4547 |
102.1× |
60 ₽ |
— |
|
Fireworks (large-v3) |
0.4569 |
112.2× |
150 ₽ |
— |
|
🇷🇺 Shopot |
0.4677 |
21.7× |
2000 ₽ |
5% |
|
Speechmatics (Enhanced) |
0.4719 |
10.7× |
670 ₽ |
— |
|
Gladia |
0.5728 |
32.4× |
833 ₽ |
— |
|
🇷🇺 Yandex SpeechKit |
0.6570 |
29.9× |
650 ₽ |
— |
Теперь давайте проверим качество только на русских записях только российских провайдеров. Для теста просто взял русские записи из бенчмарка, дополнительных тестов не проводил.
|
Провайдер |
WER |
Скорость (×) |
Цена (₽/1000 мин) |
% ошибок |
|---|---|---|---|---|
|
Nexara |
0.3909 |
201.6× |
360 ₽ |
— |
|
Palatine (highspeed) |
0.4140 |
45.6× |
300 ₽ |
— |
|
Shopot |
0.4442 |
20.5× |
2000 ₽ |
— |
|
Sber API |
0.4481 |
9.7× |
600 ₽ |
— |
|
Yandex SpeechKit |
0.5496 |
29.6× |
650 ₽ |
— |
Забавно получилось, что российские стартапы, которые, скорее всего, просто раздают натренированные open source модели, в итоге имеют более высокое качество, чем Яндекс и Сбер. И еще мне показалось, что у Сбера на API модель хуже, чем их же опенсорсные решения. Странно, в общем.
Конкретного победителя, *барабанная дробь*, нет. Если вам нужно самое лучшее качество и вы не в России, берите ElevenLabs. Если же вам нужна высокая скорость и отличное качество, пользуйтесь Nexara. Если вы хотите порезать стоимость транскрибации в несколько раз, и вам не очень важно высокое качество, используйте Groq. Иными словами, тестируйте на своих данных и не верьте ноунеймам из интернета :-)
https://github.com/bobastia/habr-benchmark-2026 - репозиторий с более подробными таблицами из статьи;
https://alphacephei.com/nsh/2025/04/18/russian-models.html - отличное сравнение open source моделей на русских данных от создателей модели Vosk;
https://artificialanalysis.ai/speech-to-text - сравнение провайдеров на сайте Artificial Analysis;
https://habr.com/ru/articles/886924/ - прошлогодняя статья.
Буду рад присоединиться к обсуждению в комментариях, может забыл про какого-то провайдера :-)
Источник


