阿里巴巴雲 宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源,為語音識別和強制對齊提供高級工具。  Qwen3-ASR 系列包括兩個一體化…阿里巴巴雲 宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源,為語音識別和強制對齊提供高級工具。  Qwen3-ASR 系列包括兩個一體化…

Qwen開源了具有多語言功能的先進ASR和強制對齊模型

Qwen開源了具有多語言功能的先進ASR和強制對齊模型

阿里巴巴雲 宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源,為語音識別和強制對齊提供高級工具。 

Qwen3-ASR 系列包括兩個一體化模型,即 Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B,它們利用大規模語音資料和 Qwen3-Omni 基礎模型,支援 52 種語言和口音的語言識別和轉錄。 

內部測試表明,1.7B 模型在開源 ASR 系統中實現了最先進的準確率,而 0.6B 版本則兼顧了性能和效率,能夠在 1 秒內以高並發性轉錄 2,000 秒的語音。 

Qwen3-ForcedAligner-0.6B 模型採用非自回歸 LLM 方法對 11 種語言的文字和語音進行對齊,在速度和準確性方面均優於領先的力對齊解決方案。 

阿里雲也發布了一個基於 Apache 2.0 許可的綜合推理框架,支援串流處理、批次處理、時間戳預測和微調,旨在加速音訊理解領域的研究和實際應用。

Qwen3-ASR 和 Qwen3-ForcedAligner 模型展現出領先的準確性和效率

阿里雲發布了其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型的效能測試結果,證明其在各種語音辨識任務中均具有領先的準確率和效率。 

Qwen3-ASR-1.7B 模型在開源系統中取得了最先進的成果,在英語、多語言和漢語方言識別(包括粵語和 22 種區域變體)方面優於商業 API 和其他開源模型。 

即使在信噪比低、兒童或老年人語音、甚至歌聲轉錄等具有挑戰性的聲學條件下,它也能保持可靠的準確性,在中文中平均詞錯誤率為 13.91%,在英語中(有背景音樂)平均詞錯誤率為 14.60%。

較小的 Qwen3-ASR-0.6B 兼顧了準確性和效率,在高並發性下可實現高吞吐量和低延遲,能夠在 128 並發性的在線非同步模式下轉錄長達 5 小時的語音。 

同時,Qwen3-ForcedAligner-0.6B 的效能優於領先的端到端強制對齊模型,包括 Nemo-Forced-Aligner、WhisperX 和 Monotonic-Aligner,提供更出色的語言覆蓋範圍、時間戳準確性和對各種語音和音訊長度的支援。


Source link

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。