Qwen 3.5 Omni: Alibabaの AIモデルが音声認識、動画理解、音声クローン機能を実現

要約

AlibabaのQwen 3.5 Omniは、真のリアルタイムオムニモーダルAIを最先端の競争にもたらします。
ネイティブな音声・映像処理は、速度と一貫性において、つなぎ合わせたマルチモーダルパイプラインを上回ります。
音声クローニング、意味的割り込み、バイブコーディングは、完全にインタラクティブなAIエージェントへの移行を示しています。

Alibabaは、これまでで最も野心的なAIアップグレードをリリースしました。

同社のQwenチームは日曜日にQwen 3.5 Omniをリリースしました。これは「オムニモーダル」AIの新バージョンで、テキスト、画像、音声、動画を同時に処理し、36言語でリアルタイムに応答します。このモデルは、現在利用可能な最新の最先端AI基盤モデルと同じ土俵に立っています。

ここでの「Omni」は単なるマーケティング用語ではありません。多くのAIモデルは主にテキスト入力・テキスト出力システムです。画像を扱うものもあれば、音声を扱うものもあります。Qwen 3.5 Omniは、サードパーティのツールを使ってすべてをテキストに変換する必要なく、それらすべてをネイティブに同時に処理します。

新しいモデルは3つのサイズ（Plus、Flash、Light）で提供され、すべて256,000トークンのコンテキストウィンドウ（今日の基準では小さい）をサポートしています。1億時間以上の音声・映像データで訓練されており、そのスケールは大半の競合とは異なる重量級です。

Qwen 3.5 Omniは、2025年12月にリリースされたAlibabaの以前のオムニモーダルモデルであるQwen 3 Omni Flashの進化版です。そのバージョンは、動画と音声を同時に処理する能力ですでに印象的でした。競合が対応できない方法で、複数の視覚入力を組み合わせた画像編集指示を処理でき、234ミリ秒という低レイテンシで音声応答をストリーミングしました。

これはまた、GoogleのNotebookLMの代替を試みた最初のモデルでもありました。何かを達成しましたが、品質はGoogleの提供するものと同等ではありませんでした。

Qwen 3.5 Omniは、そのすべてに加えて、より長いコンテキストウィンドウ、より優れた推論、はるかに広範な言語ライブラリ、そして前世代にはなかった一連のリアルタイムインタラクション機能を追加しています。

注目のアップグレードは、実際に対話したときに何が起こるかです。Qwen3.5-Omniは意味的割り込みをサポートするようになりました。文の途中で「ええ」と言っているのか、実際に割り込みたいのかを区別できるため、誰かが背景で咳をするたびに思考の途中で止まることがなくなり、音声インタラクションがよりシームレスになります。

ARIA（Adaptive Rate Interleave Alignmentの略）と呼ばれる新しい技術は、微妙だが持続的な煩わしさも修正します。それは、音読時に数字や珍しい単語を不明瞭にするAIシステムの問題です。ARIAはテキストと音声を動的に同期させ、出力を自然で正確に保ちます。

次に音声クローニングがあります。ユーザーは音声サンプルをアップロードし、モデルに応答でその音声を採用させることができます。この機能により、QwenはElevenLabsや他の専用音声ツールと直接競合することになります。ただし、この機能は、少なくとも今のところ、API経由でのみ利用可能であるため、私たちはこの機能にアクセスできませんでした。

多言語音声安定性ベンチマークにおいて、Qwen3.5 Omni-PlusはElevenLabs、GPT-Audio、Minimaxを20言語で上回りました。このモデルは、リアルタイムWeb検索もサポートするようになり、すでに知っているふりをすることなく、速報ニュースやライブ市場データに関する質問に答えることができます。

チームはまた、「Audio-Visual Vibe Coding」と呼ばれるものを強調しています。モデルは、コーディングタスクの画面録画または動画を視聴し、テキストプロンプトを必要とせず、見聞きしたものだけに基づいて機能的なコードを書くことができます。これは、AIアシスタントが最終的にワークフローの横ではなく、ワークフロー内で動作する方法の小さなプレビューです。

「オムニモーダル」が実際に何を意味するのかを理解するために、簡単なテストを実行しました。Qwen3.5-OmniとChatGPT 5.4の「思考」モードに、同じYouTube Shortを入力しました。これは、Dastan President（DastanはDecryptの親会社）とコメンテーターFarokhが速報ニュースについて議論しているクリップです。Qwen 3.5 Omniは動画をネイティブに処理し、約1分で完全な分析を返しました。誰が話しているか、何を議論しているか、そしてその主題分野に関する独自の知識に基づいた実質的なコメントです。

オムニモーダルではないChatGPT 5.4は、得られたもので対処する必要がありました。動画からフレームを抽出し、ビジョンモデルを通して実行し、Whisperを使用して音声を文字起こしし、OCRツールを適用して埋め込まれた字幕を読み取りました。3つの別々のプロセスをつなぎ合わせて、Qwen3.5-Omniが1回のパスで行うことを近似しました。結果には9分かかりました。そしてこれは理想的な条件下でのことです。明るい照明の動画、クリアな音声、焼き付けられた字幕です。実世界のコンテンツがこの3つすべてを提供することはめったにありません。

複数の入力にわたる簡単なテストでは、モデルはスペイン語、ポルトガル語、英語のプロンプトも問題なく処理し、会話の途中で言語を切り替えてもコンテキストを失いませんでした。

標準ベンチマークでは、Qwen 3.5 Omni PlusはGemini 3.1 Proを一般的な音声理解、推論、翻訳タスクで上回り、音声・映像理解では同等でした。音声認識は現在、113の言語と方言をカバーしています。前世代の19から増加しました。

これは6週間でAlibabaの2番目の主要なAIリリースです。2月には、推論とコーディングベンチマークで最先端モデルと同等かそれを上回るテキスト・ビジョンモデルであるQwen 3.5を発表しました。これは、Qwen Deep Researchや、OpenAIやGoogleに匹敵するツール群を含む連続リリースの一部です。Qwen 3.5 Omniは、あらゆる主要なAIラボが画面上の単語だけでなく、人間のコミュニケーションの全スペクトルを処理するシステムの構築を競っている時期に、その勢いを完全なマルチモーダル領域に拡張します。

このモデルは現在、Alibaba CloudのAPI経由で利用可能で、Qwen ChatまたはHugging Faceのオンラインデモで直接テストできます。