世界的な音声認識技術の急速な発展の中、Tongyi Qianwenは本日、最新の音声認識モデル「Qwen3-ASR-Flash」を正式にリリースしました。このモデルはQwen3ベースモデルをベースに、膨大なマルチモーダルデータと数千万時間分の自動音声認識(ASR)データを用いて学習されており、ユーザーに高精度で堅牢な音声認識ソリューションを提供することを目指しています。
Qwen3-ASR-Flashの主要機能は、業界をリードする認識精度と卓越した歌唱認識能力です。このモデルは、中国語、英語、そして多言語の複数のベンチマークにおいて、特に歌唱認識において優れた性能を示し、測定エラー率は8%未満です。つまり、Qwen3-ASR-Flashは、アカペラでもBGM付きのフルソングでも効果的に認識・書き起こしが可能で、音楽愛好家にとって大きな利便性を提供します。
もう一つの注目すべき機能は、カスタマイズ可能な認識機能です。ユーザーはあらゆる形式のテキストコンテキストを入力することができ、モデルは固有表現とキーワードをインテリジェントに識別・照合し、パーソナライズされた認識結果を生成します。この機能により、Qwen3-ASR-Flashは複雑なコンテキストを処理する際の柔軟性と適応性を高め、多様なシナリオにおける専門的なニーズに対応します。
さらに、このモデルは、北京語、四川語、広東語といった主要な方言に加え、イギリス英語、アメリカ英語、フランス語、ドイツ語、ロシア語、イタリア語、スペイン語、日本語、韓国語、アラビア語など、最大11の言語と複数の方言・アクセントをサポートしています。この幅広い言語サポートにより、世界中のさまざまな地域や言語の話者のニーズに応え、正確な書き起こしを実現します。
Qwen3-ASR-Flashは強力な堅牢性も備えており、長く複雑な文章、言語切り替え時、複雑な音響環境でも高い精度を維持します。無音や背景ノイズを効果的に除去し、最適なユーザーエクスペリエンスを実現します。現在、ユーザーはModelScope、HuggingFace、Alibaba Cloud Bailian APIなどのプラットフォームを通じてこのモデルを体験できます。