IT MAGAZINE

OpenAI、オープンソースの多言語対応音声認識システム“Whisper”を発表

投稿日 2022年9月22日
thumbnail

人工知能を研究する非営利団体OpenAIは、複数の言語に対応した人間レベルの正確さを持つ、オープンソースの自動音声認識システム“Whisper”のモデルデータ、およびソースコードをGitHubにて公開したことを発表した。

Whisperは、Web上から収集された68万時間の多言語の音声データで訓練された自動音声認識(automatic speech recognition)システムで、アクセントやバックグラウンドノイズ、専門的な言語など、認識能力が格段に向上しているとし、多言語の文字起こしだけではなく、他言語から英語の翻訳も可能なシステムです。

OpenAIが公開したブログ記事では、早口の英語、K-Popの翻訳、フランス語の翻訳、独特なアクセントの英語の4つの音声が用意されており、Wisperが文字起こしをした結果を見ることができます。

Whisperの実行

Whisperのモデルデータおよびソースコードは、GitHubリポジトリで公開されており、Googleが提供している機械学習の開発環境Google Colaboratoryなどで実行することができます。

Colab内にて、Whisperのパッケージをインストールし、日本語や他言語の音声データを読み込むことで、文字起こし、英語テキストへの翻訳が可能です。

 

OpenAIは今後、Whisperモデルが有益な目的のために利用されることを願っているとし、Whisperモデルがよりアクセスしやすくなることで、リアルタイムでの音声認識と翻訳を可能にするアプリケーション構築される可能性があると示唆しています。

 

OpenAI Introducing Whisper Webサイト

GitHub repo for Whisper Webサイト

ARTICLE

アイコン

AIの記事一覧