「今まさにブーム到来!? 音声認識技術はここまで進歩している」
音声認識とは、「ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと(Wikipediaより引用)」。その技術の歴史は古く、数十年前から研究・開発がされている。調べてみると、コンピュータが普及し始めた1970年代という、かなり昔からのようだ。
音声認識の技術は、さまざまな場面で使われている。議事録作成支援システム、コールセンター向け通話内容分析システムといった企業向けシステムのほか、パソコン、携帯、家電、ゲームなど、私たちがあまり意識していないところにも音声認識の技術が生かされている。
懐かしいものだと、「シーマン」というゲームをふと思い出した。一時期ブームになったのだが、ご存じだろうか?1999年に発売されたペットを飼育するゲームなのだが、このゲームには音声認識の技術が活用されている。話し掛けるとシーマンが返事をしてくれたり、プレーヤーの年齢や性別などを覚えてくれたりするのだ。ただ、当初は音声の認識率があまりよくなく、間違った情報を受け入れるなど問題も多かった。
というのも、音声認識技術において、声質の違いや方言の存在、話し方などから、その認識精度の向上が長年の課題とされてきた。また、日本語は欧米系の言語と比べて同音異義語が多いため、認識が難しいといえる。そのため、例えば「シーマン」では「認識できない場合はシーマンが怒って無視する」という独自の工夫で対応していた。それがシーマンの愛嬌(?)にもつながっていたといえるのだが、当時はまだまだ音声認識の精度が低く、そうせざるを得なかったというところだろう。
では、数十年前から研究・開発されてきた音声認識技術だが、実際、現在はどんな状況なのだろうか?
現在では携帯やパソコンをはじめさまざまなものが驚くほど進化しているが、音声認識の技術も例外ではない。あまり表立ってはいないかもしれないが、着々と技術は進化し続けているのだ。
身近なものでは、東芝が声で動くエアコンを発表したり、パソコンや携帯電話(iPhoneなど)でテキストを音声で入力できたり(その認識精度も飛躍的に向上している)、さらには携帯との双方向コミュニケーションが楽しめたり、ひそかに音声認識ブームが到来しているんじゃないかと、私は勝手に思っている。
例えば、先日公開されたiPhone用OSの新バージョンiOS5.1で「Siri(シリ)」が日本語に対応したというニュースは知っている方も多いだろう。SiriとはSpeech Interpretation and Recognition Interface(発話解析・認識インターフェース)の略で、自然な口調で話し掛けるだけでその音声を理解し、その内容によって適切に対応してくれる音声認識バーチャルアシスタントアプリだ。
例えばSiriに「今日の天気は?」と聞くと、天気予報を表示してくれる。Siriに話し掛けると、ユーモアたっぷりに返事をしてくれる。いつもと同じ自然な口調でSiriにしたいことを伝えるだけで、Siriは言葉だけでなくその意味も理解し処理するほか、音声で返事もしてくれるのだ。もちろんまだ完璧とまではいかないが、以前よりも格段に双方向コミュニケーションが成り立つようになってきていると感じている。技術は日々進化し、音声認識の精度も飛躍的に向上しているようだ。
なお、音声認識技術はキーボードからの入力に代わる文字入力方法としても注目を集めており、Siri以外にもさまざまな音声認識ソフトが開発されている。数年前はまだまだ精度が低く実用的ではないと感じたが、Siriを見ても高度な音声認識技術が用いられており、今後に期待が持てそうだ。
次回は音声認識によるテキスト変換に焦点を当てて、音声認識ソフトの現状やポイントについて紹介していきたいと思っている。