音声認識レベルから現状を探る?単語認識?

1. 「音声認識の中心技術に当たる単語認識とは」

「音声認識の中心技術に当たる単語認識とは」

人間が発した言葉をテキストデータに変換する音声認識技術は、いろいろなところで実現されている。パソコン用ではAmiVoiceやドラゴンスピーチなどの音声認識ソフトが以前から市販されているが、ここ数年ではスマートフォン用の音声認識アプリが続々と登場し、改めて注目されてきている。音声認識精度の向上で実用性が増したからというのが、その理由の一つだろう。

一口に音声認識技術といっても、認識の対象となる言葉の長さや内容などによって認識できる技術的な難易度や認識精度はかなり異なってくるようだ。その進化と技術的な難易度の観点から見ると、大まかに「単語認識」、「文章認識」、「会話認識」の３つに分けられると思うので、あえてそれぞれを分けて考えてみたい。

では、今回は「単語認識」について取り上げたいと思う。

「単語認識」は、文字どおり単語の音声認識技術であり、一度に一単語の発話が前提とされているものだ。音声認識の研究はまず単語認識から始まり、音声認識の中心技術に当たるといえる。その精度の向上のため今でも研究は続けられているが、前もって発話される可能性のある単語を辞書データとして登録しておくことで、ほぼ100％に近い精度での認識が可能のようだ。

単語認識といえば、グーグルが提供する音声検索サービスがある。

http://www.google.co.jp/intl/ja/mobile/google-mobile-app/index.html
スマートフォンで利用できるほか、パソコンではChromeブラウザが対応している（プラグインの適用が必要）。マイクに向かって検索したい単語を言うと、その単語が認識されてヒットした結果が表示されるのだが、非常に高い認識精度だと実感できる。また、検索窓には発した単語が入力されるのだが、ほぼ問題なく音声がテキスト変換されている。

この高い認識精度の実現は、音声認識技術の中でも単語認識という一番実現しやすい技術だというところもあるだろう。だが、それだけではなく、ＩＴインフラの発展もその背景にはあると思っている。マシンスペックの向上、インターネットやモバイル端末の普及、またクラウドの登場などにより、音声認識の精度は驚くほど向上し、使えるシーンも増えているのだ。

なお、「Google音声検索」はiPhoneとAndroidで現在利用できるが、スマートフォンにはマイクが内蔵されているのでインストールすればすぐに使えるという手軽さと、タッチパネルからの文字入力は面倒なのだが、このサービスだと話し掛けるだけでよいという便利さを併せ持つ。

現在はパソコンでもChromeブラウザで利用できるが、マイクがなければマイクが必要だし、いちいちマウスでマイクアイコンをクリックする必要があるので、個人的には面倒くさい（タイピングできないときには便利だが）。好みの問題もあるのだが、個人的には今のところ、この音声検索の機能はモバイルで最大の恩恵を享受できるのではないかと感じている。（でも、とてもワクワクするので、ぜひ体験してみてほしい！）