「音声認識の第2次ブームといわれる今に至るまでには何が起こっていたのか。開発を進める主な企業の歴史から音声認識技術の変遷を追う」
引き続き、音声認識技術の開発を進めている主な企業に焦点を当て、その歴史から音声認識技術の変遷を追ってみたい。主な企業として、海外ではニュアンス・コミュニケーションズ、アップル、グーグル、マイクロソフト、そして国内ではアドバンスト・メディア、フュートレック、レイトロンを取り上げる。
≫ニュアンス・コミュニケーションズはこちら
≫アップルはこちら
今回はグーグルについて紹介する。
■グーグル
グーグルはアメリカのインターネット関連企業であり、同社の運営するインターネットのコンテンツ検索サービス(検索エンジン)は有名である。グーグルの設立は1998年。まだ15年しかたっていないが、設立から数年で世界的企業に成長している。
1998年といえば、インターネットで入手できる情報が増え続けていて、それらの情報を役立てるために、さらに高度な検索技術が求められるようになってきていた時代だ。グーグルは、ちょうどよいタイミングで誕生し、そうした時代の最先端にいたといえる。
音声認識関連では、まず2007年に「GOOG-411」(音声認識技術を利用した独自の無料電話番号案内サービス)を開始。これは2010年11月に終了しているが、自社開発音声認識技術の精度を上げるために行われたプロジェクトのようである。ここで得られた多くの種類の音声データが音声認識精度の向上に役立てられているらしい。
2008年にはモバイル用アプリとして音声検索機能(Voice Search)を導入した。日本語版(Google音声検索)は2009年に発表されたが、現在はAndroidやiPhoneでこの機能を提供するほか、パソコンのChromeブラウザなどにもその技術を展開している。
自社開発の音声認識技術を利用した音声検索サービスは、スマホなどの携帯端末では文字入力が面倒だが、これなら話すだけでよく便利であり、認識精度も高い。
日本で音声認識がブレークするきっかけとなったのはアップルの「Siri」の登場(日本語対応2012年3月)だと感じているが、まず音声認識の実用性を多くのユーザに知らしめたのは、2009年12月に発表されたこの「Google音声検索」の機能ではないだろうか。
では、グーグルはいつ頃から音声検索技術の開発を進めていたのだろう。2006年に出された次の記事によると、グーグルにより音声検索に関わる特許が最初に出願されたのは2001年であり、グーグルがこのプロジェクトをかなり以前から進めていたことが分かる、ということである。
【参考】グーグル、音声検索技術を開発か–特許出願が明らかに(2006/04/13)
グーグルの設立が1998年ということを考えると、グーグルには設立当初から音声で情報を検索するという構想があり、音声検索など音声認識に関わるプロジェクトを進めていたのではないかと感じている。
ただ、そう考えても個人的にはその開発期間が気になった。グーグルから音声検索機能(Voice Search)が最初に発表されたのは2008年11月である。1998年の設立から10年ほどでサービス開始に漕ぎ着けているのだ。10年ほどで実現できた理由には何があるのか。
音声検索というジャンルだと、音声認識システム的に発話スタイルは連続単語発声を想定すればよく、その仕組みはさほど難しくないとも思われる。逆に語彙サイズのほうが重要で、大語彙(数万?)が必要である。だが、そこは検索サービスを専門とするグーグルであるからクリアだろう。2007年の「GOOG-411」サービスの開始は音声検索の提供を見越した動きとも感じる。
そして、次の記事も興味深い。2008年2月の記事であるが、グーグルの独走を支えているのも実は企業買収であり、核となる検索技術以外はグーグルも買収によってイノベーションを進めてきたということである。
【参考】Google,MS,Yahoo!のWeb企業買収レース,ついに最終コーナーへ
記事中に2008年2月までのオンライン分野での主な活動が記載されているが、設立当初からのグーグルの動きを見ても、携帯市場を視野に置き、音声を含む多くの企業を買収し、成長してきていることが分かる。
「世界の情報を整理すること」を使命とするグーグルとしては、「世界の情報」とは文字や画像だけでなく話し言葉である音声もターゲットの一つであり、設立当初から音声認識も視野に入れ、取り組んできたのではないだろうか。
ちなみに、開発に人材は欠かせないが、グーグルには音声認識技術に精通した人材が多く居るという点も音声認識技術成長のポイントだろう。例えば、2004年には音声技術の会社ニュアンス・コミュニケーションズを創業し音声技術の分野で25年以上の経験を持つMike Cohen氏がグーグルに入社し、彼が主に「GOOG-411」や音声検索プロジェクトを進めているようだ。
さて、グーグルは音声検索以外にもGoogle Voiceでボイスメールの音声認識や、自動音声認識(ASR)テクノロジーを利用したYouTubeの自動キャプション機能を提供するなど、さまざまなサービスにおいて音声の活用に力を入れている。
2012年5月にはMotorola Mobilityという企業を買収することで、グーグルは携帯電話関連、音声認識関連技術の膨大な数の特許を手中に収めた。そして、その後も人工ニューラルネットワークを研究するカナダの企業を買収したり、自然言語処理の米新興企業「Wavii」を買収したり、自社の音声認識技術をさらに発展させようという動きが見られる。
次に最近の動きとして気になるものをピックアップしたいと思う。
≫Google、人工ニューラルネットワークを研究するカナダの企業を買収(2013/03/13)
≫Google、自然言語処理の米新興企業「Wavii」を買収、海外メディア報道(2013/04/24)
≫グーグルが量子コンピューティングで研究所設立、ウェブ検索や音声認識に応用(2013/05/17)
≫Googleの“会話式音声検索”、PC版最新Chromeにひっそり実装(2013/05/23)
その他に「Google Now」のアップデート・機能強化なども発表されている。
この最近の動きを見るだけでも、グーグルが音声認識に力を入れていることが分かる。今後は認識精度やその処理速度もさらにアップしていくのだろう。ウエアラブル端末の「Google Glass」なども話題になっているが、グーグルのサービスがどのように進化していくのか、今後の展開が楽しみである。
パソコンのChromeブラウザの最新版(バージョン27.0.1453.93)では会話式音声検索が実装された。今までは検索語を音声で入力するだけで、回答は検索語の含まれるページの一覧を返す形だったが、会話式音声検索では質問の意図と「Knowledge Graph」を突き合わせ、答えが分かる場合は音声で直接回答するようになったとのこと。
試したところ、マイクアイコンをクリックして「安倍総理の年齢は」と尋ねると、58歳だと返してくれた。検索に対する回答を直接表示できる場合は、このように「Google Now」同様にカード形式で回答を表示してくれる。なお、その際グーグルが音声で読み上げてくれるようだが、Google日本版(www.google.co.jp)では現在(2013/05/26)まだ結果のテキスト表示にしか対応していない模様。今後のアップデートに期待したい。
続く