主な企業の歴史から音声認識技術の変遷を追う(2)

主な企業の歴史から音声認識技術の変遷を追う(2)

「音声認識の第2次ブームといわれる今に至るまでには何が起こっていたのか。開発を進める主な企業の歴史から音声認識技術の変遷を追う」

前回に続き、音声認識技術の開発を進めている主な企業に焦点を当て、その歴史から音声認識技術の変遷を追ってみたい。主な企業として、海外ではニュアンス・コミュニケーションズ、アップル、グーグル、マイクロソフト、そして国内ではアドバンスト・メディア、フュートレック、レイトロンを取り上げる。

今回はアップルについて紹介する。
前回記事ニュアンス・コミュニケーションズについてはこちら

■アップル

何度か脚光を浴びながらも普及のハードルを乗り越えられなかった音声認識技術だが、いよいよ使えるレベルに到達してきた。そのインパクトとして特に大きかったのは、やはり2011年10月に発売のスマホ「iPhone 4S」に初めて搭載されたアップルの音声インターフェースサービス「Siri」の登場だろう(Siriの日本語対応は2012年3月)。

siri

1987年、アップルは「Knowlege Navigator」という未来の情報端末を暗示させるコンセプトを発表していた。そして、「Siri」こそがそれを具現化したものだというユーザも居る。この動画は見たことがある方も居るのではないだろうか?

【動画】アップル「ナレッジナビゲーター(Knowledge Navigator)」日本語吹替版

確か「Siri」が日本語対応で話題になったときにテレビでも流れていたように思う。1987年に発表したとき、いったい周りはどのような反応を示したのだろう。「Siri」にも課題は多く、あくまで入り口だろうが、自然な会話でコンピュータとやりとりできるという究極の夢が着々と今、現実のものになりつつある。

とはいえ、これまでアップルは何年もかけて自社のデスクトップOSなどに導入する音声認識技術の研究開発を行ってきていたようだが、音声認識分野において特にアップルが優れているというイメージは(私には)なかった。

Macとしても音声認識機能はOS Xにも用意されていたが、対応する言語は英語のみで、音声入力が日本語に対応したのは2012年発売の「OS X Mountain Lion」からとなる。また、「Siri」が登場する前のiOSにおいても音声認識システムが搭載されていた(正確には「音声コントロール」という機能で、電話をかけたり音楽を再生する程度であれば日本語で利用できた)が、誤認識も多かったようで、大々的にアピールするほどの完成度には達していなかったようだ。

しかし、それが「Siri」の登場により、アップルが音声認識市場に一気に躍り出た形となった。いったい何があったのか。

そのきっかけは、やはり2010年4月の米Siriの買収だろう。このSiri社は、世界で最も大きな研究機関の一つであるSRIインターナショナル(以下SRI)の人工知能プロジェクトからスピンオフし2007年に設立された企業である。音声認識や自然言語処理等において優れた技術を持っており、その技術に価値を見いだしていたアップルはSiri社を買収し、その技術を基に「Siri」を誕生させたのだ。

実際、「Siri」の技術の大本となるSRIの人工知能プロジェクトは、DARPA(軍事用技術の研究開発を行うアメリカ国防総省の機関)から資金提供された史上最大の人工知能プロジェクトだということである。「Siri」はその血を受け継いでいると言っていいだろう。アップルはSiri社の買収によりその技術を手に入れ、音声認識市場に華々しく参入したといえる。

では、今後はどうなっていくのだろう。アップルの「Siri」の登場によって業界にもさまざまな動きが起きている。例えば2013年以降でいえば、アマゾンが「Siri」に対抗すべく音声認識ソフトメーカーのイボーナ・ソフトウェアを買収したようだ。これにより「Siri」に比肩する機能が「キンドル」に搭載されるかもしれない。

【参考】米アマゾンが音声認識ソフトのイボーナ買収、アップルに攻勢へ

また最近では、グーグルが自然言語処理技術を手掛ける米国の新興企業「Wavii」を買収したとのこと。Waviiをめぐってはアップルも「Siri」の技術向上に生かす狙いで買収交渉してきたようだが、最終的にグーグルが競り勝ったようだ。

【参考】Google、自然言語処理の米新興企業「Wavii」を買収、海外メディア報道

アップルにとって「Siri」が検索業界に参入するための入り口になるとのことで「グーグルとの戦争」「アップルとグーグルとの対立構図が鮮明になってきた」などといった内容をよく見掛けるようになったが、今後どうなっていくのか興味深いところでもある。アップルとヤフーがiPhoneでの連携強化に向けて協議しているなどというニュースもあり、今後の展開が注目される。

【参考】アップルとヤフーがiPhoneでの連携強化に向けて協議

Siri社を買収することによって音声認識市場に参入したアップルではあるが、現在はニュアンス・コミュニケーションズから音声認識エンジン部分の技術の提供を受けているといわれている。その理由としては、前回の記事でも少し触れたがニュアンスが音声認識に関する数多くの特許権を保有していること、また、その知識も含め音声認識技術に精通している専門家が多いということが大きいようだ。

音声認識におけるアップルの今後の課題の一つとしては、核となる音声認識エンジンの部分をニュアンスに委ねたままでいいのかということもあるかもしれない。また、現在「Siri」はベータ版である。ユーザとしてはベータ版から正式版へと進化を遂げる「Siri」の今後に期待したい。もうスティーブ・ジョブズがいないとは実に寂しいが、これからもアップルにはワクワクさせられることを願うばかりである。

ちなみに、「Siri」はアップルに買収されなければAndroidに搭載予定の音声インターフェースサービスだったようだ。もしAndroidに搭載されていたら、現在はどのような状況になっていたのだろう。アップルではなかったら、今回のような音声認識のブームは起きなかったのかもしれない。

【参考】SiriはAndroidに搭載予定の音声アシスタントだった?

続く