「気になる音声認識技術市場の動向は? 前回に引き続き、音声認識関連の最新話題をピックアップしてお届けする」
■「ドラゴンスピーチ」がより身近な存在に
≫ニュアンス、Windows(R)7/8/8.1互換の高精度 音声認識・音声入力ソフトウェア「ドラゴンスピーチ11 Lite 日本語版」の販売開始を発表。(2014/6/20)
ニュアンス・コミュニケーションズが「ドラゴンスピーチ11 Lite 日本語版」を発売。これは現在販売中の音声認識ソフト「ドラゴンスピーチ11 日本語版」の廉価版で、一部プロフェッショナル機能が制限されているが、より安くなって新登場したもの。
ドラゴンスピーチは、音声による文字入力ができるだけでなく、音声コマンドによってWindowsアプリケーションやブラウザの音声操作を可能にする音声認識ソフト。無料アプリをダウンロードすれば、iPhoneやAndroidスマートフォンをワイヤレスマイクとしても利用できる。
USBマイク付きのLite版の標準価格は13,100円(税抜)で、「ドラゴンスピーチ11 日本語版」の23,100円(税抜)より4割ほど安い設定。また、今はより安く購入できるキャンペーンもあるようなので、迷っていた人はこの機会に検討してみてもいいかも。
音声認識精度については定評のあるドラゴンスピーチだが、その大きな特徴は、音声入力だけでなく声でアプリも操作できること。スマホやタブレットでは音声認識が大活躍だが、最近はWindows 8搭載マシンでタブレット的に使用できるものも増えている。例えばWindows 8搭載マシンをタブレット的に使う際など、このお安いLite版をインストールすれば、とても便利に使えそうだ。
ただ、廉価版だけあってLite版ではユーザー辞書で単語リストのインポート・エクスポートやボキャブラリの管理ができない、またユーザーによるコマンドの追加・編集ができない、といった制限があるので注意。どのように使うかで欲しい機能は変わると思うが、通常版とLite版の機能の違いは次を参考に、選ぶ際には自分にぴったりなものを選びたい。
■ニュアンスがサムスンに身売り交渉中……? 今後の展開やいかに
≫音声認識のNuance、Samsungに身売り交渉中との報道(2014/6/17)
続けて、ニュアンスのニュース。まだ可能性の段階だが、ニュアンスが身売りを視野にサムスンを含む複数の企業と交渉を行っていたとする情報が報じられている。
ニュアンスは、M&Aを繰り返し音声認識大手に成長してきた企業。現在、同社の音声認識技術はサムスンのGALAXYスマートフォンやタブレットPCに導入されているほか、アップルの音声アシスタント機能の「Siri」など、多くのものに提供されている。
【参考】主な企業の歴史から音声認識技術の変遷を追う(1)ニュアンス・コミュニケーションズ
サムスンは、以前ここでも取り上げたようにウェアラブルデバイスや、ウェアラブルデバイスに「外出」「帰家」などの音声命令を下すことでエアコンや照明・ロボット掃除機などを操作するスマートホーム・サービスにも力を入れている。ただ、現在ところはまだ未成熟で、本格的なサービスを展開するには音声認識の技術レベルの向上が必要といった指摘がされている状態のようである。
【参考】ウェアラブルデバイスのブームが来る日も近い、かも?!
ちなみに、最近アップルも世界開発者会議(WWDC)でスマートホーム・サービスの「ホームキット」を発表したようで、今後のスマートホーム市場をめぐるアップルとサムスンの競争も注目されるところだ。
だが、ここでサムスンがニュアンスの音声認識技術を手に入れられれば、その状況も一気に変わる。この身売りが現実になれば、今後の展開は一体どうなっていくのだろうか。これからのスマートホーム市場をめぐる競争においても、アップルの「Siri」にとっても、ニュアンスの動向は重要なキーとなるだろう。音声認識に絡む今後の展開をはじめ、サムスンとアップルの両者の関係も気になるところである。
■複数のマイクを使用する「マルチマイク」によって音声認識がさらに進化の予感
【動画】ソフトバンク、ロボット事業本格参入 人型ロボット販売へ(14/6/5)
この話題はテレビでも取り上げられていたので、知っている人も多いのではないだろうか。
ソフトバンクモバイルは2014年6月5日、感情認識機能を備えた人型ロボット「Pepper(ペッパー)」を2015年2月から19万8000円(税別)で発売すると発表した。Pepperは、一般家庭に導入することを想定した愛嬌のあるパーソナルロボットだ。
Pepperの特徴は、感情認識機能を世界で初めて搭載したこと。頭部には、マイク4台、カメラ2台、3D(3次元)センサー1台を搭載する。これによって、人の表情や声のトーンから、笑いや怒りなどの感情を認識したり、人との距離や声のする方向を識別したりすることができるようになっている。
個人的にこの話題で今回注目しているのは、Pepperにはマイク4台が搭載されている、ということ。声のする方向を認識するといったペッパーの動き等の精度には、この複数のマイクの搭載が大きく関係しているといえる。現在その他の業界においても、このような複数のマイクを使用する「マルチマイク」が音声認識精度向上におけるキーとなっているからだ。
例えば自動車業界では、カーナビにおける認識精度の大幅なアップがマルチマイクによって実現されつつあるよう。2個あるいは2個以上のマイクを使って、マイクに指向性を持たせ、その各マイクに届く声の位相差を利用して不要な声を除去し、そこに独自のフィルターを介して雑音を除去することで音声の認識精度を大幅に高める、といったことである。
現在、マルチマイクを活用し、また複数のマイクを使いこなす信号処理技術の進歩により、音声認識のさらなる進化が実現されようとしている。また、今後はスマホなどでも2個以上のマイクが当たり前になってくる……ともいわれているよう。個人的に今注目している話題である「マルチマイク」については、次回以降ここでまた改めて取り上げる予定である。