「日々進化している音声認識技術。最新の話題をピックアップして紹介する」
≫ドコモ、開発者向けのAPIサイトを提供へ–音声認識など5種類(2013/10/18)
NTTドコモがスマートフォンのサービス開発者向けに、アプリケーションの開発に必要なAPI(アプリケーション・プログラム・インターフェース)の提供サイト「docomo Developer support」を11月11日に公開する、とのこと。
APIはアプリの開発者がその機能やデータベースを呼び出すために使うが、ここでは例えば「しゃべってコンシェル」に使われている音声認識や質問の意図を解釈して回答するAPI、また新たに開発した「雑談対話」のAPIなどが無料で提供されるよう。また、今後はSDK(ソフトウエア開発キット)などの開発支援ツールを提供していくほか、技術に関する問い合わせ窓口も設ける予定のようだ。
「しゃべってコンシェル」に関わるAPIや「雑談対話」のAPIを利用することにより、自然でバリエーション豊かな雑談応答を楽しめる対話型のサービスやアプリ開発が可能になる。音声認識を利用したサービスを作りたいと考えている開発者にとってはうれしいニュース。ドコモとしても保有するAPIを無料開放することで同社のAPIを利用してもらい、スマホのサービスやアプリの充実を目指す狙い。ユーザーとしては、今後どのようなサービスが出てくるのかを楽しみにしているとともに、ドコモの行く末を見守りたい。
≫クラリオン、グーグル提携第1弾ナビ投入?自由発話型で目的地検索(2013/10/2)
クラリオンがグーグルの音声認識技術を利用したカーナビを10月上旬から順次発売する、とのこと。今年の5月ごろにクラリオンとグーグルが技術提携しグーグルの音声認識技術を搭載したカーナビを年内に製品化予定というニュースを目にしたので、それから約5カ月後の発表となる。
新モデル「NX713」には、グーグルの音声検索機能を利用した「Intelligent Voive」を搭載。これは、あいまいな情報でも音声認識を使ってインターネットから必要な情報を検索できる自由発話型の目的地検索機能となる。例えば「1,000円でステーキ食べたい」、「ワンボックス駐車場」、「マクド」「マック」といった言葉でも検索できるようだ。
なお、前回の記事でも少し紹介した最先端IT・エレクトロニクス総合展である「CEATEC JAPAN2013」が先日(10月1日?5日)開催されたが、そこに出品されており、多くの人が訪れ反響を呼んでいた。
前回の記事:https://8089.co.jp/onsei-ninshiki/350
また、私も行ったので実際に試してみたのだが、そのときにはあまり認識してもらえなかった。ただ、そのときに聞いたお話では、会場では普段にない多くの雑音があり過ぎてうまくいかない傾向があるとのこと。実際にカーナビとして使われるときには、自動車独特のエンジン音や風切り音などが入り込み変換がうまくいかないという課題があったようだが、クラリオンでは独自のノイズフィルターを開発し、実際に入力エラーなどを減らすことに成功しているようだ。
最近のニュースを見ていると、スマホと連動し、クラリオン以外にもカーナビ分野では音声認識の利用が着々と進んでいるように思う。その他では、教育分野だろうか。特に音声認識を使った英語学習アプリや翻訳アプリのニュースもよく目にする気がする。2020年には東京オリンピックの開催も決まったことであるし、今後は通訳機能を有した音声認識サービスも数多く見られるようになるのかも?
最後に、このニュースを少しだけ取り上げたい。
≫アドバンスト・メディア、1億5000万円でグラモ子会社化(2013/9/26)
以前に記事でも紹介したが、アドバンスト・メディアは音声認識分野での日本のパイオニアであり、個人的にも注目している企業の一つだ。そのアドバンスト・メディアが9月25日に、ネットワークを利用した機器コントロール装置を手がけるグラモ(埼玉県新座市)の全株式を取得し、完全子会社化した、とのこと。
以前の記事・アドバンスト・メディア:https://8089.co.jp/onsei-ninshiki/324
グラモはスマホで外出先から家電製品を制御する機器などを展開しており、アドバンスト・メディアはグラモに音声認識技術の一部を提供している。今後は両社の技術を融合して高度化するということである。
同社が開発している「AOI Browser」がさらに進化するのだろうか? それとも……? その動向が気になるところである。今後の発展を期待している。
【参考】AOI Browser