音声認識関連のホットなニュースetc. (13) ―IBM WatsonとAmazon Echo―

音声認識関連のホットなニュースetc. (13) ―IBM WatsonとAmazon Echo―

音声認識関連のホットなニュースから気になったものをピックアップしてお届けします

【ピックアップコンテンツ】
みずほ銀行のコールセンターに導入した「ワトソン」の正答率は?
Amazon Echoを持っていなくてもAmazon Alexaの音声認識技術を試す方法

みずほ銀行のコールセンターに導入した「ワトソン」の正答率は?

米IBMのコグニティブ(認知)テクノロジーである「Watson(ワトソン)」。現在は日本語にも対応し、さまざまなところで導入が進んでいる。特にみずほ銀行や三井住友銀行などのメガバンクから“内定”を得たというニュースは、大きな話題となった。

みずほ銀行が横浜市神奈川区のコールセンターにWatsonと音声認識技術を組み合わせたシステムを導入したのは2015年2月。導入から約1年半が経過した今、その利用や精度などの状況はどのようになっているのだろうか? 次の記事から紹介しよう。

みずほ銀行のコールセンターに導入した「ワトソン」の正答率は?(2016.8.15)

利用状況としては、当初は10席から試験的に取り組みを始めたが、現在Watsonに対応した席は200以上に拡大。今後は営業での活用も考えられているようだが、今はインターネットバンキング関連などの受電対応にのみに使われている、とのことである。

オペレーターが顧客から電話を受けると、その会話を音声認識システムが文字データに変換。それをWatsonが解析、最適な回答を導き出し、オペレーターのパソコン画面に提示する。会話の内容に応じてマニュアルや店舗・ATM、ホームページ上の商品、サービスなど5つの区分で各項目上位10位の回答候補を表示する。

気になる精度の状況としては、オペレーターの発話を文字数ベースで音声認識した確率は88%で、目標の80%を上回っているという。また、その後のWatsonの回答候補の提示上位5位以内の正答率は、取り組み直後は70%程度だったが、現在は85%に向上しているよう。

この音声認識率の高さは、顧客の発話の認識率は62%ということで、その要件を「オペレーターが復唱する」ことで対応しているという点がポイントとなっている。電話越しの声はノイズが多く、システム(Watson)だけで解決するのは、現状ではまだ難しいといえる。音声認識技術の面では、これはWatsonに限らず録音音声の文字化においてもいえるが、今後オペレーター(人間)が復唱せずとも高精度で認識できるようになればいいと、期待している。

Amazon Echoを持っていなくてもAmazon Alexaの音声認識技術を試す方法

「Amazon Echo(アマゾン・エコー)」は、米国でアマゾンから発売された、音声によるアシスタント機能を備えた据え置き型の家庭用デバイスだ。「Alexa(アレクサ)」という名前の音声認識・対話機能が備わっており、声でAlexaにさまざまな“用事”を言いつけることができる。

例えば「Alexa」という呼び掛けで始められるサービスは、音楽コンテンツの検索や再生、住宅の照明の点灯や消灯、ニュースの読み上げ、「Amazon.com」の各種商品の発注、タクシーやUberの手配、各種クイズやゲーム等々、多岐にわたる。

そしてAmazon Echoは、製品価格もそれほど高くなく、その手軽さからか、性能の良さからか、2014年に発売されてからこれまでに米国だけで数百万台が売れたよう(2016年3月末までに300万台売れたという調査会社の推計あり)。現在、米国において大ヒット商品となっているのだ。

そんなAmazon Echoなのだが、Alexaの音声認識精度はどんな感じか気になるなと思っても、残念なことに、まだ日本では発売されていない。そろそろ日本に……ともいわれているようだが、今のところ発売は未定だ。

では、発売されるまで待つしかないのか? いろいろと調べていると、実はAlexaをシミュレーションする方法がいくつかあるという次の記事に行き着いた。こちらの記事を紹介しよう。

Amazon Echoを持っていなくてもAmazon Alexaの音声認識技術を試す方法(2016.6.9)

この記事によると、Alexaをシミュレーションするには、ブラウザからアクセス、モバイルアプリ(有料)からアクセス、環境を自作するという、大きく3つの方法があるよう。1つ目のブラウザからのアクセスは、簡単に試すことができる。

ブラウザからの方法としては、まず「Echosim.io」というAlexa用のシミュレーションサイトがあるとのこと。サイトにアクセスし、アマゾンアカウントでログインする。

Echosim-io

「Click and hold to speak your command.」と書かれているように、マイクボタンをクリックして押し続けた状態で話し掛ける。ボタンを離すと、答えてくれる。

“What’s the weather in Tokyo, Japan?”と聞くと、東京の天気を気温情報などを含めて親切に教えてくれた。聞き取れなかった場合は、もう一回トライして、と言ってくれる。その他、いろいろと話し掛けてみたが、微妙な英語の発音でも意外と聞き取ってくれた。家に1台あると、確かに何かと便利なのかもしれない。

据え置き型であるAmazon Echoの大きな特徴は、ハンズフリーで使えること、遠距離での音声認識が可能なこと(6~9mほど離れていても認識が可能のよう)、7個のマイクの搭載により雑音を抑制し、高い音声認識精度を実現することだ。Amazon Echoは会話コマースを最初に成功させた製品といえ、この人気ぶりを見ていると、音声認識技術も新しいフェーズに入ってきたと実感できる。単なる機器操作のキーボードやタッチパネルの代替を超え、人やモノやサービスを動かすツールとして音声(会話)が使われて始めてきている。

Amazon Echoが日本で発売された場合、日本でも米国と同様にヒットするのだろうか。そのときにならないと分からないが、日本でも注目され、その発売を待ち焦がれている人が多く居ることは確かだ。

【参考】日経エレクトロニクス2016年8月号「音声対話が世界を揺るがす」