■アマゾンとマイクロソフト、音声アシスタントを相互連携(2017/08/31)
■Microsoftの音声認識技術、「テープ起こしのプロ」の精度に 研究チームが発表(2017/08/23)
会話型AIであるアマゾンの「Alexa(アレクサ)」とマイクロソフトの「Cortana(コルタナ)」が年内に相互連携、友達になるとのこと。ただし、この連携は今のところ米国市場に限った話となる。
この相互連携により、ユーザーはAlexaからCortanaを、あるいはCortanaからAlexaを、呼び出して利用することができるようになる。呼び出すときには、あくまで「ゲスト」なので例えば「Alexa, open Cortana」というふうに1クッション挟むことになるようだが、1つの機器でAlexaとCortanaの両方を作動できるようになるというのはユーザーにとって朗報だ。
将来的にはAndroid/iOSにも対応予定とのことで、そうなるとまた便利になりそう。日本語のサポートがいつになるかは不明だが、期待して待ちたい。
これら会話型AIは音声アシスタントとも呼ばれているが、音声アシスタント分野でライバル同士がこういう形で手を組むのは、どうやらこれが初めてらしい。ライバルとしては他にグーグルの「Googleアシスタント」、アップルの「Siri(シリ)」、LINEの「Clova(クローバ)」などがあるが、IT各社のシェア争いが激化している中、AlexaとCortanaが友達になることで今後の展開がどうなっていくのか楽しみだ。
Alexaは、ショッピング機能や家庭内の家電製品の制御など1万5,000を超えるスキルを持っている。対してCortanaは「Office」や「Outlook」に深く統合しており、スケジュール管理やリマインダー、メール処理などが得意だ。それぞれで得意とするスキルやアクセスできるデータは異なる。お互いの機能を補完し合う相互連携はどちらにとってもメリットがある。
今はまだ具体的な交渉はないようだが、今回の連携をきっかけに今後は友達の輪が広がっていき、他社のAI同士が話し合うAIネットワークが構築されていく可能性は十分にありそうだ。
マイクロソフト(MS)は2017年8月20日、同社の音声認識システムが業界標準のSwitchboard音声認識タスクで5.1%の単語エラー率を達成したと発表した。2016年のテストでは5.9%の単語エラー率を記録し「ヒューマンパリティ(人間と同程度であること)」に到達したとしていたが、今回のテストではそれを上回る数値を記録した。
ちなみに、IBM は2017年3月7日、Switchboardで5.5%の単語エラー率を達成したと発表したが、ヒューマンパリティはもっと低く、それは5.1%であると判断していたという。
【参考】IBM、音声認識の誤り率でMSの記録更新–「人と同等」レベルには未達と判断(2017年03月14日)
ある記事によると、人間は会話の中の約5%を誤って聞き取っているとのこと。単語エラー率が5.1%というのは、数値的には、ほぼ人間と同程度の聞き取り能力レベルだということはいえそうだ。
他では、最近ではグーグルが2017年5月17日に、同社の音声認識テクノロジーの単語エラー率が4.9%まで下がったことを発表している。といっても単語エラー率はテスト環境や評価基準などによって全く違ってくるので、この数値だけで比較や優劣などはつけられない。
【参考】Googleの音声認識エラー率が4.9パーセントに、数年で大きく改善(2017.5.20)
ここでは、各社での単語エラー率は年々改善されており、人間と同程度の聞き取り能力レベルに近づいているという事実に注目したい。
テープ起こしの観点で、ではテストでヒューマンパリティに到達した数値が出たからといって実際にどのような音声もその音声認識で人間並みに起こせるようになったかというと、現時点ではまだ難しく、音声によるところが大きいだろう。ただ、今度もさらに改善されていくと考えると、音声認識だけで起こせる音声もどんどん増えていくことだろう。テープ起こしが完全に人間の仕事でなくなる日はまだ当分先のように思われるが、テープ起こしの作業の形が変わる日は、それほど遠くないのかもしれない。