「ネット界の有名トップアナリストがインターネット・トレンドの年次レポートを発表。そのレポートから音声認識に関わる内容をピックアップして紹介する」
シリコンバレーの著名ベンチャーキャピタルKPCBのパートナーであるメアリー・ミーカー(Mary Meeker)氏が、毎年発表している「インターネット・トレンド」と呼ばれるレポートを発表した。インターネットの動向をまとめた詳細なレポートには、関係者必見の内容がてんこ盛り。テクノロジーの世界で何が起きているかを学ぶ一番手っ取り早い方法は、このレポートを読むことかもしれない。
この年次レポートの内容は多くの記事でも取り上げられているが、ここでは中でも音声認識に関わる注目事実をピックアップして紹介する。
2016 Internet Trends Report – Mary Meeker June 1, 2016
グローバルで見たスマホの出荷台数は、2009年にはiOS:14%、Android:4%だったが、2015年はiOS:16%、Android:81%と差が拡大。2016年は、前年比でAndroid 7%増、iOS11%減で、ますます差がついているという結果に。
Googleの音声認識の認識率を見ても2010年には70%だったのが2016年には90%に。音声認識技術はここ数年で性能が格段に向上している。
米国で音声アシスタントを利用するユーザーの割合は、2013年には30%だったのが2014年には倍近く増え、2015年には65%に。性能の向上に伴い利用する人も確実に増えている。
「Navigate Home」、「Call Mom」、「Call Dad」のいずれもが2013年の序盤から急増している。これは2014年に、グーグルでは例えば家族なら名前を言わなくても「Call Mom」で電話をかけられるといったように、より自然に音声コマンドが利用できるようになったという背景があるようだ。シンプルで実用的な音声コマンドによって音声を使う人が増加したといえるだろう。
人々が音声入力を使う主な理由の割合は、次のとおり。
・両手や視線がふさがっているときに有用だから(61%)
・より早く結果が得られるから(30%)
・機種の仕様上、文字入力が困難だから(24%)
・面白い/格好いいから(22%)
・どのメニューを使っていいか迷いたくない(12%)
・その他(1%)
また、米国での音声入力の利用シーンとしては、「自宅(43%)」と「車内(36%)」で約8割を占めるという結果に。「外出時」は19%と少ない。現在アマゾンのスピーカー型音声バーチャルアシスタント「Amazon Echo」が米国で大人気となっているのは、Amazon Echoがこの家庭内のニーズにうまく応えられているからなのだろう。
音声で動かせるAmazon Echoが大ブレイク、対応デバイスやサービスの数も急増
2015年にはAmazon Echoで操作できるデバイスやサービスの数がわずか14個だったのに対し、2016年5月には950個にも増えている。よりユーザーのニーズに応えられる形に進化中で、アマゾンの音声認識技術を核にしたスマートホームのエコシステムが完成しつつあるようだ。
スマートホームの領域では現在Amazon Echoが先を走る形となっているが、グーグルも5月に「Google Home」というスマートホームのプロジェクトを発表、Amazon Echoに対抗する製品を年内に発売する見通しだ。また、アップルも参入を狙っている。Siriの開発者への開放やiOS 10で提供予定のHomeアプリは、アップルのスマートホームプラットフォーム「HomeKit」の飛躍につながる可能性がある。ただ、アップルが遅れを取っているのは否定できない。
左は音声認識、右は文字を音声で読み上げる機能の利用数。中国でも今、音声検索する人が急増中のよう。というのも、小さな携帯電話の画面にキーボードで中国語を入力するのはやはりストレスのようだ。
なお、人工知能研究の権威、スタンフォード大AI研究所の元所長で現在BaiduのチーフサイエンティストAndrew Ng氏は、5年後には音声か画像による検索が少なくとも50%の割合で行われているだろうと予想しているようだ(参考125ページ)。
Andrew Ng氏、音声認識精度が99%に達したときに潮目が変わる
Andrew Ng氏が語ったとされる内容が紹介されている。
“ 音声認識精度が95%から99%に向上すると、全ての人が音声認識技術を常に使うようになるだろう。多くの人は95%と99%の差を過小評価しているが、精度99%という数字は「ゲームチェンジャー」だ。
誰も応答があるまで10秒待ちたいとは思わない。音声認識機能を持つ製品において「正確さ(精度)」と「認識速度」という2つがキーとなるだろう。”
—————————
ゲームチェンジャーとは、物事の流れや優劣を根底から覆すような、新しい可能性や思想を持つ個人、製品、企業などのことだ。
音声の認識精度が99%に達したときに、潮目が変わるという。これは、「音声は人間とコンピューターのインタラクションの新たなパラダイムになるか?」という問いの答えになりそうだ。今の技術革新のペースを考えれば、認識精度が99%に達する日もそう遠くはないのだろう。
ただ、その技術革新を牽引しているのはやはり人工知能といえるが、想定外の質問には答えられないなど、その点ではまだ課題が多いのも事実。音声へのパラダイムシフトは既に起き始めているといえるが、まだユーザーが寄り添い、我慢しているのが現状だ。
現在の90%からこの99%に挑むこれからの数年は、私たちの生活においても大きな変化があることだろう。音声認識精度が99%に達して初めて自然なインタラクションが実現するといわれるが、それが達成されるまでのこの数年を実際に体感できることが、ある意味貴重なのかもしれない。
【参考】シリコンバレー101 (663)誰もが音声インタフェースを使い始めるパラダイムシフト(2016.6.10)
【参考】2016年版メアリー・ミーカーのネットトレンド報告でへー!と思った25の事実(2016.6.10)
【参考】人工知能が加速させるボイス革命(2016.6.6)