「音声認識の第2次ブームといわれる今に至るまでには何が起こっていたのか。開発を進める主な企業の歴史から音声認識技術の変遷を追う」
引き続き、音声認識技術の開発を進めている主な企業に焦点を当て、その歴史から音声認識技術の変遷を追ってみたい。今回はアドバンスト・メディアについて紹介する。
≫ニュアンス・コミュニケーションズはこちら
≫アップルはこちら
≫グーグルはこちら
≫マイクロソフトはこちら
■アドバンスト・メディア
日本で初めての音声認識専業企業として、音声認識に関するさまざまな製品・サービスを生み出しているアドバンスト・メディア。日本発ベンチャー企業の同社は、日本において音声認識の草分け的存在といえる。
設立は1997年。「機械との自然なコミュニケーション」をミッションに掲げ、独自の音声認識技術「AmiVoice(アミボイス)」を開発した。AmiVoiceの特徴は、使用する人の声や話し方の特徴を事前に学習させる必要がない「不特定話者」に対応していること、そして口語体を前提に開発されていることである。
これは画期的なことであった。当時は音声認識といえば単語認識と、特定話者対応により事前学習が必要な文章認識タイプの音声認識だったからだ。
しかし、話し手を特定すれば認識精度は高まるが、事前準備が必要など、ユーザにとって利便性は低くなる。また、ユーザが普通に話す口語調の文章の場合、認識率は一気に下がってしまい、実用的ではなかった。その結果、ユーザには「音声認識は使えない」という烙印を押され、市場は立ち上がらずメーカーは赤字続きという歴史があった。
そこでAmiVoiceでは、これらの課題を解決すべく、従来の音声認識技術の概念を根底から変えた。それまでの音声認識は特定話者対応に限られており、そのため事前に声の登録や学習が必要であったが、AmiVoiceでは不特定話者対応にすることで、誰でもすぐに音声認識が使えるようにしたのである。また、口語体を前提に開発することで、ユーザが普通に話す口語調の文章でも認識できるようにしたのである。
これは、アドバンスト・メディアが機械主体の「ハードコミュニケーション」の時代から人間主体の「ソフトコミュニケーション」の時代への変革を志向した結果でもあった。従来の音声認識がビジネスにならなかったのは、高い認識精度を実現するために事前学習をしたり認識されやすい話し方をしたりなど機械主体のものであったからと捉え、逆に機械が人に合わせる人間主体のサービスを作ればビジネスになると考えたのである。
よって、AmiVoiceは人間主体の音声認識を目指して開発された。そのため、事前の声の登録や学習が必要なく、無理にコンピュータに合わせた不自然な話し方をする必要もない。人間が機械のルールに合わせるのではなく、人間はあるがままで機械が人に合わせるという人間主体で使用できるようになっているのだ。これは、まさに次世代の音声認識技術といえるだろう。
しかし、ここで疑問が一つ。不特定話者対応で誰もがすぐに使用できるのはうれしいが、それで本当に高認識率を達成できるのだろうか。これは個人的な感想ではあるが、実際、個人のパソコン向けの音声認識ソフトである「AmiVoice SP(最新はSP2)」では、誰もがすぐにどんな話し方でも高認識率を達成できるとは思えなかった。どんなにコンセプトが優れていても、その精度が悪ければ意味がないのだ。
そこで特筆すべきは、アドバンスト・メディアが取った営業的戦略である。
というのは、アドバンスト・メディアは意図的に特定分野を絞って使うという営業戦略を取ったのだ。まずは「音声認識技術が特に必要とされるシーン(分野)」を見定め、商品を投入する市場を絞り込んだのである。
AmiVoiceの適用領域を特定化すると「どういう人がどういうシーン(分野)で利用するか」に応じて辞書や操作方法をカスタマイズできるため、高認識率を達成できる。顧客の利用分野ごとにカスタマイズし、その精度を大幅に向上させることによって、まずは実績を作ろうと考えたのである。
実際、昔から音声認識の分野は「ニーズはあるが儲からないビジネス」といわれるほど、世界のさまざまな企業が取り組むも、社会に根付く製品は生まれず収益を上げられた企業も存在しなかった。それは、一般市場を狙うにはまだ技術的にも環境的にも熟していない面も多かったのだが、従来の音声認識のマーケティングは、いきなり一般消費者市場を狙って失敗してきたともいえる。
だが、アドバンスト・メディアはいきなり一般市場を狙わず、意図的に特定分野を絞った。絞ることでその業界・業種に適した製品・サービスの開発もしやすくなり、高認識率の達成も容易になる。
この戦略によってアドバンスト・メディアは日本で確実に顧客を獲得していく。飛躍の契機となったのは、議事録や医療現場の電子カルテの音声入力システム。大量の文字データ化作業が必須である議事録と医療領域をターゲットとしたその狙いは当たり、これまでに前者は100近い地方自治体や行政法人などへ、後者は4,000を超える医療機関への導入を実現している。また、教育分野やコールセンター業界などにも音声認識市場の裾野は広がっている。
この戦略で音声認識の新たな可能性を切り拓いたアドバンスト・メディアは、2004年3月期には音声認識専業企業として世界で初めて黒字化を実現。そして、2005年6月には東証マザーズへの上場を果たすのだ。
さて、特定の領域で実績を作ってきたアドバンスト・メディアであるが、次の展開は領域を特化しない一般分野への進出である。中でも期待している分野はモバイルで、キーボードとマウスのない世界であるモバイルは音声認識の展開を優位にする点でも着目しているようだ。そして、自らコンシューマー向け音声認識サービスの開発も手掛け、新たなステージに立つ。
モバイル(クラウドサービス)の分野では、2008年にNTTドコモの「音声入力メール」にAmiVoiceが搭載、2011年にはアドバンスト・メディアの技術を基にヤフーがiPhoneアプリ「音声検索」を開発し、話題を呼んだ。2012年にはKDDIの「おはなしアシスタント」に同社の音声認識技術が採用され、株価の急騰を引き起こした。
そして、最近ではテレビCMでも話題のホームオートメーション『i TamaHome』への技術供与や、自ら開発に注力している「AOI Browser(iPhone、iPad向けの無料の雑談機能付きブラウザアプリ)」など、アドバンスト・メディアが目指す「超音声認識」の世界も着々と実現に向けて進みつつある。
【参考】AOI Browser
【参考】株式会社アドバンスト・メディア 音声認識の歴史と今後(第一世代?第五世代)
超音声認識というのは、同社の音声認識ロードマップにおいて「第五世代(2011年?)」に位置付けているもので、擬人化されたコミュニケーションインターフェースが可能になるというもの。目指すは、人間並みの音声認識を可能にする擬人化の実現だ。時代は本格的な「ソフトコミュニケーション」に突入し、今後は機械が人間並みのコミュニケーション能力を持つという。先に触れた「AOI Browser」は現在無料で配布しているが、まだまだ開発途中であり、今後どんどん進化していくことだろう。どう育っていくのか楽しみなところである。
今はスマートフォンを筆頭に声でコントロールできるハードウエアが増えてきており、どんな環境でも誰もが操作できるユーザインターフェースが強く求められ、音声認識への関心・認知も急速に高まりつつある。音声認識にとっては本格的な普及期に向けての絶好のビジネスチャンスがやっと到来したようだ。
ただ、機械にしゃべる文化がない日本において音声認識を根付かせるには、アドバンスト・メディアいわくJUIを満たす製品・サービスでなければならないということ。JUIとは同社が掲げている理念で「Joyful(面白い)」「Useful(役に立つ、便利)」「Indispensable(なくてはならない)」の頭文字を取ったものであるが、中でも特に「なくてはならない」ものにならなければ音声認識のマーケットは安泰ではないという。
音声認識の普及を目指す同社の今後の成長戦略としては、音声認識の精度向上および周辺技術の開発、そしてM&Aも狙っているよう。また、アジア市場を開拓するため多言語化にも注力するようだ。
AmiVoiceの開発には膨大なコストを要することもあり、2005年の上場以来、業績面では経常赤字が続いてきたという面もあるが、独自の観点から市場を切り拓き、音声認識で何ができるかという商品価値の創造戦略で成長してきたアドバンスト・メディア。先見性、構想力、実行力を持って日本の音声認識市場をこれからも切り拓いていくことだろう。音声認識市場を活発化するためにも、今後の活躍を期待している。
【参考】
≫THE FIRST COMPANY 株式会社アドバンスト・メディア
≫社長インタビュー(株式会社アドバンスト・メディア 鈴木清幸 社長 音声認識業界初の黒字)
≫トップインタビュー(株式会社アドバンスト・メディア 鈴木清幸氏 音声認識で実現する真のソフト・コミュニケーション)
≫常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性
≫「音声認識」が拓く未来 スマホは「声」で動かせ! 2013年2月号 LIFE [インタビュー]
≫ファンドも食指!音声認識ベンチャーの実力 アドバンスト・メディアの鈴木清幸社長に聞く
≫(動画)社長名鑑‐株式会社アドバンスト・メディア 鈴木清幸
(続く)