「音声ビッグデータの活用は期待ほど広がっていないようだが、一体なぜか。音声ビッグデータ活用の現状と今後を探る」
「ビッグデータ」という言葉とその活用が近年注目を集めている。当初はデータ増大や情報爆発といった印象が強く、情報の「見える化」等が求められてきたが、最近では莫大なデータ量をいかに活用するかということに焦点が当たってきている。
それは音声認識の分野でも同様であり、最近ではビッグデータの活用により音声認識精度や処理速度の高速化を求めるだけではなく、いかにその分析から得た知見をマーケティングなど企業経営や新しいビジネスの創造に生かせるかという動きになっていると感じる。今回は音声ビッグデータ活用について、その現状と今後を探ってみたい。
■「ビッグデータ」とは何か
「ビッグデータ」とは、大量のデータを指す。通常は数百テラバイトからペタバイト級の膨大なデータを指すことが多いが、最近では単なるデータ量の多さだけではなく、そのデータの中身が注目すべきポイントとなっている。
なぜなら、ビッグデータの特徴は大量であるとともに、音声や動画などのリアルタイム性の高い非構造化データがその多くを占めるのだが、その非構造化データを分析することで、今までの情報の「見える化」等だけではなく、傾向分析や将来予測といったことが可能となるからだ。
つまり、多様なシステムから生み出される音声などの多種大量のデータを分析し、そこから得た知見をビジネスの競争力強化や顧客満足度の向上に役立てようと、注目が集まっているのだ。
例えば、コールセンターで考えてみよう。コールセンターには使い方の問い合わせから返品や解約の申し込みなど、毎日多くの電話がかけられてくる。そして、その音声を何らかの形で録音しているケースは近年増えている。顧客の生の声であるコールセンター内に蓄積された音声データを分析して、顧客対応の改善に生かしたりするなど、その可能性に多くの企業が期待を寄せているのだ。
■音声ビッグデータ活用の現状と課題
しかし、現状では、音声ビッグデータの活用は期待ほど広がっていないようだ。例えばコールセンターの音声は、録音されてはいるものの、十分に活用されているとは言えない。それはなぜか、その現状や課題をまとめてみたいと思う。
まずは音声認識システム構築の際の課題だ。非構造データである音声データは、そのままでは分析できないため、音声認識技術を用いて音声データをテキストに変換する必要がある。音声を完全にテキスト化できればそのデータを検索や分析に利用できるが、その認識精度は言語モデルと音響モデルに依存してしまう。そのため両モデルの学習が必要となるのだが、現在の課題の一つとして、言語モデルの学習において新しいキーワードや言い回しへの対応が困難だという点がある。
参照:言語モデルと音響モデル 「NEC 音声認識技術のしくみ」
言語モデルの学習にはその元となるデータが必要となるが、新しい商品名やサービス名に対するデータは、すぐにはそろえられない。その学習には大量の音声データやテキストデータが必要となるし、言語モデルに含まれていない新語などについて、例えば任意の商品名やサービス名を音声データから抽出することが可能となる音声検索技術なども必要となる。
この課題については、事前学習を必要とせず会話からリアルタイムでキーワードのみを抽出する「ワードスポッティング」という音声技術や、音声ファイルにインデックスを付ける技術なども現在は着目されているようだが、まだ有力な選択肢の一つということのようだ。
また、音響モデルと言語モデルの学習速度の向上も鍵となる。一般的にその学習には大量のデータを処理しなければならないが、それには並列処理基盤が適しており、音声ビッグデータの利活用のためには、その基盤の導入等も考える必要があるといえる。
そして、もう一つの課題としては、社内の複数の部門に分散しているデータを集約・管理できるプラットフォームの構築だ。音声ビッグデータを有効に活用するためには、蓄積された非構造化データを利活用可能なように集約・管理する仕組みを整備しなければならない。
例えば自社内の異なる部門間でデータを活用したい場合、社内のデータを横断的に分析するためにデータの集約・管理を行えるプラットフォームを構築する必要がある。だが、まだ未整備のところも多いようで、この点も今後は重要な課題になるといえるようだ。
その他にも、分析能力を持った人材の確保や教育が必要であったり、ビッグデータの管理ポリシーを明確に定める必要があるといったような課題も挙げられる。「データを情報に変え使いこなしてこそ成長につながる」という言葉をどこかで聞いたが、ビッグデータを差別化要素として活用していく上で真の課題となるのは、特に人材の確保など、これらの要素かもしれない。
音声ビッグデータの活用は、現状ではまだ課題も多くあるようだが、それでも技術は着々と進化している。こうした大容量データは取り扱い自体が困難だったが、コンピュータやネットワークの性能の向上やそれに関わる技術の進化と低価格化により、効率的で効果的な処理・活用が可能になっている。課題の解決が進むにつれて、音声ビッグデータの利活用も進展していくのだと思う。
ただ、膨大なユーザ数を抱えるサービスを構築し、多様な音声ビッグデータを扱うAppleやGoogleでは、そこから日々得られるフィードバックを元に音響モデルや言語モデルの精度を上げていくことができる。音声認識システム上の課題についても、大量の音声データを集めることで認識精度が不十分でも活用できるケースも出てくるだろう。
その圧倒的なデータ量と知見で音声認識技術の質を作っているとも言え、音声認識の今後を考えると、音声ビッグデータをうまく扱える企業が今後の音声認識技術開発の主導権を握っていくのかもしれない。