「複数のマイクを利用する「マルチマイク」の活躍領域が広がり、今後は自動車やスマートフォンなどにも2個以上のマイク搭載が当たり前になる模様。マルチマイク搭載の普及で音声認識の便利さと精度向上をいろいろなところで実感する日も近そうだ」
前回、ソフトバンクモバイルから発売予定である人型ロボット「Pepper(ペッパー)」について紹介した。Pepperの特徴は感情認識機能を世界で初めて搭載したことだが、その動き等の精度は、カメラや3Dセンサーのほか、搭載された4個のマイクによって実現されている。
複数のマイクを利用する「マルチマイク」については、音声認識領域においても昔から研究開発されているが、マイクが高価であることやハード面での処理能力などの点からもマルチマイクの搭載はなかなか難しかったといえる。だが、昨今、さまざまな領域で人の声や周囲の環境音などを集音するマイクの搭載が増えている。特に顕著なのが、自動車だ。
自動車業界は、かつてコスト高を理由にたった1個のマイクを搭載することすら高いハードルがあったようだが、マイクのコスト低減に加えて、複数のマイクを使いこなす信号処理技術の進歩、またカーナビ等への音声認識機能の搭載が当たり前となりつつある今、その精度を求めるユーザーの期待が、マルチマイク搭載の流れを後押ししている。
■マルチマイク搭載によりカーナビ等の音声認識性能が進化
現在、多くの車両にニュアンス・コミュニケーションズ社の音声機能が搭載されている。ニュアンスは音声認識技術で世界の先端を走る企業の一つであり、自動車向けの音声技術で圧倒的なシェアを握るが、そのニュアンスが現在研究開発に力を入れているのが2個のマイクを使って音声認識性能を高める技術のようだ。そのほか、NECでは雑音下でも頑健に動作する音声UI技術が研究開発されており、カーナビ等でもその応用が期待されている。
雑音が大きい場所でシステムを利用する場合、ユーザーの音声とともに雑音をマイクで拾ってしまう。音声認識で大敵となるのが指示の音声と関係のない雑音である。そこで雑音によるシステムの誤動作を防ぐために、ユーザーが発話している時間を検出する技術(音声検出)、混入した雑音を除去する技術(雑音除去)が用いられる。
2マイクでの音声検出では、2個のマイクを使ってユーザーの音声と雑音を空間的に区別して、音声を検出する。これはユーザー以外の人の音声(例えば運転者以外の助手席の声)が雑音に含まれる場合に特に有効だ。
ニュアンスでは、例えば位相差を利用する音声検出方式を研究開発している。2個のマイクを使い、運転者(発話者)に対して指向性を持たせて選択的に声を集音する。そして、集音した信号には特殊なフィルターによる雑音除去処理を施す。これにより、発話した運転者の明瞭な声を聞いて音声認識ができるようになり、音声認識性能を高めることができるという。
また、NECではマイクの配置を工夫することで人の声と雑音を区別する技術を開発している。雑音発生源の場所に合わせて2個のマイクを最適配置することにより、2個のマイクに到来する音の振幅差を利用してユーザーの音声と雑音を区別するという、振幅差を利用する音声検出方式である。この技術を使って集音した音声から2段階の処理で雑音を除去した上で、カーナビが認識しやすい音声に調整することにより、雑音が大きい環境でも音声認識ができるという。
【参考】雑音下でも頑健に動作する音声UI技術とその応用- Nec(Adobe PDF)
現状として、より精度を高めるために3個以上のマイクを装備する例もあるが、マルチマイク搭載によって音声認識の性能は確実にアップしているといえるだろう。
■今後はマルチマイク搭載が当たり前に
さて、ここまでは自動車業界について触れたが、「マルチマイク」と呼ばれる複数のマイクの応用範囲は自動車だけではない。
例えば身近なところでは、iPhone 5には3個のマイクが搭載されていることをご存じだろうか。最近のスマートフォンや携帯電話ではマイクが2個以上付いているものが多いようだ。
その複数のマイクの役割は何かというと、iPhone 5では受話器内部、背面、底面の3カ所にマイクが内蔵されているが、1個は通話用で、残りの2個はノイズキャンセリング用に配置されているとのこと。ノイズキャンセリングとは、簡単にいうと雑音を大幅に減らす技術だ。
先ほど2マイクでの音声検出について少し触れたが、広い空間の中では伝えたい音声のほかに多くの音が発生しているため、マイクはいろいろな音を雑音として拾ってしまう。そこで必要な音声だけを伝えるために、雑音を減らすなど、いろいろな技術を使って音響信号を処理する必要がある。2個のマイクを使うことで、ノイズキャンセリングなど、より効率的に雑音を減らすことができるようになるのだ。
1個のマイクを使って雑音を抑制する技術もあるが、やはり2個のマイクを使ったノイズキャンセリングに比べると、必要な音声と必要でない雑音を区別するのが難しくなる。実際にはそれらの技術を組み合わせることでよりクリアな音声を作り出すことが多いようだが、マルチマイクの搭載により、より効果的に雑音を減らすことができるようになっている。
【参考】iPhone 5に搭載されている「3つのマイク」の役割とは?
■マルチマイク搭載で音声認識性能はよりアップ。今後の展開に期待
マルチマイクの搭載は、例えば携帯電話では人がよりクリアな音声で聞き取ることができるようになるほか、人だけでなく機械が認識しやすいようにマイクからの信号をより効率的に整形処理することが可能となり、音声認識などの性能アップを実現する。
ここで触れた以外にも、さらに多くのマイクを使うことで、新しい用途への展開も期待できる。先日NTTが「ズームアップマイク」を公開したが、これはカメラでズームして撮影するように、約20mという遠く離れた場所で話す人々の声から、指定した人の声のみをクリアに収音することができるというもの。これにより、狙った音だけをクリアに収音すること、また約100本のマイクロホンからすべての音声を録音しておくことで後から任意の場所の音をズームアップして聞くといったことも可能となる。
【参考】NTTが20m先の複数の声を収音「ズームアップマイク」開発、音源個別選択。超会議にNTT超未来研究所
今後の利用シーンとして、例えば望遠カメラと組み合わせれば、スポーツ選手に映像も音声もズームアップでき、より臨場感のあるスポーツ観戦や放送サービスが可能になる。その際、例えば字幕作成で音声認識技術が使われるときも、より効率的に正確に行えるようになるだろう。また、大きな会場の客席からの質疑応答も手元のマイクがなくてもクリアに聞くことが可能となる、大人数のテレビ会議でも一人一人の発言をクリアに聞くことができるようになるといった、さまざまな用途への応用が期待されている。
音声認識においては、音声がクリアになるだけではうまく起こせない課題もまだ多くあるが、マルチマイク搭載によりその性能が進化することは間違いない。まだ性能アップを実感できるシーンは限られるかもしれないが、今後マルチマイクが普及していけば、音声認識の便利さと精度向上をもっといろいろなところで実感することができるようになるように思う。
なお、音声情報だけでなく画像情報なども併せて用いることで音声認識の頑健性を向上させるマルチモーダルといった音声認識技術も注目されているが、その技術なども合わさることで、音声認識のさらなる進化が期待される。今後どのように音声認識が発展し実用化されていくのか、その将来が楽しみだ。
【参考】日経エレクトロニクス2014年5月26日号・特集「クルマから携帯機器までマルチマイクが当たり前に」