録音音声の自動文字化をできるだけ高精度で行うために、知っておきたいポイント(2)

録音音声の自動文字化をできるだけ高精度で行うために、知っておきたいポイント(2)

前回に続き、このエントリーでは一般的な傾向や各サービスのFAQなどで答えられている内容、あくまで1ユーザーが個人的に今までいろいろと試したり調査したりした結果などを基に、録音音声の自動文字化をできるだけ高精度で行うために知っておきたいコツやポイントをまとめる。

【(1)目次】
1-1. 音声認識を使った文字起こしについて、現状。
1-2. 音声認識に適した「話し方」について、コツ/ポイントなど。
【(2)目次:本ページはこちら】
2-1. 認識率を上げる「録音」について、コツ/ポイントなど。
2-2. 会話を録音するマイクについて。
2-3. 雑音(ノイズ)や反響について。
2-4. 複数話者の音声の文字化について。
【(3)[その1]目次】
3-1. 録音品質は、録音時の音質レベルや音声形式によっても変わる。
3-2. 録音するときの音質レベルや音声形式は、どれを選べばいいか。
3-3. 音声認識に適した音質レベルや音声形式、現在の最適解とは。
3-4. 最良の結果を得るために、録音後のアプローチで避けたいこと・知っておきたいこと。 

2-1. 認識率を上げる「録音」について、コツ/ポイントなど。

音声認識を使えば録音の内容を自動で文字化できるが、認識させる音声の質・録音状態が悪いと、良い結果は得られない。逆に録音時のちょっとしたコツで、結果が格段に良くなることがある。文字変換結果に精度を求めるなら、できるだけ音声認識に適した音声となるよう録音の仕方にこだわりたい。

【一般的な傾向と現状】

  • 認識させる音声の質・録音状態の良し悪しが文字起こしの精度に大きく影響する。
  • 「クリア(明瞭)」かつ「適切な音量」で録音された音声—音声認識に適した音声—であれば、実用的なレベルでの自動文字化が期待できる。
  • 極端に小さな音量で録音された音声や音割れが発生している音声は、音声認識に必要な声の成分を正しく取得できないため、認識精度が低下する。
  • “過度”な雑音(ノイズ)や反響・残響も認識精度の低下につながる。
  • 講演会場や会議室などでテーブルの中央に“ICレコーダーを置いただけ”の録音(集音マイクでの録音)音声などは、認識率が著しく下がる。
  • 複数話者の声が被ってしまっているところは、基本的に音声認識が難しい。

今までの経験などから音声認識でうまく起こせない音声に共通している点を挙げると、発言者がマイクを使用していない、発言者の口元とマイクとの距離が遠い、反響・残響などで音声がはっきりしない、雑音がひどい、複数の人が同時にしゃべっている、などだ。

特にマイクの使用有無と適切な音量で録音されているかどうかは文字起こしの精度に関わってくる大きなポイントといえる。講演、インタビュー、会議など、現場によって対応できることは限られているかもしれないが、音声認識で良い結果を得たいなら、まずはマイクを使用して「クリアな音声」を録音すること、そしてマイクの位置を工夫し「適切な音量」で録音すること、を実践したい。

最終的にクリアで適切な音量の音声にするためのアプローチとしては、録音時(上手に録音するアプローチ)と録音後(音声データに対しデジタル加工を施すアプローチ)の大きく2つが考えられるが、収録してしまった音から自然に何かを取り除くのはやはり難しい。録音時にできるだけ雑音や反響などは録音されないように工夫するなどして、上手に録音したいところだ。

【録音時アプローチ:文字起こしで良い結果を得る、録音の際のコツ】

  • マイクを使用して「クリアな音声」を録音する。
  • マイクの位置を工夫し「適切な音量」で録音する。
  • できるだけ騒音のない静かな環境、反響音がない環境でしゃべる。
  • できるだけ雑音が録音されないように注意する。指向性のあるマイクのほうが集音型のマイクと比較して周囲の雑音も軽減されるため、おすすめ。
  • 複数話者の声が被ってしまっているところは音声認識が難しいので、同時発言はできるだけ避ける。全員がマイクを使って話すように気を付ける。
  • 必要に応じて録音機器の性能や構成等を見直す。

【上手な録音方法、参考】

2-2. 会話を録音するマイクについて。

会話を録音するマイクは、マイクの種類(特性)によって音声を収音できる範囲や角度に違いがあるので、用途に合ったものを選びたい。例えばICレコーダーや集音マイクなどでの音声は、周囲の雑音も一緒に拾ってしまう、またマイクと口元との距離が遠い場合が多いことなどから、音声認識には不向き。音声認識させる場合は、なるべく指向性のあるマイクを使い、かつ録音マイクと発言者の距離は接近した形で録音するようにしたい。

マイクの種類・特性等については、項目2-1で紹介した[参考4]のp5が参考になる。

2-3. 雑音(ノイズ)や反響について。

雑音については、音声が入力される際に同時に混入する雑音の種類と大きさによって音声認識精度への影響は異なる。しゃべっている声以外に例えば空調の風音やメモを取る音なども雑音として録音されるが、雑音にあまり大きな変動がなく、また音声の音量が十分大きい場合には、音声認識精度への影響をそれほど気にしなくてもいいと思う(※1)。

ただし、過度な背景雑音は認識率の低下を招くので、やはり録音時に注意し、可能な限り話者の近くにマイクを置き、クリアな音声を録音するように気を付けたい。

一方、反響・残響は、音声認識の妨げとなり、その精度に大きく影響すると感じる。また、録音後の音声データに対するアプローチも難しいので、録音の際に工夫(※2)して、できるだけ反響の少ないドライな空間で録音することを個人的にはおすすめしたい。

※1:現在はGoogleをはじめとする各音声認識サービスでノイズ処理機能が導入されていることも多いため、録音後のアプローチ(音声認識サービス送信前に例えば独自で音声に対してノイズ低減処理をするなど)をすると、逆に認識精度が低下してしまう場合もある。

※2:録音の際にはなるべく反響の少ない部屋を選びたいが、壁に吸音材を貼ったりカーテンに囲まれた空間を作ったりしてその中で録音するのも反響の軽減に効果がある。

【できるだけ雑音が録音されないようにしよう】

  • マイクを口元に設置する際は、マイク部に息がかからないように口のやや横に近づけるといい。ハンドマイクやピンマイクなどは、マイクにスポンジ状のキャップ(マイク風防)があるものがおすすめ。
  • 録音機を手に持つときは、触れた時に生じるタッチノイズに注意する。
  • 机の上や胸ポケット等での録音は、録音機が動かないようにハンカチなどで包み本体を固定する。
  • 指向性マイクを使用し、しゃべる人(音声)の方向に向けて録音する。
  • 環境音のほか、資料をめくる音、メモを取る音、くしゃみなどもノイズとして録音されることを意識する。
2-4. 複数話者の音声の文字化について。

現在、複数の人の声が混ざった音声から特定の声を抽出する技術や、複数方向からの音声を別々に認識する音源分離技術などがGoogle、NTT、日立製作所などで研究・開発されており、既にサービス化やさまざまなところで応用されようとしている。

音声認識を使った文字起こしは、今は単一話者を対象とした音声認識が一般的だが、今後は複数話者の音声にも対応できることが当たり前になっていくのかもしれない。

[参考]グーグル、カクテルパーティ効果を発揮するマシン–ビデオから特定話者の声だけ抽出(2018年04月12日, CNET Japan)

[参考]世界初、声の特徴に基づき“聞きたい人の声”を抽出する技術を実現〜深層学習の新技術により、騒がしい環境で特定の声のみを抽出可能に〜(2018年5月28日, NTT)

[参考]会議音声を自動でテキスト化 話者も識別 日立が新サービス(2018年10月16日, ITmedia)

次回予定:録音後のアプローチ、自動文字化に適したファイル形式などについて。