音声認識技術は日進月歩で進化しているが、まだ課題は多い。音声認識を使うことで特に録音音声の文字化が自動かつ高精度でできればうれしい限りだが、残念ながら今はまだ条件を満たした音声でないと、実用的なレベルの精度で起こすのはやはりなかなか難しいという状況だ。
とはいえ、音声認識に適した録音音声であれば、自動文字化でも高精度を得られることが多い。では、具体的にはどういう音声なら自動文字化で高精度を得られるのか?
このエントリーでは、一般的な傾向や各サービスのFAQなどで答えられている内容、あくまで1ユーザーが個人的に今までいろいろと試したり調査したりした結果などを基に、録音音声の自動文字化をできるだけ高精度で行うために知っておきたいコツやポイントをまとめてみたい。
【(1)目次:本ページはこちら】
1-1. 音声認識を使った文字起こしについて、現状。
1-2. 音声認識に適した「話し方」について、コツ/ポイントなど。
【(2)目次】
2-1. 認識率を上げる「録音」について、コツ/ポイントなど。
2-2. 会話を録音するマイクについて。
2-3. 雑音(ノイズ)や反響について。
2-4. 複数話者の音声の文字化について。
【(3)[その1]目次】
3-1. 録音品質は、録音時の音質レベルや音声形式によっても変わる。
3-2. 録音するときの音質レベルや音声形式は、どれを選べばいいか。
3-3. 音声認識に適した音質レベルや音声形式、現在の最適解とは。
3-4. 最良の結果を得るために、録音後のアプローチで避けたいこと・知っておきたいこと。
今は文字起こし(音声の文字化)に生かせる、さまざまな音声認識ソフト/アプリ/サービスがある。それら多くのものに備わっている機能はマイクを使って直接しゃべることで音声を文字化する「音声入力」だが、音声ファイルを読み込みその音声データ(録音音声)の内容を音声認識によって自動で文字化する「録音音声の(自動)文字化」という機能が使えるソフトやサービスなどもある。
現在の音声認識は昔に比べると劇的に精度が向上し実用的になってきているが、音声認識ならではの課題もまだ多く、常に100%正確に入力できるわけではない。認識精度は、使用する音声認識エンジンの性能のほか、マイクの使用状況や話し方、その音質や録音状態などによって変わってくる。
【現状は】
- 現在の音声認識は、常に100%正確に入力できるわけではない。
- 使用する音声認識エンジンによって精度は変わる※。
- マイクの使用状況や話し方、その音質や録音状態などが音声認識精度に影響する。
※同じ録音音声を認識させても文字変換結果は使う音声認識によって異なる。ただ、個人的には、特にクラウドベースの代表的なものについては、その性能に優劣をつけるのは難しい。また、認識させる録音音声によって文字変換結果もさまざまなので、このエンジンの傾向はこうと一概には言えないのが正直なところだ。
特殊な話し方は必要なく普通に話せばOKだが、認識率を上げる話し方のコツはある。うまく音声認識されるように話し方を意識すれば、より高精度な文字変換結果が期待できる。
【一般的な傾向と現状】
- 話すスピードはそこまで気にする必要はないが、あまりにも早すぎたり遅すぎたりする話し方だと誤変換が増えることが多い。
- 単語単位での発話は同音異義語の区別が難しいので、誤変換されてしまうケースが多い。
- 基本は標準語をベースに言語辞書が作成されているため、強いなまりや方言はうまく認識できないことが多い。
- マイクから入力されるすべての音が日本語の文章として解析される。例えば途中での言い直しや「えーと」「あー」等の発言(ケバ)などもすべて文脈の中での単語と見なされる(ので、これらが誤変換の原因となることも多い)。
- 一般的でない専門用語や略語、個人の名前などは誤変換されやすい。
【うまく認識できないことが多いのは】
- 単語単位での発話(同音異義語の区別が難しくなる)
- 強いなまりや方言の音声
- 「えーと」「あー」等の発言(ケバ)が多い音声
- 極端に早口だったり遅すぎたりする話し方
- 少しつっかえてしゃべってしまったり、途中で言い直したりした部分 li>
- 一般的でない専門用語や略語、個人の名前の部分
など。
うまく認識できない傾向にあるケースや音声は上記のとおりだが、認識率を上げる話し方としては、まずは「明瞭な声ではっきりと発話する」ことがコツといえる。
ただ、アナウンサーのような滑舌のよい聞き取りやすい話し方がお手本とよくいわれるし、実際にアナウンサーのように滑舌よく話せば高精度な文字変換結果が得られやすいが、あまり気にしすぎると逆にうまく認識されない場合も結構あるので、「“うまく音声認識されやすい自分の話し方” に慣れること」が最大のコツかもしれない。
なお、文章単位で発話すると、日本語文脈の解析がより効果的に働く。実際、話すときは単語単位ではなく「1文もしくは句読点を目安に話す」と誤変換が減りやすいので、音声を認識させるときは単語単位ではなく文章単位で話すようにするといいだろう。
次回予定:認識率を上げる「録音」のコツ/ポイントなど。