音声認識レベルから現状を探る?文章認識?

1. 「文章認識の現状と、音声認識ソフトを使用する上でのポイントを紹介する」

「文章認識の現状と、音声認識ソフトを使用する上でのポイントを紹介する」

人が発した音声をテキストデータに変換できる音声認識技術は、その技術の基礎となる単語認識レベルからはじまり、文章で認識することもできるように進展してきた。

「文章認識」は、単語が連続した「文章」を認識する技術であり、文章であるため正確な認識には単語どうしのつながりや文法を考慮する必要がある。高度な技術であるが、その統計データなどを充実させ言語モデルなどを用いることで、単語を連続した文章として認識することが可能となる。

この文章認識の技術を利用できる音声認識ソフトとして、今回は「AmiVoice® SP」を例に挙げて、文章認識について探ってみたい。現在「AmiVoice® SP」は店頭デモがされており、実際に行って体験してみたので、それを踏まえて音声認識ソフトのポイントなども紹介してみたいと思う。

「AmiVoice® SP」のサイトでは動画もアップされているが、音声入力したい文章を話すと、リアルタイムにテキスト変換される。話し方にもよるのだが、一般的な文章の精度は非常に高く、さくさくとテキスト変換されていく。単語レベルの場合はやはり同音異義語の変換が難しいが、文章認識では話した内容や文法から単語が推測できるため、その変換精度も高いようだ。

例えば、「あきはばらのこうえん…」と話すと「秋葉原の公園…」と解釈され、「あきはばらでのこうえん…」と話すと「秋葉原での講演…」と解釈された。文法や内容から最適な単語が推測され、テキスト変換されていることが分かる。

ただ、文法を間違えてしゃべるとうまく変換されないこともあるし、個人の話し方の癖などでうまく認識できないときもある。個人の発音の癖などは、例えば音響モデルを作ることで認識されやすくなったり、学習機能が備わっていれば、どんどん使うことで認識率がアップしたりもする。

また、前回の単語認識のところでも触れたが、文章認識もやはり固有名詞や専門用語などは認識が難しいようだ。音声認識ソフトの多くはユーザで辞書を作ることができるので、専門用語などを認識させたい場合は、やはり辞書の作り込みは必須だ。その際いちいち単語を登録していては面倒くさいので、音声認識ソフトを選定する場合はその登録方法などもポイントとなるだろう。

なお、「AmiVoice® SP」では、単語をAmiVoiceバーから直接登録することもできるし、ユーザが作成したCSVファイルを読み込むことも可能ということだった。CSVファイルを作成すると、何百という単語を一度に登録できるし、後々の辞書の編集やバックアップも容易。また、他でそのデータを利用することもできるので、便利だ。

※CSVファイルの例。単語とよみを入力すればよい。エクセルで編集できる。

また、誤変換などはどうしても起こり得るが、簡単に修正できればストレスも半減する。例えば「AmiVoice® SP」では、直接キーボードから修正する以外に「前の３文字を削除」と言うことで削除できたり、カーソルを修正箇所に持っていき言い直したりすることも可能だ。そして、話した言葉は録音され聞き直すことができ、修正に役立つ。他のソフトを使う場合も、どのような修正方法に対応しているのかチェックしておきたいところだ。

他にも挙げるとポイントはいろいろとあると思うが、ここでは最後にマイクについて触れておきたい。うまく音声を認識させるにはマイクの質も重要になるが、ノイズが入りにくく音が拾いやすいマイクがよいとのことで、音声認識の利用でおすすめなのはUSB接続でヘッドセットのもの、ということだった。

理由としては、音声をアナログからデジタルに変換するときにノイズが入りやすくなるので、直接デジタル変換されるUSB接続のものがよいということ。また、指向性マイクがよく、ヘッドセットはマイクが口から離れることなく一定の距離を保つことができ、音声だけを取り込みノイズが入りにくいのでおすすめだということだ。

ちなみに、「AmiVoice® SP」はUSBマイク付でも売られているが、多くのマイクを検証し、現在アメリカのプラントロニクス社のマイクを採用しているとのこと。マイクにこだわってみるのも認識率をアップさせるコツだといえるだろう。