音声認識で楽にテープ起こしをする方法とは(1)

音声認識で楽にテープ起こしをする方法とは(1)

「音声認識ソフト等を使って楽にテープ起こしができないか、その方法を模索する」

突然だが、テープ起こしをしたことがあるだろうか。テープ起こしとは、会議・講演・セミナー・インタビューなどで録音・録画された内容を聞き取り、原稿に書き起こすことだ。議事録を作成するためなど、そのような録音された音声を文字化したいという要望は多い。

しかし経験のある方は分かると思うが、それはとても骨が折れる作業である。そのため、その作業を請け負うテープ起こし専門の会社も数多く存在するが、テープ起こしを依頼する側も依頼される側も、例えば音声認識技術を利用することで楽にテープ起こしができないかと一度は考えたことがあるのではないだろうか。

ということで、現状ではその音声の性質からどうしても人の手で行われることが大半であるテープ起こしだが、音声認識技術も進化してきた今、身近な音声認識ソフト等で楽にテープ起こしができないだろうか? その方法を模索してみたい。

録音音声の書き起こし機能で楽にテープ起こしはできるか

代表的な音声認識ソフトにドラゴンスピーチとAmiVoiceがある。これらのソフトには録音音声の書き起こし機能があるので、まずはこの機能から考えてみたい。なお、これらは以前から認識精度も高いと評判だが、どちらのソフトも昨年バージョンアップし、認識率の向上など、さらなる進化を遂げている。

img01

最新版は「ドラゴンスピーチ11」「AmiVoice SP2」だが、「ドラゴンスピーチ11」では「録音データを文字化する」という項目から、「AmiVoice SP2」では書起しエディターの「音声を認識」という項目から、録音音声の書き起こしが行える。

この機能から直接テープ起こしで依頼されるような音声が文字化できれば、かなりテープ起こしも楽になるのだが。重要なのは、その認識率だ。あまりに低いと自分でテープ起こしをした方が早いので、認識率としては少なくとも6?7割は欲しいところである。

……

いろいろと検証したが、認識率としては0?1割ほどだろうか。会議・講演・インタビューなど、いろいろな音声を試しているが、どちらのソフトを使用しても結果は散々。事前にできるだけノイズを除去してみたり、比較的音質のよいもので試してみたりもしたが、厳しいようだ。

というのも、やはりこれらの音声認識ソフトは仕様としても基本的に一人用で、複数話者には対応していない。この機能の使用イメージとしては、個人がメモ代わり等でICレコーダーに録音して、後でこの機能により書き起こしをするといったものとなる。また、認識精度は音質にかなり左右されるため、録音時のマイクの位置なども注意点として挙げられている。

だが、テープ起こしで依頼されるような音声は、音質が悪かったり、複数話者であったりするものも多い。状況としても複数の人がフリーディスカッション的な感じで話していて声が重なったりしていることも多いので、どうしても誤変換が多くなってしまう。

結論として、このような音声を直接この機能で書き起こすというのは、残念ながら、やはり厳しい。音声認識ソフトの仕様からも、それは仕方がないのだろう。直接この機能で楽にテープ起こしをするというのは、無理そうだ。

とはいえ、確かに仕様を満たした音声であれば、問題なく書き起こしはできる。であれば、そのままの音声を直接認識させるのではなく、認識できるような音声にしてやればいいのではないか。ということで、音声認識ソフトで楽にテープ起こしができないか、次の策を考えることとする。

次回に続く