音声認識で楽にテープ起こしをする方法とは(3)

音声認識で楽にテープ起こしをする方法とは(3)

「音声認識ソフト等を使って楽にテープ起こしができないか、その方法を模索する」

1回目は音声認識ソフトの録音音声の書き起こし機能について、2回目はYouTubeの自動字幕付与機能について取り上げたが、結果としてテープ起こしで依頼されるような音声をそのままこれらの機能で書き起こせるかというと、現状では難しいと感じた。

どちらの機能においても、基本的に音質の良し悪しと、話者の声や状況(話し方の癖や複数話者での会話など)に認識精度がかなり左右されてしまうからだ。結局、音声としては、音質がよく、基本的に一人が適度な速さではっきりとしゃべっているようなものが一番認識されやすい。

音声認識を利用してすでに録音された会議やインタビューなどの音声を書き起こしたいといった場合、今のところはやはり録音された音声の復唱という方法が一番確実なのかもしれない。今回は録音音声の復唱という方法について考えてみたい。

音声認識ソフトを使用した録音音声の復唱でテープ起こしは楽になるか

「ドラゴンスピーチ11」や「AmiVoice SP2」といった音声認識ソフトには録音音声の書き起こし機能があるが、これらの音声認識ソフトとしても会議やインタビューなどの音声の場合は、録音した音声を聞きながら復唱する形で利用することを推奨している。そして試した結果としても、やはり復唱がベターだろうという結論に至った。

確かに復唱であれば自分の声の学習成果も生かせるし、クリアな音質で認識させることも可能であるため、そのままでは認識が難しい音声においても実用レベルの認識精度を得ることができる。タイピングが苦手な場合やできない場合などには、かなり有効な方法だろう。

では、どのように復唱すれば効率的に音声を起こせるだろうか。

作業の仕方によっては逆に非効率だと感じる。録音された音声を聞きながら正確に復唱して文字化しようと思うと、結構大変なのだ。初めから完成を求めて何度も音声を聞き直したり文字の修正をその都度やったりしていると、結果的に時間も手間もかかってしまう。復唱する際は、初めから完成を求めないほうがいいように思う。

私の場合は、文字化の結果は後から修正するとして、まずは音声の聞き取りのみに集中して復唱する。その際は正確に復唱できなくてもいいし、文字化の結果も気にしない。まずは音声だけに集中して復唱し、その後確認で音声を聞き直すときにまとめて修正する。

このやり方は長い音声になればなるほど効果的で、そのほうが結果的に早く仕上がる。まずはいったん復唱で音声を書き起こしてから、修正は後で音声を聞き直すときにまとめてすると、作業としては比較的スムーズに進められると感じている。

ただ、これでテープ起こしが楽になるかというと、個人的には微妙なところである。文字化だけならいいかもしれないが、テープ起こしの原稿としては、音声の文字化だけではなく表記の統一などもする必要があるからだ。

それも『記者ハンドブック』に準拠した形というふうに例えば定められているが、音声認識ソフトを使用した場合は表記の統一が基本的にされない。よって、後から自分で表記を統一する手間を考えると、自分で音声を聞きながらタイピングしたほうが結局は早いと感じるところもある。

しかし、可能性もなくはない。「AmiVoice SP2」では無理だが、「ドラゴンスピーチ11」では「ボキャブラリエディタ」で音声認識辞書の中身を見ることができ、新規単語の登録だけでなく、辞書に登録されている単語の削除もできるのだ。私はこの「ボキャブラリエディタ」を使用して表記の統一を行っている(現在いろいろと検証・考察中)。

また、音声認識ソフトでは独自コマンドを作れることも多い。例えば改行と同時にスペースを入れて一字下げするなどという設定も作れるので、必要に応じて独自コマンドを設定することも楽に作業するポイントとなるだろう。

よって、音声認識ソフトを使用した録音音声の復唱でテープ起こしは楽になるかというと、人それぞれで感じ方は違うと思うが、タイピングが苦手な場合やタイピングができない場合は特に、楽に作業するためのツールに十分なり得るのではないかと思う。

ただ、文字化するということ以外の要素も考慮すると、設定次第で楽になる可能性はあるが、そのためには手間暇をかける必要があるということは否めない。それを考えると結局はタイピングのほうが楽な気もするが、認識時に表記の統一などもされるのであれば後の作業もかなり楽になる。可能性は十分あると思うので、まだ結論は出さず、もう少し検証を進めていきたいと思っている。

なお、表記の統一や独自コマンドについては、近々改めて取り上げたいと思っているので、興味があればまたのぞいてみてほしい。

最後に、今回いろいろと試して、今はまだ音声認識でテープ起こしを楽にできるとは言い難い結果ではあった。しかし、テープ起こしを請け負う者としては、だからといって、うかうかしていられない。例えば、今は数百万もする会議用の音声認識システムが数年後には数十万で導入できるようになっている可能性だってある。テープ起こしに限ったことではないが、技術は日々進化しているということを肝に銘じておきたい。

【参考】インタビュー込みのニュースの音声を、各ソフトの書き起こし機能で自動的に文字化した結果(上)と、音声を聞きながら復唱することで文字化した結果(下)。

※左は「ドラゴンスピーチ11」、右は「AmiVoice SP2」の場合。

【音声の内容】
A:灯油をまいたから電話してくださいって、消防車に。
B:それは誰が言ったんですか。
A:それは女の人だって。ビーって、火災報知器っていうのか。そうしたら、黒い煙が出てきた。
札幌市のアパートで起きた火災。駆け付けた消防隊員が真っ先に見つけたのは、腹から血を流す男性と手にけがをした女の姿でした。

img01
これはまだ認識されやすい音声を使用しているので上の結果も何となくは理解できるが、音声認識ソフトの録音音声の書き起こし機能を使ってそのままの音声を直接認識させた場合、かなり誤変換が多い。

一方、音声を聞きながら復唱することで書き起こした結果が下になるが、やはり復唱すると認識精度が高く、誤変換も少なくなる。なお、同じ音声で検証するため、これは復唱した声を録音し、その録音音声を書き起こし機能で自動文字化させた結果となる。

※復唱の際に句読点や改行などは一切しゃべっていない。復唱の際は聞き取った音声をそのまましゃべることに集中してしまいがちだが、少なくとも句点だけはしゃべるようにしたほうが後の修正は楽だろう。なお、「AmiVoice SP2」の書き起こし機能(書起しエディター)を使用して自動文字化した場合は、息継ぎや間があいたところで改行されるようになっている。