「ドラゴンスピーチ11」で録音データの文字化を試す

1. 「多くの点でグレードアップしている「ドラゴンスピーチ11」。その中でも特に録音データの文字化に焦点を当てて紹介する」

「多くの点でグレードアップしている「ドラゴンスピーチ11」。
その中でも特に録音データの文字化に焦点を当てて紹介する」

ドラゴンスピーチの新バージョンがついに発売された。ドラゴンスピーチは米ニュアンス・コミュニケーションズが開発した音声認識ソフトで、国内では2005年にリリースされた「ドラゴンスピーチ2005」以来、約７年ぶりのバージョンアップとなる。

最新版の主な特長は、次のようなもの。最近のニーズに対応したバージョンアップとなっている。

●旧バージョンの2倍となる約100万語の音声認識辞書の搭載
●事前学習が不要で、インストール後すぐに使える（ヘッドセットマイク利用時のみ）
●日本語だけでなく英語の音声認識も可能
●音声でパソコンの操作やインターネットの検索・投稿などの操作が可能
●Bluetoothマイクや、iPhoneやAndroid携帯をワイヤレスマイクとして使用可能
●指定のフォルダに録音データを保存するだけで自動文字化が可能
●独自の音声コマンドの作成が可能

アップグレード版以外はUSB接続タイプのノイズキャンセリング機能付ヘッドセットマイクが付属しているので、まずは付属のマイクで早速認識精度をチェックしてみた。もちろん事前学習をした方が認識精度はアップしたが、確かにトレーニングをスキップしても認識率が高い。

また、音声でパソコンの操作やインターネット検索もできる。前回Windowsの音声認識について紹介したが、イメージはそれと似たような感じ。だが、「ドラゴンスピーチ11」はFacebook、Googleなどの主要なウェブサービスと直接連携している。音声で直接検索や投稿ができるのは、なかなか便利だ。

その他にも多くの点でグレードアップしているが、ここからは特に録音データの文字化についてレポートしたいと思う。

■録音データの文字化を試す

「ドラゴンスピーチ11」では、WAVファイルだけでなくDSS、DS2、MP3、WMAの録音データからも文字化が可能（MP3は元データがWAVの必要あり）となり、またエージェントの搭載により録音データの自動文字化も行うことができるようになった。

ただ、録音データからの文字化を行う場合は、声の登録作業を行ったプロファイル（個別の学習データ）を作成しておく必要があり、雑音などの少ないクリアな音質でないと十分な精度を得られない可能性がある、ということがホームページ上でも記載されている。

プロファイルとは声質、文章スタイルの特徴、使用する音声デバイスの情報などを記録した一連のファイルで、ドラゴンスピーチでは複数のプロファイルを作成できる。トレーニングの情報等も個々のプロファイルに保存されるが、ドラゴンスピーチはそれらの情報を総合して音声の認識に役立てているのだ。よって、利用場面に応じて最適なプロファイルを作成し切り分けて使用すると、より認識精度を向上させることができる。

実際に試してみても、録音データの文字化は専用のプロファイルを作成しなくても可能ではあるが、その場合は誤変換が多く、きちんと認識されないという印象を受けた。

だが、録音データ専用のプロファイルを作成し、そのデバイスに録音されたユーザの音声がどのように聞こえるかをあらかじめドラゴンスピーチに学習させると、その誤変換もずいぶん減る。録音音声をきちんと認識させるためには、やはり専用のプロファイルを作成した方がよく、それを使用することで認識精度の向上につなげることができるようだ。

なお、そのプロファイルの作成作業としては、使用する言語や年齢グループ、使用する音声デバイスの選択のほか、あらかじめ用意されたテキストを少なくとも4分以上読み上げて録音し、その録音音声をドラゴンスピーチに聞かせ学習させる、という流れになる。

■複数話者が含まれる録音データの文字化はどうか

では、インタビューや会議のように複数話者が含まれる録音データの文字化についてはどうだろうか。先ほど述べたように、専用のプロファイルを作成できれば一番いい。だが、会議などの複数話者の場合は、それも難しいだろう。

これについては「ドラゴンスピーチ11」のFAQにも記載されているのだが、録音した会議内容、講演会や講義の録音データ、音楽や映画の録音データを文字化することができるかというと、「不可能」という答えになっている。複数話者、雑音やマイクの位置などの音質上の問題で、実用レベルの認識精度が得られないということからだ。

【参考】ドラゴンスピーチ11のFAQ

実際、あるインタビュー音声の文字化を試してみたのだが、この音声の文字化はまったく使い物にならなかった。微妙に認識されている部分もあるのはあるのだが……。

よって、このような条件を満たさない録音データを文字化したい場合の対応としては、例えば同梱のヘッドセットマイクに向かって録音音声を聞きながら復唱することで効率的に文字化できる、とのことだ。

■録音データの文字化の現状とは

以上から、録音データを文字化する場合は、専用のプロファイルを作成した方が認識精度の向上につながるし、雑音などの少ないクリアな音質であれば十分な精度が得られやすいということ。また、その条件を満たせない場合は、ヘッドセットマイクなどで復唱した方が効率的に文字化できる、ということになる。

確かに、発音と速度に気を付けて話したものを録音し専用のプロファイルを使って文字化したものは、後から修正等はもちろん必要だが、比較的きちんと認識される。また、ヘッドセットマイクで復唱する方法は、認識率も一番よく、また作業しながら修正もできるので、効率的だと感じる。

ただ、テープ起こしをしていてもよく思うのだが、知らない言葉は聞こえないもの。復唱するとしても、やはり自分が分からない言葉は起こせないのだ。なので、完璧ではなくても音声認識によってその手掛かりがつかめるようになればいいなとも思っていたのだが、上で挙げたインタビュー音声の結果からすると、それも現時点では難しそうだ。

だが、今回いろいろと検証していて感じたのは、「ドラゴンスピーチ11」はとても可能性を秘めたソフトだということ。使えば使うほど認識率は確かにアップしていると感じられるし、今はできないことが後にはできるようになるかもしれない。上で挙げたインタビュー音声の結果も、現在はこうだが、それでも使っているうちに一部の単語は、わずかだが認識されるようにはなってきた。使い込んでいくと、もっと認識されていく可能性も……あるかもれない。

現在はまだまだ検証途中だが、次回は現時点で感じた音声の認識率を高めるポイント等をまとめて紹介したいと思っている。認識精度に関わる設定もいくつかあるし、録音についても例えばインタビューなどの場合は相手にピンマイクを付けて意識して話すようにしてもらえば、認識精度も改善できそうだ。

【参考】音声認識ソフトドラゴンスピーチ11