「AmiVoice SP2」が新発売! 使用感レポート(2)

「AmiVoice SP2」が新発売! 使用感レポート(2)

「新バージョンに生まれ変わった「AmiVoice SP2」。新機能である「テキスト学習ウィザード」について、その使用感をレポートする」

前回は「AmiVoice SP2」の特長と認識精度について触れた。今回は新機能の「テキスト学習ウィザード」(テキストからの一括学習機能)について、その使用感をレポートする。なお、書起こし原稿の編集ソフト「書起しエディター」については次回、テープ起こしと絡めて取り上げたいと思う。

■新機能「テキスト学習ウィザード」について

新しく「テキスト学習ウィザード」という、テキストからの一括学習機能が追加された。これは、ユーザが指定したテキストファイルや「AmiVoice SP2」 のエディター画面で編集したテキストから、辞書に登録されていない単語を検出し、登録を行えるというもの。登録したい専門の用語が多い場合など、既存のファイルから自動で単語を抽出してきてくれるというのは、手間も省けて便利そうだ。

操作としては簡単で、初めに対象とするユーザとマスター辞書を指定し、単語を検出したい対象のテキストファイル等を指定すればよい。実行すれば、指定したマスター辞書に登録されていないと判断された単語が検出される。

テキスト学習ウィザード単語検出結果(マスター辞書には「標準(大)」を指定)
テキスト学習ウィザード単語検出結果(マスター辞書には「標準(大)」を指定)

「AmiVoice SP2」が読みを判断できなかったものは空欄になっているので、登録したい単語には読みをひらがなで入力する。また、登録したくない単語はチェックを外すと登録されない。音声との関連付けはできないが、一気に単語を検出してくれるのは便利だ。

ただ、残念な点は、ここで検出された表記は修正できないことだ。例えば、元のテキストでは「MacBook Air」となっているが、「MacBook」と検出された。「MacBook Air」で単語登録したい場合でも、ここでは表記を修正できないので、その場合は後から個別に単語登録する必要がある。表記もここで修正できれば、より便利だったと思う。

なお、検出されないものは、指定したマスター辞書にすでに単語が登録済と判断されているか、検出できなかったものとなる。必要なら後で単語登録を別にすればいいのだろうが、ここで気になるのは、マスター辞書にすでに登録済の単語だった場合、重複して登録される可能性もあるだろうと思われることだ。結果としてAmiVoiceが重くなったり認識精度が悪くなったりする原因にもなりかねないので、注意が必要だと感じる。

登録した単語は「ユーザー辞書ツール」から見られるが、「AmiVoice SP2」で見たり編集したりすることができるのは自分で登録した単語のみで、マスター辞書の中身を実際に見ることはできない。ドラゴンスピーチのように辞書の中身を見たり編集したりできれば、自分仕様にカスタマイズでき、もっと使い勝手のよいものになると思う。マスター辞書の中身を見ることができないというのは、個人的にとても残念なところだ。

■「テキスト学習ウィザード」と辞書について

余談だが、前回、新追加の「登録単語認識」辞書(ユーザが登録した単語のみを認識するもの)について少し触れた。そして、この「テキスト学習ウィザード」が使えるなら、やみくもに単語を登録するよりこの辞書を作り込んだ方がいいかもしれないという期待を書いた。

AmiVoiceではマスター辞書の中身を見たり編集したりすることができないので、それならこの真っさらな辞書を作り込み、専用にカスタマイズできればいいなと思ったからだ。だが、その仕様と作業等を考えると、やはり辞書をこれで作り込むのは無謀だと感じた。

というのも、「テキスト学習ウィザード」では、初めに対象のマスター辞書を指定し、その指定したマスター辞書に登録されていないと判断された単語が検出される。その際この辞書も指定できるが、この辞書はユーザが登録した単語のみを認識するものなので、初めの登録単語はゼロなのだ。そのため、この「登録単語認識」辞書を指定した際の検出結果を次に載せるが、その検出単語数は膨大なものとなる。

テキスト学習ウィザード単語検出結果(マスター辞書には「登録単語認識」を指定)
テキスト学習ウィザード単語検出結果(マスター辞書には「登録単語認識」を指定)

これは、実は最初に載せた画像と同じテキストファイルから検出した結果なのだが、「登録単語認識」辞書を指定した場合、検出単語が1,000を超えている。また、「ました」「してい」「で、」「が」などという言葉も検出されているのだ。

個人的な解釈だが、単語数がゼロの辞書を指定したので、音声認識の辞書に必要だと判断されたものがすべて抽出されたということなのだろう。

例えば、ドラゴンスピーチでは辞書の中身を見ることができるので、辞書の一部分を次に載せる。これからも分かるように、「ってな」「ってる」などという語も登録されているのだ。そして、ドラゴンスピーチの認識率はとても高い。

「ドラゴンスピーチ11日本語版」のボキャブラリエディタ<br />
「ドラゴンスピーチ11日本語版」のボキャブラリエディタ

要するに、もちろん辞書だけが関係するわけではないが現在の音声認識ソフトの高い認識精度は、これらの語もすべて辞書の中に登録され実現されているものということだ。なので、それを簡単に作り込もうというのは、無謀だろうと感じた。

方法としては、例えばフリーの音声認識の開発サイトなどから元となる基本辞書の中身となるものを用意すること等ができれば、それをインポートして構築できそうには思うが……その提供はおそらくない気がする。今は音声認識もブームで認識されることが当たり前のようになっているが、その裏にはいろいろな試行錯誤等があり今に至ると考えると、胸が熱くなった。

ちょっと話がそれてしまったが、「テキスト学習ウィザード」は通常のマスター辞書に単語を登録する際などの補助的なツールとして使うと、非常に便利なものだと思う。一括で単語を登録するのはCSVファイルでも行えるので、状況に応じてうまく使い分けていきたいところだ。なお、「登録単語認識」辞書の使い方としては、「数字認識」辞書の言葉バージョンという感じなのだろうと思う。

【参考】音声認識ソフト AmiVoice SP2