「AmiVoice SP2」が新発売! 使用感レポート(1)

「AmiVoice SP2」が新発売! 使用感レポート(1)

「ユーザから数多く寄せられた機能を反映し新バージョンに生まれ変わった「AmiVoice SP2」。まずはその特長と認識精度についてレポートする」

2012年11月30日に「AmiVoice SP2」が発売された。これは国内医療機関の数多くの施設で実績のある株式会社アドバンスト・メディアAmiVoice Exシリーズの一般向け音声認識ソフトだが、ユーザから多く寄せられた機能を搭載し、今回「AmiVoice SP」から「AmiVoice SP2」という新しいバージョンに生まれ変わった。

AmiVoiceSP2

「AmiVoice SP2」では登録単語数も約5倍に増え、音声認識エンジンも強化された。主な特長は次のとおり。

【AmiVoice SP2 の特長】

●音声をリアルタイムに文字に変換
●ユーザ自身で単語登録ができるほか、使いやすくカスタマイズも可能
●ユーザの声の登録・学習が不要で、すぐに使い始められる
●使い込むほど認識精度が向上する学習機能を備える

【AmiVoice SP2 の新機能】

●従来から語彙数も約5倍に増え、音声認識エンジンがさらにレベルアップ
●音声認識辞書のレベルアップとともに「数字認識」「登録単語認識」が新たに追加
●従来の音声コマンドに加え、任意のキー入力やショートカットキー入力が可能に
●音声認識結果の編集ソフト「書起しエディター」の搭載
●テキストからの一括学習機能である「テキスト学習ウィザード」の搭載
●Windows 8 に対応。また、AmiVoiceバーデザインを使いやすく刷新

パッケージ版はUSBマイク付とマイク無が選べるほか、アカデミック版、アップグレード版、ダウンロード版もあり、初めて音声認識を使ってみたいという方でも導入しやすいラインナップとなっている。ダウンロード版はパッケージ版より安いだけでなく、もれなくヘッドセットマイクがもらえるキャンペーン(パッケージ版のマイクとは異なる)も継続中だ。

では、ここからは「AmiVoice SP2」の使用感をレポートしたいと思うが、まず今回は認識精度に焦点を当ててご紹介したい。そして次回は、新機能の「テキスト学習ウィザード」(テキストからの一括学習機能)と、「書起しエディター」(録音データからの文字起こし等に使える音声認識結果の編集ソフト)について、「AmiVoice SP2」の全体的な操作感と併せてご紹介したいと思っている。

■「AmiVoice SP2」の認識精度はどうなのか

音声認識ソフトを使うにあたって、一番気になるのはやはり認識精度だろう。前バージョンの環境を「AmiVoice SP2」に移行もできるので、そうすればまた違う結果かとは思うが、ここでは今回初めて「AmiVoice SP2」を利用する方・利用したい方向けにレポートしたいと思う。

まず意識しておきたいのは、「AmiVoice SP2」は本当に育てていくソフトだということ。先にご紹介したように「AmiVoice SP2」の特長としては、ユーザの声の登録・学習が不要ですぐに使い始められるという点、使い込むほど認識精度が向上する学習機能を備えているという点が挙げられる。ただ、逆に言うと、声の登録が不要ですぐに使うことはできるが、「AmiVoice SP2」が話し方などを学習してくれるまでは認識精度がよくないともいえる。

というのは、インストール後すぐに利用して真っ先に私が感じたのは、認識率が悪いな、ということだった。声の登録や事前学習ができないので、「AmiVoice SP2」が話し方の癖などを自動で学習してくれるまでは、どうしても誤変換が多く感じたのだ。

だが、それでも使っていくと認識率はアップしていった。「AmiVoice SP2」は使うほど認識精度が向上する学習機能を備えているので、自分の話し方の特徴などを学習してくれると、認識精度のよさを実感できる。

なので、初めは認識率が悪いと感じるかもしれないが、使い続けることで認識率は確実にアップしていくので、ぜひ使い続けてみてほしいと思う。音響学習も必要に応じて行えるので、実行するとよいだろう。

img01

なお、誤変換については、次の点も意識しておきたい。以前の記事でも例を紹介したが、AmiVoice は単語前後の文脈から変換の判断をしているため、通常の文章用の辞書では短い単語だけを正確に認識するのは不得意だということ。単語ごとに区切って発音するよりも、ある程度長い文章をしゃべることで認識されやすくなるのだ。

なので、「AmiVoice SP2」の用途としては、しゃべる内容を考えながら話して認識させるという使い方よりも、例えば本の内容やすでにある原稿を読むことで文字化させるといった方が向いているのかもしれない。その方が文章で認識されやすくなるので、初めは良さを実感できるように感じる。

ただ、これはあくまでも初期レベルでの感想だということを付け加えておきたい。学習のレベルを上げていくと、まさに自分のパートナーのように、どの場面でも高い認識精度で変換されるようになるのかもしれない……と期待している。

上に挙げた「音響学習の実行」で現在の自分のレベルを確認できるが、まずは最大目標レベルといえるだろう126まで育てれば、また違う感想になるのだろうと思う。こういうところは、RPGのようなレベル上げの楽しみも味わいながら育てていけるという感覚も、(私は)なきにしもあらず。「AmiVoice SP2」は、まさに育てていくソフトだろう。

■音声認識辞書について

余談だが、認識精度については辞書を使い分けるのも一つの方法だ。今回新しく「数字認識」辞書が追加されたが、例えば表計算ソフトのデータ入力で数字の入力のみを行いたい場合には、「数字認識」辞書に切り替えて使うといい。通常の文章用の辞書では例えば「じゅう」としゃべっても「10」と認識できないが、「数字認識」辞書を使えば数字でのみ認識される。

また、同じく新追加の「登録単語認識」辞書は、ユーザが登録した単語のみを認識するもの。認識できないからといって通常の文章用の辞書にやみくもに単語を登録しても、重くなるし、逆にAmiVoiceの認識率が低下するきっかけにもなりかねない。専門の単語が多い等であまりにも誤変換が多い場合は、いっそのこと「登録単語認識」辞書を使い、時間はかかるだろうが自分仕様に作り込む方がいいのかもしれない。

なお、新機能である「テキスト学習ウィザード」では、既存のテキストから単語を抽出し一括で登録させることが可能となっている。この機能が使えると、この「登録単語認識」辞書もうまく生きてくる気がしている。こちらについては次回にまた改めてレポートする予定だ(乞うご期待)。

【参考】音声入力ソフト AmiVoice SP2