気になる音声認識ソフト/サービスの音声認識精度等の現況、最新レポート(1)

気になる音声認識ソフト/サービスの音声認識精度等の現況、最新レポート(1)

「ドラゴンスピーチ11、AmiVoice SP2、VoXT(ボクスト)、Voice Rep Pro(ボイスレップ プロ)について、これらのソフト/サービスでは音声入力のほか録音音声の文字化も行えるが、発売から時間がたった今、その使い勝手や音声認識精度について、現況をレポートする」

■各音声認識ソフト/サービスの概要、発売当初との変更点

まずは「ドラゴンスピーチ11」、「AmiVoice SP2」、「VoXT」、「Voice Rep Pro」という音声認識ソフト/サービスについて、簡単に紹介しておく。

「ドラゴンスピーチ11」は音声認識で世界的に有名なニュアンス・コミュニケーションズの音声認識ソフト、「AmiVoice SP2」と「VoXT」は日本における音声認識のパイオニアであるアドバンスト・メディアの音声認識ソフト/サービスであり、「Voice Rep Pro」はあのグーグルの音声認識エンジンを採用した音声認識ソフトである。

「ドラゴンスピーチ11」と「AmiVoice SP2」は、その音声認識精度の高さからも人気で、有名なので知っている人も多いだろう。スタンドアロン型の音声認識ソフトで、使用の際はインターネットにつなぐ必要がなく、コンピュータ単独で作業することができる。音声認識エンジンは特定のユーザーの声や話し方を学習し、その人用に洗練されていくのが特徴。また、名前や専門用語などは辞書に登録し、自分用にカスタマイズすることができる。

世界シェアNo.1の音声認識・音声入力ソフト ドラゴンスピーチ11

音声認識ソフト AmiVoice SP2

一方、「VoXT」と「Voice Rep Pro」は、クラウド型の音声認識サービスとソフトだ。音声認識はインターネットを介して行う。不特定話者に対応し、音声認識エンジンは多くの人の声や話し方などを学習しながら進化していくのが特徴だ。ただ、クラウド型なので利用の際には音声などの情報をサービス事業者に渡すことは避けられない点に注意したい。

文字起こし・テープ起こしなら「VoXT(ボクスト)」

音声認識ソフト「Voice Rep」で音声の書き起こしを簡単に

「VoXT」については、サービス開始当初は1プランだったが、後に「VoXTセルフ」、「VoXTフル」という2プランとなり、さらに「VoXTセルフ」プランで音声入力にも対応した。この「VoXT(セルフ)音声入力」はクラウド型の音声認識サービスであるが、辞書のカスタマイズが可能なだけでなく、使えば使うほど自分の声の特徴を自動で学習してくれる。スタンドアロン型の「AmiVoice SP2」とそこは同じだが、現在これは1分30円の従量課金制で、音声認識はインターネットを介して行われる。

「Voice Rep Pro」は、2014年5月あたりからグーグルの脆弱性対策等によってGoogle Chrome以外からは認識できない仕様になったようで、それに対応すべくVer.1.03からChromeブラウザ経由で音声認識する仕様に変更された(現在はVer.1.041)。そのため現在は、音声認識を行う際は常にChromeブラウザも一緒に立ち上がり、Chromeブラウザで認識し文字変換されたテキストをエディタに転送するといった流れとなっている。

これらの音声認識ソフト/サービスでは、音声認識技術を使って「音声入力(マイクに直接しゃべって音声で文字入力する)」も、「録音音声の文字化」も、どちらも行うことが可能だ。ユーザーは使いたい環境や機能、予算等を考慮しソフト/サービスを選択すればいいが、その際に気になるのは、その使い勝手や認識精度ではないだろうか。ここではこれら音声認識ソフト/サービスの使い勝手や音声認識精度等について、過去の調査結果との比較も含めて現況をレポートする。


【参考】これら音声認識ソフト/サービスの使用感や以前の精度調査結果などについての過去記事

「ドラゴンスピーチ11」で録音データの文字化を試す(2012/10/13)

「AmiVoice SP2」が新発売! 使用感レポート(1)(2012/12/18)

音声認識で楽にテープ起こしをする方法とは(1)(2013/01/18)

テープ起こしに生かせる?音声認識製品・サービス、最新情報(2) ―Voice Rep Pro―(2014/02/06)

テープ起こしに生かせる?音声認識製品・サービス、最新情報(3) ―VoXT―(2014/05/01)


■音声入力(マイクに直接しゃべって音声で文字入力する)について

「ドラゴンスピーチ11」と「AmiVoice SP2」については、発売当初と比べてその使用感や機能などに特段変わった点はない。認識精度に関わる内容といえば、特に「AmiVoice SP2」についてはちょこちょことアップデートモジュールが出されており、マスター辞書が更新されている。最新用語の追加など、辞書の更新は認識率の向上に欠かせないので、頻繁にメンテナンスしてくれるのはユーザーにとってうれしい限りだ。

クラウド型である「VoXT(セルフ)音声入力」と「Voice Rep Pro」は、インターネットを介して音声認識を行うので、たまに接続が切れたりテキストの転送に時間がかかったりするときがあり、スタンドアロン型よりはやはり少々不安定さを感じた。なお、「VoXT(セルフ)音声入力」は1分30円の従量課金制だが、音声入力していて今は何分使っているなどの状況が分からない。個人的には現在の利用分数がその場で表示されるようになれば、使っている時間とお金を把握しながら使えるので、もっと使いやすくなると感じた。

それでは、これらの音声認識ソフト/サービスで音声入力を行った認識結果を紹介していこう。
※句読点は後から追加したところあり。また、赤の□は文字抜けを示す。

なお、これから紹介する認識結果は、多少音声認識を意識して話した際の結果だ。全く意識せずに話すと、これより認識率は下がる。逆にもっと意識して話すと、誤変換は減り、100パーセントの認識率に近づけられる。

音声入力結果1
【話した内容】
この日、東京都内で開かれた表彰式に受賞者が出席。日本エレキテル連合は、大ブレークしたコントにならって「今年だけじゃなく来年以降も使い続けてくれなくちゃ……」「ダメよ~ダメダメ」と、コントさながらのやりとりで会場を沸かせた。
【ドラゴンスピーチ11での認識結果】
この日、東京都内で開かれた表彰式に受賞者が出席。日本エレキテル連合は大ブレークしたコントに倣って、今年だけじゃなく来年以降も使い続けてくれなくちゃだめよーダメダメとコントさながらのやりとりで会場沸かせた。
【AmiVoice SP2での認識結果】
この日、東京都内で開かれた表彰式に受賞者が出席。日本エレキテル連合大ブレークしたことになって今年だけじゃなく来年以降も使い続けてくれなくちゃ。ダメよ~ダメダメとコントさながらのやりとりで会場を沸かせた。
【VoXT(セルフ)音声入力での認識結果】
この日、東京都内で開かれた表彰式に受賞者が出席。日本エレキテル連合は大ブレイクしたことになって今年だけじゃなく来年以降も使い続けてくれなくちゃ。だめよだめだめとコントさながらのやりとりで会場を沸かせた。
【Voice Rep Proでの認識結果】
この日、東京都内で開かれた表彰式に受章者が出席。日本エレキテル連合 大ブレークしたコントにならって 今年だけじゃなく来年以降も使い続けてくれなくちゃ だめよだめだめコントさながらのやりとりで会場はかせた

なかなか面白い結果となった。特に日本エレキテル連合の「ダメよ~ダメダメ」という部分は、「AmiVoice SP2」だけがカタカナ表記だけでなく長音部分も波形「~」で認識されていることに注目したい。先に述べたように「AmiVoice SP2」は辞書の更新も頻繁に行ってくれており、2015年2月のアップデートでは2014年の流行語などが追加されている。この結果はそれが反映されたものではないかと推測している。

また、「大ブレークしたコントにならって」という部分の、「AmiVoice SP2」と「VoXT(セルフ)音声入力」の認識結果も個人的には注目している。この文章は「ドラゴンスピーチ11」と「Voice Rep Pro」だとどちらもすぐに正確に認識してくれたのだが、「AmiVoice SP2」と「VoXT」では何度か試したうちのほとんどで「コントにならって」とは認識してくれなかった。認識結果としては「ことになって」のほか「本当にならって」、「フォントにならって」といった感じで、「コント」とは認識してくれない。

だが、その後の「コントさながら」の部分は、大抵が正確に「コント」と認識された。これはもちろん筆者の話し方にもよるとは思うが、今は昔に比べ文脈等から判断できる性能も進化しているので、この部分の「コント」という変換はその効果も絡んでいるのではないかと推測している。「コントさながら」のほうは、その前後の文脈から「コント」という語を導きやすい。あるいは、「大ブレークしたコントにならって」のほうが前後の文脈から「大ブレークしたことになって」と導かれたのかもしれない。

このように違うほうに導かれてしまうこともありはするが、この性能の進化により前から課題であった同音異義語の認識の問題も今はクリアされつつあるようだ。とはいえ、やはり短い文章や単語の場合は判断が難しいものも多いので、ある程度の長さの文章を認識させることも高精度を得るポイントとなる。そして、もちろん100パーセントに近い高精度で認識させるためには、ユーザーのほうで音声認識されやすい話し方を心掛けるといった配慮もある程度は必要だ。高精度を目指すなら、話すときには滑舌のよさやイントネーション、話すスピードや息継ぎに気を付けるといいだろう。

続いては、こちらの認識結果を紹介しよう。

音声入力結果2
【話した内容】
2014年度の予算は1,256万円で、土地購入代が2,100万円。毎月の電気代は3万5,642円。ガス代は3,782円です。5年先の財政見通しを考えますと、議題案件の3分の1は承認できない内容となっています。明日の会議は午前9時30分から始めますので、詳細はその時に説明します。
【ドラゴンスピーチ11での認識結果】
2014年度の予算は12,560,000円で、土地購入代が21,000,000円。毎月の電気代は35,642円。ガス代は3,782円です。今年先の財政見通しを考えますと、痛い案件の3分の1は承認できない内容となっています。明日の会議は午後9時30分から始めますので、詳細はその時に説明します。
【AmiVoice SP2での認識結果】
2014年度の予算は12560000円で、土地購入代が21000000円。毎月の電気代は35642円。ガス代は3782円です。5年先の財政見通しを考えますと、期待案件の3分の1は承認できない内容となっています。明日の会議は午前9時30分から始めますので、詳細はその時に説明します。
【VoXT(セルフ)音声入力での認識結果】
2014年度の予算は1256万円で、土地購入代が2100万円。毎月の電気代は3万5642円。ガス代は3782円です。5年先の財政見通しを考えますと、議会案件3分の1は承認できない内容となっています。明日の(「会議」が「改行」と認識されてしまい、改行)
5000
9時30分~始めますので、詳細はそのときに説明します
【Voice Rep Proでの認識結果】
2014年度の予算は12506万円で、土地購入代が2100万円。毎月の電気代は 三万560042円。ガス代は370082円です。5年先の財政見通しを考えますと、期待案件の3分の1は承認できない内容となっています。明日の会議は午前9時30分から始めますので、詳細はその時に説明します。

この変換結果を見ると、筆者は「議題」という言葉の発音がどうも苦手らしい。認識結果を見ていると自分の話し方が見えてくるので、たまに何とも恥ずかしい気分になる。

それはさておき、この認識結果では次の2点に注目したい。

まず「VoXT(セルフ)音声入力」は、今回初めて使用したのだが、「AmiVoice SP2」と同じく音声コマンドが使えるようになっている。ただ、今回の検証テキストでは、文章途中の「会議」という語句が「改行」と認識されてしまい、改行コマンドが発動してしまった。こちらは「VoXT(セルフ)音声入力」の設定をチェックしたが、音声コマンドについての項目はなく、ユーザー側で音声コマンドを無効にするといったことは、今のところはできなさそうだ。

なお、音声認識を意識して言い直すと、次のように正しく認識された。
→「明日の会議は午前9時30分から始めますので、詳細はそのときに説明します」

そして「Voice Rep Pro」については、以前に検証したときと同様、数字の文字変換に特徴があるのは現在も変わっておらず、「1256 → 12506」、「3782 → 370082」という感じで文字変換されてしまうところはいまだ改善されていない。グーグル音声検索でもそうなのだが、グーグルの音声認識エンジンは、どうも4桁以上の数字の文字変換が苦手のようだ。

なお、先ほど述べた文脈等から判断できる性能の進化は、グーグルの音声認識エンジンが一番その進化を実感する。

というのは、例えば以前だと、次のように単語で認識される傾向にあったからだ。
「……付属語のうち活用のないもの……」→「……付属語 農地活用のないもの……」
「このうち、9856円は……」→「この地球80056円」

だが、現在はこのように変換されることは基本的にない。「Voice Rep Pro」で音声入力している際はChromeブラウザで認識結果が確定するまでの認識の変化を見ることができるのだが、それを見ていても前後の文脈から認識結果が変化していくのを確認できる。グーグルの音声認識エンジンは、以前は文章を単語で捉える傾向にあったが現在その印象はあまりなく、その性能は着実に上がってきていることを実感できる。

なお、この検証テキストでの「Voice Rep Pro」の認識結果が「日本エレキテル連合 歯 大ブレークしたコントにならって」となっているのは、筆者の話し方によるところが大きい。「歯」の前後にスペースが入っているが、これは話すときに「は」の前後で少し間を持たせてしまったのと、「は」を強調して話してしまった結果だ。そういう意味では、グーグルの音声認識で高精度を得るには、ある程度の長さの文章をあまり抑揚をつけずに息継ぎに注意しながら話す、ということがポイントのように思う。

以上、今回は各音声認識ソフト/サービスの音声入力についての現況をまとめたが、これらの認識結果を見ても分かるとおり、各ソフト/サービスは認識に個性はあるものの、音声入力での精度はどれも高く、実用的だ。一般的な内容であれば、ユーザーのほうで音声認識されやすい話し方を心掛けると、ほぼ100パーセントに近い認識精度を目指すことも可能だろう。

よって、もしどうやってもうまく音声が認識されない場合は、何か他に問題がないかを疑ったほうがいい。マイクの仕様や接続・設定に問題があることも多いので、まずはマイクについてチェックしてみることをおすすめする。また「Voice Rep Pro」については、その仕様の変更によりChromeブラウザが必須となったので、「Voice Rep Pro」で音声認識を行う場合はChromeブラウザもインストールしておかなければならない。そのほか、「VoXT」と「Voice Rep Pro」はインターネットを介したサービスとなるので、そのレスポンスに認識精度が左右されることがあるということも意識しておきたい。

最期に、音声入力についてはこれら音声認識ソフト/サービスにおいて現在極端な認識精度の差はなく、どれも問題のないレベルとなっているが、この4つの中では「Voice Rep Pro」のみユーザー辞書に対応していないということを、ここで注意として挙げておきたい。普通に音声入力する分には問題ないが、その認識精度に差が出てくるのは、例えば個人の名前や専門用語などが多く含まれた内容を音声入力で起こすといったときだろう。もし今どの音声認識ソフトやサービスを使っていこうか悩んでいるユーザーが居るなら、この点も考慮して選択するといいだろう。

(次回:録音音声の文字化、その使い勝手と認識精度等の現況について)