気になる音声認識ソフト／サービスの音声認識精度等の現況、最新レポート（2）

「ドラゴンスピーチ11、AmiVoice SP2、VoXT（ボクスト）、Voice Rep Pro（ボイスレッププロ）について、これらのソフト／サービスでは音声入力のほか録音音声の文字化も行えるが、発売から時間がたった今、その使い勝手や音声認識精度について、現況をレポートする」

「ドラゴンスピーチ11」、「AmiVoice SP2」、「VoXT」、「Voice Rep Pro」という音声認識ソフト／サービスについて、前回は概要および発売／サービス開始当初との基本的な変更点と、それぞれで音声入力を行った際の使い勝手や認識精度の現況をレポートした。今回はこれら音声認識ソフト／サービスで行えるもう一つの機能である「録音音声の文字化」について、その使い勝手や認識精度の現況をレポートする。

【前回の記事（音声入力について）はこちら】
≫気になる音声認識ソフト／サービスの音声認識精度等の現況、最新レポート（1）

■録音音声の文字化について

スタンドアロン型の音声認識ソフトである「ドラゴンスピーチ11」と「AmiVoice SP2」については、発売当初と比べてその使用感に特段変わった点はない。「ドラゴンスピーチ11」では「録音データを文字化する」という項目から、「AmiVoice SP2」では「書起しエディター」から、録音音声の文字化を行うことができる。

クラウド型の音声認識サービスである「VoXT」は、現在「VoXTセルフ」、「VoXTフル」という2プランに変更され、自分でVoXTの音声認識を利用して行う録音音声の文字化は「VoXTセルフ」となった。「VoXTセルフ」は、料金プランから「お得プラン」が廃止され、現在は音声1分あたり30円（税抜）という従量課金制のみに変更されているが、「VoXTアプリ」を通して録音音声の文字化を行う流れや操作は基本的に変わっていない。

クラウド型の音声認識ソフトである「Voice Rep Pro」は、発売当初と比べて現在はその仕様が大きく変わっている。2014年5月あたりからグーグルの脆弱性対策等によってGoogle Chrome以外からは認識できない仕様になったようで、それに対応すべくVer.1.03からChromeブラウザ経由で音声認識する仕様に変更された（現在はVer.1.041）。

そのため、現在「Voice Rep Pro」で音声認識（音声入力、録音音声の文字化）を行う際は常にChromeブラウザが一緒に立ち上がり、Chromeブラウザで音声認識・音声の文字化を行い、その文字変換結果が「Voice Rep Pro」のエディターに転送される、といった流れとなっている。

録音音声の文字化は「録音音声文字化」から行う。クリックすると、再生プレーヤーとともにChromeブラウザが立ち上がる。画面が3枚となりシンプルではなくなったが、再生プレーヤーで文字化したい音声ファイルを指定し、必要に応じてESCキーで再生／一時停止を行いながら録音音声を文字化していくという操作は、発売当初と変わらない。ただ、録音音声の文字化自体はChromeブラウザを介して行うことになったため、「Voice Rep Pro」で録音音声の文字化をうまく行うためにはいろいろと意識しておきたい点が増えている（後述する）。

■それぞれで録音音声の文字化を行った結果

それでは、「ドラゴンスピーチ11」、「AmiVoice SP2」、「VoXT」、「Voice Rep Pro」で実際に録音音声の文字化を行った結果をポイントとともに紹介する。

録音音声の文字化・結果1　※画像の赤線は誤変換部分

【音声】自分の声で話した内容を録音したもの

【音声の状態】音質はよい／声：自分／多少音声認識を意識して話している

【音声の内容】
この日、東京都内で開かれた表彰式に受賞者が出席。日本エレキテル連合は、大ブレークしたコントにならって「今年だけじゃなく来年以降も使い続けてくれなくちゃ……」「ダメよ～ダメダメ」と、コントさながらのやりとりで会場を沸かせた。

（上・左）「ドラゴンスピーチ11」の結果
（上・右）「AmiVoice SP2」の結果（ユーザー：なし、辞書：標準（大）- 汎用音響モデルを使用）
（下・左）「VoXTセルフ」の結果
（下・右）「Voice Rep Pro」の結果（再生／一時停止しながら文字化）

この内容は、前回紹介した【音声入力結果1】と同じものだ。音声入力（マイクに直接しゃべって音声で文字入力する）では、ほぼ誤変換なく音声を文字化することができた（前回記事参照）。

録音音声を文字化する場合、声や話し方や内容だけでなく音質の良し悪しや話者の数などにも認識精度は左右されるが、録音された音声でも音声認識に適したものであれば、この結果のように音声入力の結果とそれほど変わりなく、高精度で文字化することができる。

録音音声の文字化・結果2　※画像の赤線は誤変換部分

【音声】ANNnews、増税後の消費者物価指数　東京都区部で大幅上昇(14/04/25)

【音声について】ニュース／声：女性1人／雑音は多少あるが声は聞き取りやすい

【音声内容】
総務省が発表した4月の東京都区部の消費者物価指数、前の年の同じ時期に比べ2.7％と大幅に上昇した。消費税増税の影響によるものだ。
東京都区部の指数は、来月発表される全国各地の先行指標とされ、政府や日銀の政策判断の材料となるため、注目されていた。日銀は来年の春ごろに2％の物価上昇を達成するとしている。
ただ、今回の物価上昇は、増税の影響を除くと実質的には増税前の3月と同じ水準だった。総務省は想定内の上昇としているが、日銀のシナリオに沿った上昇が今後も続くか、市場では懐疑的な見方も出ている。

（上・左）「ドラゴンスピーチ11」の結果
（右上）「AmiVoice SP2」の結果（ユーザー：なし、辞書：政治経済を使用）
（左下）「VoXTセルフ」の結果　
（右下）「Voice Rep Pro」の結果（①：音声を一時停止することなく一気に認識させた結果、②：再生／一時停止しながら文字化した結果）

このようなアナウンサーが1人で話しているニュース音声も、音質がよければ「録音音声の文字化」でうまく起こすことができる。このニュース音声は、多少雑音はあるものの声や話し方も聞き取りやすく、音量も十分であるため、「ドラゴンスピーチ11」、「AmiVoice SP2」、「VoXTセルフ」では高精度で内容を文字化できている。なお、「AmiVoice SP2」と「VoXTセルフ」は、発売／サービス開始当初に調査したときと全く同じ文字化結果となった。

「Voice Rep Pro」については、精度が低い結果となった。音声入力ではレスポンスも特に気にならず高精度で起こせるのだが、「録音音声の文字化」では一度に再生する音声が長過ぎると、うまく音声を文字化できない。これは発売当初からそうなのだが、一気に音声を再生すると処理が追い付かず、一部の内容が飛んでしまったりすることが多い（①の結果）。

よって、一気に音声を再生するとそのスピードに処理がついていけず、文脈が理解できなくて誤変換が生じたり、結果をうまくエディターに転送できなかったりすることが多いので、適切なところで再生／一時停止しながら文字化していくというのが本ソフトでうまく録音音声を文字化するコツだといえる。なお、②は文章の区切りのところなどで再生／一時停止しながら文字化した結果であるが、再生／一時停止するタイミングによっても認識精度は変化する。

【参考】テープ起こしに生かせる？音声認識製品・サービス、最新情報(2) ―Voice Rep Pro―（2014/02/06）

録音音声の文字化・結果3　※画像の赤線は誤変換部分、青線はケバの変換部分

【音声】小保方氏”反論”会見ノーカット　STAP問題で05（14/04/09）

【音声について】会見／声：男性1人／雑音が多く、音質は悪い。話し方も考えながら話しているためケバが多く、聞きづらい

【音声内容】
なお、この画像取り違いについて小保方さんはですね、えー、データの整理が十分ではなかった、あー、元データを確認しておればこのような取り違いというのは生じなかったというように反省しているところでございます。しかし、調査が不十分であったという点は否めませんので、ねつ造という結論をこの時点で出されたということについては不服でございますので、不服申し立てをしておる、ということでございます。以上が私からの説明でございます。

（上・左）「ドラゴンスピーチ11」の結果
（右上）「AmiVoice SP2」の結果（ユーザー：なし、辞書：標準（大）- 汎用音響モデルを使用）
（下）「VoXTセルフ」の結果　

「ドラゴンスピーチ11」の結果は意味不明。「AmiVoice SP2」と「VoXTセルフ」の結果は、何となく分かる部分もあるが、認識率は低い。なお、これらの結果は発売／サービス開始当初に調査したときとほとんど変化なし。「Voice Rep Pro」は、この音声の音量が足りず、音声自体をほとんど認識することができなかった。

この音声は、音質が悪いだけでなく、ケバ（「あー」「えー」といった言いよどみなど）も多くて聞きづらい。このような音声はやはり「録音音声の文字化」で使えるレベルにまで起こすのはまだ難しい状況といえる。

■それぞれで録音音声の文字化を行った精度の状況、まとめ

録音音声を文字化する場合、声や話し方や内容だけでなく音質の良し悪しや話者の数などにも認識精度は左右されるが、録音された音声でも「音声認識に適したもの」であれば、高精度で文字化することができる。

※音声認識に適した音声とは？ →→【参考】VoXTセルフ文字変換精度比較

例えば【結果1】や【結果2】のように、音声認識をある程度意識して話した音声や、ニュースのような誰が聞いても認識しやすい音声は、高精度で文字化できる傾向にある。

ただ、【結果3】のように音質が悪い場合や人が聞いても聞きづらい音声は、まだまだ「録音音声の文字化」で使えるレベルにまで起こすのは難しい状況だ。そのほか会話調のインタビューや会議、複数人でのフリートーク、講演会で会場スピーカーから流れる演者の声を録音した音声（マイクと発話者が遠い）などの音声も、内容や音質にもよるが、基本的に音声認識で文字化するのはまだ難しい傾向にある。

これは発売／サービス開始当初に検証したときと同じ結論であり、「録音音声の文字化」については数年たった今も特に状況は変わっていない。実際に同じ音声を使用して検証した結果も、今と昔で精度に大きな変化は見られなかった（ほぼ同じ結果となった）。今後劇的に進化するかもしれないが、現状としては、例えば以前は起こせなかった音声が今は起こせるようになっているといったことはなく、録音音声の文字化については以前レポートしたときと状況はほとんど変わっていないと言っていいように思う。

【付録】録音音声の文字化をうまく行うために

最期に「AmiVoice SP2」、「ドラゴンスピーチ11」、「Voice Rep Pro」について、録音音声の文字化をうまく行うために意識しておきたいことを改めてまとめる。

■「AmiVoice SP2」について

録音音声の文字化は「書起しエディター」の「音声認識／音声を認識」から行うが、その際、ユーザーと使う辞書を選択できるようになっている。

ユーザーは、文字化したい音声に一致するユーザーがあれば指定すると認識精度の向上が期待できるが、不特定話者の場合や複数人の声が録音されている音声を文字化する場合は「なし」を指定するといい。

辞書は、どの辞書を使うかによって認識精度と速度が変わるので、音声の内容と状況によって使い分けるといいだろう。特にない場合、基本的にはVer. 2.03から追加されたマスター辞書「標準（大）- 汎用音響モデル」が推奨されている。また、早く結果が欲しい場合は「標準（小）」を選択するといい。なお、【結果2】で紹介した音声内容の場合は、マスター辞書「政治経済」を選択すると一番結果がよかった。

■「ドラゴンスピーチ11」について

「ドラゴンスピーチ11」で音声認識を行う際には、プロファイルの存在を意識したい。「AmiVoice SP2」が不特定話者対応であるのに対し、「ドラゴンスピーチ11」は個人の使用を想定したつくりであり、その仕様から音声認識の際には声の登録作業を行ったプロファイル（声質、話し方の特徴、使用する音声デバイスの情報などを記録した個別の学習データ）を使用している。よって、基本的に「ドラゴンスピーチ11」は不特定話者の録音音声の文字化には向いていない。そのプロファイルに対応した人の声の録音音声であれば十分な結果が得られやすいが、そうではない場合、誤変換が多くなってしまう。

とはいえ「ドラゴンスピーチ11」で不特定話者の録音音声の文字化を行う場合のポイントをあえて挙げるとすれば、例えば女性なら女性の声が登録されているプロファイルを使用するといったように、文字化したい音声に声質や話し方などができるだけ似たプロファイルを選んでみるといいように思う。

例えば【結果2】は女性の声のニュース音声なので、男性の声が登録されているプロファイルよりも女性の声が登録されているプロファイルを使用したほうが認識率は高くなった。学習状況も精度に関わってはくるのだろうが、文字化したい音声と似たプロファイルを使用すると、よい結果が得られる可能性はある。

■「Voice Rep Pro」について

「Voice Rep Pro」は仕様が変更となり、個人的には少し使いづらくなったと感じている。録音音声の文字化がもしうまくいかない場合は、次の点をチェックしたい。

※「Voice Rep Pro」は最新版か。また、Chromeブラウザはインストールされているか。

※録音デバイスの設定はステレオミキサーで、ステレオミキサーが「既定のデバイス」になっているか。また、録音音声のボリューム（音量）は適切か。

※グーグルの音声認識エンジンとのコネクションはうまく確立できているか。

Ver.1.03からの大きな変更点として、Chrome経由での認識になったため、録音音声の文字化は音声を再生しながらのステレオミキサーでの認識となっている。録音音声の文字化がうまくいかない場合は、まずステレオミキサーから正常にパソコンに音声が入力されているかどうかを確認するべし。確認にはサポートページにアップされている音声サンプルを使用すると確実だ。

≫ボイステクノのVoice Rep /Voice Rep Proのサポートページ

※音声サンプルについては、このページの下のほうに記載あり

ステレオミキサーから正常にパソコンに音声が入力されているかどうかの確認は、「メニュー／音声認識／入力音声の確認」から行うことができるので、有効に活用したい。

ここで録音／再生してみて音声が聞こえない場合は、ステレオミキサーがきちんと設定されていない。また、音量が小さい場合もあるので、音量の設定もチェックしたい。

なお、そもそもステレオミキサーが使っているパソコンにない場合もある。その場合は、「Voice Rep Pro」のヘルプやサポートページに書かれているようにオーディオケーブルを用いたりすることなどで対応する。あるいは、サウンドドライバのアップデートがないかチェックしてみて、それでもなければ仮想ステレオミキサーを導入するのも手。筆者は検証で使用しているパソコンにステレオミキサーがなかったので、仮想ステレオミキサーを導入することで対応した。

次に、ステレオミキサーの設定は問題ないのにうまく録音音声の文字化ができない場合は、グーグルの音声認識エンジンとのコネクションがうまく確立できているかを確認してみるといいかもしれない。

【結果1】や【結果2】を見てもらうと分かるが、初めに「いつもお世話になっております……」という文章が挿入されていると思う。これは先ほど紹介した音声サンプルの内容なのだが、筆者はグーグルの音声認識エンジンとのコネクションがきちんと確立されたことをまずは音声サンプルで試すようにしている。

グーグルの音声認識エンジンとのコネクションがきちんと確立されないと、うまく録音音声の文字化は行えない。とはいえ、つながったと思ってもレスポンスが悪くうまく文字化されないときもあり、なかなか悩ましいところではあるのだが、一つの指標として音声サンプルをうまく活用してほしいと思う。