テープ起こしに生かせる？音声認識製品・サービス、最新情報(2) ―Voice Rep Pro―

1. 「録音音声の書き起こしができる製品・サービスが新登場、その実力やいかに？」

「録音音声の書き起こしができる製品・サービスが新登場、その実力やいかに？」

2013年11月、録音音声の書き起こしができる製品・サービスが新たに登場した。「Voice Rep Pro（ボイスレッププロ）」（株式会社GING）と「VoXT（ボクスト）」（株式会社アドバンスト・メディア）だ。

音声認識の精度も上がりその機能が身近になってきた今、テープ起こしも音声認識で楽にできるんじゃないかと思っている人は多いだろう。実際のところはどうなのか。これらの新しい製品・サービスについて、今回は実際の使用感や精度などをレビューしたい。

なお、今回取り上げる製品・サービスの最大の特徴は、インターネットを介したものだということ。メリットも多いが、その裏には多くのリスクも潜んでいる。昨今、情報流出なども話題となっているが、ここでは併せてその点についても取り上げたい。

■Voice Rep Pro（株式会社GING）

今回は「Voice Rep Pro」についてレビューする。前回のおさらいとなるが、本ソフトは録音音声の書き起こし機能が付いた音声認識ソフト。主な特徴は、インターネット経由によりGoogleの音声認識サービスを活用していること、エディタにはワープロ機能を搭載しており、音声認識後のテキストに対して編集・整形といった作業がそのまま行えるということ、である。

Googleの音声認識サービスの実力はいかほどか。また、インターネット経由での音声認識は実用的といえるのか。

まずは無料体験版があるので、それをダウンロードし、インストール。無料体験版は初回起動後、1週間利用可能。その後も続けて利用したい場合は、ライセンスキーを購入する。

≫株式会社GING「Voice Rep Pro」　無料体験版ダウンロード

なお、販売は株式会社GINGであるが、本ソフトの著作権はボイステクノが保有している。ボイステクノは株式会社ボイススピリッツの事業を承継した個人事業である。

ボイステクノからは最新版の「Voice Rep Pro」がダウンロードできる（2014年1月28日に確認した時点では株式会社GINGの体験版はVer.1.00だったが、ボイステクノではVer.1.01がアップされていた）ほか、こちらのサイトにはアップデート情報やFAQなども掲載されているので併せてチェックしたいところ。

≫ ボイステクノ　「Voice Rep /Voice Rep Pro」サポートページ

株式会社GINGからダウンロードした場合は取扱説明書も付いており、インストールに特に困る点は、基本的にはない。なお、今回の検証はVer.1.00を触った後、Ver.1.01で主に行った。

■画面はシンプルで分かりやすく、直感で操作可能

本ソフトを立ち上げた際のメーン画面はこんな感じ。一番上にメニューバーがあり、ツールバーは大きく分けて4つの領域で構成されている。赤で囲んだが、テキストの編集・整形等ができるワープロ機能の領域（上）、音声認識で使用する領域（下・左）、独自機能の領域（下・中）、マイクに関する設定の領域（下・右）だ。

■流れとしては、まずマイクの設定→マイクによる音声認識→録音音声の文字化で

本ソフトは、マイクによる音声認識、録音音声の文字化のどちらも行える。ただ、覚えておきたいのは、きちんと認識させるには、まずGoogleの音声認識エンジンとのコネクションの確立が必要だということ。そのため、録音音声の文字化をうまく行うには、まず録音音声の文字化を先にするより、マイクによる音声認識を先に行い、きちんと認識精度が得られることを確認してから行うほうが効率がよい。ボイステクノのFAQにも「マイクによる音声認識が正常に実行されないと、録音音声の文字化もうまく実行されない」と記載されている。

よって、流れとしては、まずツールバー右下の「録音デバイス」からマイクの設定をチェック。マイクによる音声認識を行いGoogleの音声認識エンジンとのコネクションが確立された（認識精度が確認できた）後、録音音声の文字化を実行すると効率的だろう。

■音声認識を行う際、事前の声の登録作業は不要、操作も簡単

音声認識で使用する領域はツールバーの左下で、「マイク音声入力（開始・停止）」と「録音音声文字化」の2つ。直感的に分かると思うが、マイクによる音声認識を行う場合は「マイク音声入力」の開始・停止ボタンのクリック、録音音声の文字化を行う場合は「録音音声文字化」ボタンから行える。操作は非常に簡単だ。また、音声認識を行う際、事前の声の登録作業は必要ない。

■音声認識精度、認識レスポンスおよび使用感の実のところ

本ソフトの最大の特徴は、インターネット経由によりGoogleの音声認識サービスを活用していること。その実力はいかほどか。

※Googleの音声認識エンジンとのコネクションが確立されると、認識率は向上

「Voice Rep Pro」を立ち上げて使う際、最初は認識率が悪い。先ほど少し触れたが、理由はGoogleの音声認識エンジンとのコネクション確立のため、初めは認識結果が表示されるのに時間がかかるからのよう。すぐにコネクション確立できるときもあれば、少し時間がかかるときもある。初めは認識率が得られないかもしれないが、Googleの音声認識エンジンとのコネクションが確立されると、認識率も上がってくる。

※マイクによる音声認識の精度、レスポンスなどについて

コネクション確立後のマイクによる音声認識の精度は、結論から言うと、内容と話し方によって変わり6?8割だろうか。かなり速度や滑舌を意識して話せば9割くらいは起こせる場合もある。認識精度は悪くなく、有名な音声認識ソフトと大差ないと感じる。

ネックとなるのは、どの音声認識サービスでも同じで、やはり同音異義語の問題。あとは特殊な専門用語。そして、Googleの音声認識の傾向としては、やはりGoogleといえば音声検索が有名であるが、音声検索（＝単語認識：最近は文章も認識できるようになったが）だからだろうか。これは勝手な想像だが、文章を単語でとらえる傾向があると感じた。

例えば「……付属語のうち、活用のないもの……」というのは「……付属語農地活用のないもの……」、「このうち、9856円は……」というのは「この地球80056円」というふうに単語で認識される傾向があるので、うまく認識されるよう話す際に注意するといいかもしれない。そのほか、この例でも分かるように、数字の文字化に弱い傾向がある。例えば「8252 → 8000250 2」という感じで認識される場合も多い。

レスポンスとしては、Googleの音声認識サーバーとやりとりして文字化しているので、時間がかかることもある。大抵は約2?3秒だが、うまく認識させるコツは、一気に長い文章を話さないこと。後で説明するが、一度で処理できる音声の量には限界があるので、話す際には適度に区切って文字化されるのを確認しながら行うとよい。

※精度はよいが、音声認識ソフトの使用感としては、課題もちらほら。

本ソフトはGoogleの音声認識サービスを利用している点が最大の特徴であるが、音声認識ソフトとしては、それがメリットにもなりデメリットにもなっている。

Googleの音声認識サービス利用の主なメリットとしては、事前の声の学習は不要、精度もよく、日々進化する（といってもやはり数日では結果が特に変わるわけではなかったが）という点。しかし、同時に音声認識ソフトとしては、それに特化した音声入力コマンドが使えない、ユーザー辞書が作れない、といったデメリットを感じた。

音声認識ソフトではマイクによる音声入力の場合、大抵「改行、前を削除、点、丸」といった音声入力コマンドが使えるかと思う。しかし、Googleの音声認識で音声入力コマンドは使えないので、例えば「改行」と言ったら、そのままテキストで表示されてしまう。なので、例えばキーボードを併用しなければ、改行もなく句読点もないテキストがずらずらと入力されることになる。音声入力コマンドに慣れていると、地味に不便。

【音声認識結果】音声入力コマンドは使えないので、文字認識が終わった後、そのままではただの文字の羅列に過ぎず、非常に見にくい状態。ちなみに、話した内容は「総務省は28日、住民基本台帳に基づく2013年3月31日現在の人口を発表した。外国人を除く日本人の人口は1億2639万人余りで、4年連続の減少となった。発表によると、2013年3月31日現在の日本人の人口は、前年の同時期に比べて26万6400人減少して1億2639万3679人となった。前年を下回るのは4年連続。また、外国人の人口は198万200人で、これに日本人を合わせた総人口は1億2837万3879人となる」。

また、ユーザー辞書を作ることができないので、自分で認識率アップについて手を打てることは、基本的にない。ただ、逆にインターネットを介したサービスでユーザー辞書が作れるとなると、それはそれでセキュリティ的に不安。例えばユーザー辞書に登録した内容が収集されているケースもある（利用前に利用規約をきちんと確認する等といったユーザーの意識が必要）。この内容についてはまた取り上げるが、そう考えると音声認識ソフトとしてはユーザー辞書を作れないのはデメリットだが、サービス的には不安要素は減っているといえる。

これらの点については、本製品の特徴上、仕方がない点であるので、音声認識後の修正作業を効率よくしたいところである。なお、音声認識結果に句読点は付かないが、区切りを認識したところにはかろうじて半角スペースが入るようだ。

※録音音声の文字化について

録音音声の文字化は「録音音声文字化」ボタンから行える。「録音音声文字化」をクリックすると、次のようなプレーヤー画面が表示される。この画面も非常にシンプルだ。

右側の部分から音声ファイルを指定し、緑のボタンをクリックすると音声の再生・一時停止ができる。現在の表示は再生ボタン。クリックすると音声が再生され、これが一時停止ボタンに切り替わる。音声を自動文字化したい場合は「一時停止時に文字化」スイッチをオンに。このスイッチがオンの場合、音声再生中に一時停止ボタンをクリックすることで、そこまでの音声の文字化が自動で行われる。

※録音音声を文字化する際のコツとは。その仕組みを知ってうまく認識させよう

本ソフトで音声認識を行う際、意識しておきたいのがその仕組みである。インターネット経由でGoogleの音声認識サービスを利用しているが、音声が文字化されるまでの流れは次のとおりだ。

まずマイクに話し掛けると（録音音声の文字化では音声の再生中に一時停止ボタンをクリックすると）、音声データはインターネットを経由していったんGoogleの音声認識サーバーに送られる。そして、そのサーバーで音声が文字に変換され、サーバーから戻された文字化の結果がソフトの画面上に表示される。

そのため、先ほど少し触れたが、一度に送信する音声が長過ぎる（データ量が多過ぎる）と、うまく音声の文字化がされない。大抵レスポンスが返ってこなかったり、例えば文字化されても一部だけだったり、ということが起こる。どうしてもインターネットを経由するため、データの送受信の量には限界があるからだ。

よって、本ソフトでうまく録音音声を文字化する際のコツとしては、録音音声の再生・一時停止をこまめに繰り返すこと。再生ボタンをクリックすると音声が再生されるので、音声の区切りのよいところで一時停止ボタンをクリックし、文字化を待つ。結果が返ってきたら、また再生ボタンをクリックし……というふうに、再生・一時停止をこまめに繰り返して文字化していくほうが、本ソフトでは結果的に効率的といえる。

再生・一時停止の間隔が長い（つまり送信する音声量が多い）と、処理に時間がかかるだけでなく、認識できないことも多い。その際、反応がないのでもう動いていないのかと思っても、実は裏で一生懸命頑張っていることもままあるので注意したいところ。Ver.1.01では音声認識に失敗したら表示が出るようになったが、現在は作業中なのかそれとも失敗しているのか、いまいちよく分からないことが多い。その部分の改善は難しいのかもしれないが、もう少しちゃんと状況が分かるようになると、ユーザーとしてもストレスが減るように感じる。

※録音音声の文字化の精度は

録音音声の文字化の精度は、音声ファイルの音質のほか音声の内容やその話し方によっても変わるので、文字化したい音声によるというのが正直なところ。あえて自分が試したものについて言うなら、悪いものは1割程度、音質のよいニュースの音声で大体4?6割、自分が音声認識を意識しながら話した録音音声などのかなり質のいいものだともっと高くなる。

一時停止のタイミングで認識精度を上げることも内容によっては可能なので、情報の送信量の限界があるのはデメリットだが、一時停止で文字化可能というのはある意味メリットでもある。ただ、インタビューや会議などの音声は、やはり起こすのはまだ厳しい。ネックは、話し方（語尾を伸ばす、話の切れ目がない、ケバが多い、早口、方言、イントネーションなど）、複数人の音声の場合は声の重なり、雑音、BGMなど。

※そのほか、録音音声を文字化する際に知っておきたいこと

一時停止のタイミングで認識精度が変わってくる場合もあるので、文字化したい音声でいろいろと試してみるとよいかもしれない。

録音音声を最後まで起こしたい場合、音声の後に無音時間がない場合は、再生が終わってしまう前に、見計らって一時停止ボタンを押す必要がある。一時停止ボタンを押すことで文字化が行われるので、音声の終了時は意識が必要。

ボタン等にはショートカットキーが割り当てられている。画面にカッコで書かれており、例えば一時停止ボタンはEscキー、「一時停止時に文字化」スイッチはF1。ただ、現在はどうも再生・一時停止に割り当てられているEscキーのみ動作しないよう（不具合か）。Escキーが使えるようになると、文字化している際はキーボードだけで操作できるようになるので、より効率的に作業できるようになるだろう。

なぜか音声ファイルを切り替えても、再生される音声は切り替わっているのに文字化は前の音声でまた実行される場合がある。これは、おそらく読み込んだ音声ファイル名が日本語の場合に起こるようなので、音声ファイル名は英数字で付けたほうが無難。

■多彩な編集機能を備えたエディタ、その使い勝手はどうか

エディタには多彩な機能が用意されており、音声認識後もそのまま作業が可能。ツールバーの上側にはテキストの編集・整形等ができるワープロ機能、下側の真ん中の領域には独自機能として「数値表記変換」と「句読点付与」が備えられている。

操作は、どれもシンプルで簡単。ただ、独自機能の2つについては、基本的に画面には音声認識で文字化された生データしかなく、それに対して操作するという想定で作られているように思う。一部分でもテキストを整形している（改行を加える、表を追加するなど）場合は、特に「句読点付与」の機能を使う際には注意してほしい。

次に情報として現時点の気づいた点を記載しておく。バージョンアップに期待したい。

※「検索・置換」の操作について

個人的には「検索・置換」の、特に置換の操作が気になった。置換の操作はテキスト修正時によく使うと思うので、これが想定された動作であるならば、ヘルプにもう少し情報が欲しい。

置換操作をイメージしてほしい。例えばＡをＢに置換したいとする。ＡとＢをボックスに入力し「次を検索」をクリックした場合、Ａが検索され、ハイライトされる（ここまではよい）。しかし、次に「置換」あるいは「すべて置換」のどちらをクリックしても、このハイライトされたＡは置換されない。「置換」の場合はその次に検索されたＡ、「すべて置換」の場合はこのＡを除く全てがＢに置換される。

ここで、このＡを置換したい場合、このＡよりも前の部分をクリックしてカーソルをこのＡの前に移動させる。そして「置換」をクリックすると、このＡも置換できる。

つまり、検索や置換を行う場合はカーソルの位置がポイントで、カーソル以降が操作対象になっている。これはワードなどでも同様であるが、本ソフトではここまま操作しても初めに検索されたものは置換されないので、その場合はカーソルの位置を移動することで対処すればよい。なお、「検索・置換」をクリックした直後は、カーソルは表示されておらず、操作は最初のテキストから行われるようだ。

※独自機能の「数値表記変換」と「句読点付与」について

「数値表記変換」は、テキスト内の数値の表記を統一してくれるというもの。また、「句読点付与」は、テキストに句読点を自動的に付けてくれるというもの。便利な機能であるが、基本的に音声認識で文字化された生データに対してのみの操作が想定されているように感じる。実際に使用するのはそうかもしれないが、もう少し柔軟性があってもいいように感じた。現状としては、特に次の点に注意したい。

※「数値表記変換」について

改行がある場合や先頭にスペースがある場合、うまく変換できないようだ。うまく変換される場合もあるのかもしれないが、適用する前にはよく確認したほうがいい（適用するかどうかを選択できるのは、うれしいところ）。

エディタでは表を作成できるが、表を作成している場合に「数値表記変換」を行い、変換結果を適用したくないと思って「元に戻しますか」で「はい」を選ぶと、元には戻るが表は取れてしまうので注意。

※「句読点付与」について

エディタで行った操作（例えば改行、画像や表を挿入、文字設定など）は、この機能を使用すると、基本的に全て取れてしまい、句読点だけが付いた文章の羅列になってしまう（【音声認識結果】参照）。例えば音声認識で文字化しながら後で見やすいように改行だけしていく場合もあると思うが、改行も「句読点付与」を使用すると全てなくなって句読点だけが付いた文章の羅列になってしまうので、注意してほしい。しかも、元に戻すことができない涙。

あまり実用的ではないかもしれないが、もし一部分だけに対して「句読点付与」を行いたい場合は、「テキスト枠追加」でテキスト枠を追加するといい。テキスト枠内のテキストに対してのみ「句読点付与」を行うことができる。その際、テキスト枠内を操作対象とするため、テキスト枠内をクリックしてカーソルはテキスト枠内に移動しておくこと。テキスト枠内にカーソルがない場合は、テキスト枠も取れてしまい、上記同様、文章の羅列になってしまう。

どちらの機能も、現状のレイアウトは保持したまま、また、一部分だけに適用できるようになれば、もっと使いやすいように感じた。

■「Voice Rep Pro」を使用する上での注意点

本ソフトを使用した感想をまとめると、先に述べたように、インターネット経由でGoogleの音声認識サービスを利用している点が最大の特徴であるが、音声認識ソフトとしては、それがメリットにもなりデメリットにもなっている。

初めから高い認識精度で利用できる点は非常によい。特に録音音声の文字化については今まで使った中で一番可能性を感じた（ただ、アドバンスト・メディアの「AmiVoive SP2」もアップデートにより以前よりよい結果が出るようになった。これについては今後また取り上げる予定）。その一方で、音声入力コマンドが使えない、ユーザー辞書が使えないといったほか、インターネットを介するサービスであるため、データ送信量の限界があるというデメリットがある。

そして、もう一つ。「Voice Rep Pro」を使用する上で必ず知っておいてほしい注意点があるので、次に挙げたい。中でも2番目の点を考えると、業務での使用は勧めない。どんな音声を使用するのか、利用の際は十分に注意してほしいと思う。

※Googleのサービスが終了したら「Voice Rep Pro」で音声認識は利用できなくなる

「Voice Rep Pro」はGoogleの音声認識エンジンを用いて音声を文字化しているため、Googleのサービスが終了すると、本ソフトで音声認識機能は利用できなくなるので注意。なお、本ソフトのワープロ機能はGoogleのサービスが終了しても影響はないので、そのまま利用可能である。

【重要】インターネットを介したサービスには情報漏えいのリスクが潜んでいる

「Voice Rep Pro」の使用上の注意にも次のように書かれている。「本ソフトは、Google 社の音声認識エンジンをインターネット経由で利用しております。そのため、Google 社の音声認識サービスが利用できなくなると、本ソフトの音声認識機能も利用できなくなります。また、音声認識機能を使用する場合、音声データがインターネットを経由してデータが送受信されます。機密情報を含む音声のご利用はお控えください。………なお、本ソフトでの音声認識機能については、Google利用規約をよくご確認の上、ご利用いただきますようお願いします。」

Google利用規約 http://www.google.com/intl/ja/policies/terms/update/

本ソフトを使用する場合、インターネットを介したサービスであるという点を常に意識してほしい。理由は、使用上の注意にも書かれているように、音声認識機能を使用する場合、音声データがインターネットを経由してデータが送受信されるため、情報漏えいのリスクがあるからだ。そのため、機密情報を含む音声の利用は控えるよう記載されている。

特にテープ起こしで依頼された音声は機密情報を含むものも多く、テープ起こし会社は顧客と秘密保持契約、機密保持契約、守秘義務契約を結ぶと同時に、リライターもこれらの契約を結んでいるはず。テープ起こしで依頼された音声をインターネットを介した音声認識サービスで使用するのは、情報漏えいのリスクがあるということを、ぜひ肝に銘じてほしい。

では、なぜ「Voice Rep Pro」のようにインターネットを介したサービスには情報漏えいのリスクがあるのか。今回は長くなってしまったので、次回、紹介したいと思う。

次回に続く