テープ起こしに生かせる?音声認識製品・サービス、最新情報(3) ―VoXT―

テープ起こしに生かせる?音声認識製品・サービス、最新情報(3)  ―VoXT―

「録音音声の文字化ができるアドバンスト・メディアのクラウド型音声認識サービス「VoXT(ボクスト)」。気になるその精度や使用感のほか、使用上の注意点や同社の音声認識ソフト「AmiVoice SP2」との違いなどについて、レポートする」

VoXT(株式会社アドバンスト・メディア)

voxt_img

VoXTは、日本における音声認識のパイオニアであるアドバンスト・メディアから登場したクラウド型の音声認識サービス。音声認識による録音音声の文字化(音声文字変換)をクラウド上で月額従量制で行えるという画期的なものである。

VoXTで録音音声の文字化を行う場合、料金は月額完全従量制の「基本プラン」で音声1分あたり30円(税抜)。「お得プラン」は月額2,000円(税抜)で、2時間までの音声文字変換が可能(2時間以降は1分ごと30円の従量課金)。

音声を自分で起こすには非常に手間がかかるし、テープ起こし業者に頼むと確実だがそれに見合ったお金がかかる。だが、VoXTでは1時間の音声文字変換で1,800円(税抜)。かなり安いが、その精度や使い勝手はどうなのか?順に見ていこう。

■録音音声の文字化(音声文字変換)の依頼はVoXTアプリから

まずサービスを利用するには、新規利用申込を行い、マイページから専用のVoXTアプリをダウンロードし、インストールする必要がある。新規利用申込(登録)とVoXTアプリはどちらも無料。録音音声の文字化(音声文字変換)の依頼は常にVoXTアプリから行う。

操作は簡単。まずはVoXTアプリを起動し、サインイン。文字化したい音声ファイルをドラッグすると、音声がアップロードされ、続いて発言箇所の検出が行われる。

【図1】読み込まれた音声情報はライブラリ画面で一覧表示される。

録音音声の文字化をしたい場合、「音声を文字に変換」をクリック。依頼方法としては「お試し文字変換(無料)」と「文字変換」の2種類から選択可能。「お試し文字変換(無料)」は、指定した部分から1分間の文字変換をいつでも無料で行えるというもの。依頼したい音声に対し、まずは無料で文字変換結果を確認できるというのは非常にうれしいサービス。1つの音声ファイルに対して2回まで依頼可能なので、ぜひ有効に活用したい。

voxt_appimg02

なお、新規利用申込(登録)から2週間は、1時間まで無料で音声文字変換を試すことができる。

■音声や文字変換結果の確認はVoXTアプリのホーム画面(編集プレーヤー)で

音声や文字変換結果を確認したい場合、「音声を確認」あるいは「編集を開始/再開」(図1参照)からホーム画面(編集プレーヤー)に移動でき、そこで音声の波形情報や発言箇所検出結果、文字変換結果を確認できる。

voxt_appimg03

認識結果は、検出された発言区間ごとに音声のカウンタと文字変換結果が紐付いている。文字変換結果の文字をクリックすると、その区間の音声が再生される。文字変換結果はワード形式(.docx)とテキスト形式(.txt)で書き出すことが可能だ。

■VoXTアプリのホーム画面(編集プレーヤー)の使用感は

画面も見やすく、検出された発言区間ごとに音声のカウンタと文字変換結果が紐付いているので、元音声の確認したい部分をスピーディーに見つけて再生できるというのは便利。音声を全て聞いて該当部分を探すよりも作業時間が大幅に短縮できる。

また、VoXTアプリでは音声の再生・一時停止などの操作にキーを割り当てることが可能。いちいち画面のボタンをクリックしながら作業するのは面倒だし効率も悪いが、キーボードの操作で音声の再生や一時停止などを行うことができるだけでなく、ユーザーでキーを割り当てられるのはうれしいところである。

voxt_appimg04

一方、編集プレーヤーで個人的に少し気になったのは、音声の再生・一時停止は検出された発言区間に対して行われ、全体を通して一気に音声を聞くことができないという点だ。発言区間の検出の結果、話している途中で切れていることも多いのだが、次の発言も続けて聞きたいと思っても、選択された発言区間の音声の再生が終わると、そこで再生が停止してしまう。次の発言も続けて再生したい場合、方法として「次の発言を再生」のキーを使用しながら作業もできるが、全体を通して再生・一時停止できるボタンもあると、もっと使いやすくなるのではないかと感じた。

■気になる録音音声の文字化(音声文字変換)の精度は

認識結果は最後にまとめて紹介するが、精度としては、前々回の(2)で取り上げた「Voice Rep Pro」と同様、音声ファイルの音質のほか音声の内容やその話し方によっても変わるので、文字化したい音声によるというのが正直なところ。これまでの記事でもちょこちょこ取り上げてきたが、音声認識技術の現状としては、音質もよく例えば音声認識を意識した話し方で録音された音声やアナウンサーが一人で話しているニュース音声などはうまく起こせる傾向にあるが、音質が悪かったり複数人が雑多な感じで話しているインタビューや会議の音声だったりなどは、まだまだ音声認識で使えるレベルにまで起こすのは難しい。

ただ、音声認識により録音音声の文字化を行う場合(人がテープ起こしをする場合もそうだが)、うまく起こせるかどうかはやはり録音の状態(音質等)によるところが大きいが、それはユーザーが録音時に注意すれば改善できる部分もある。音声認識技術もまだまだ進化する必要はあるが、その性能を最大限に生かすには、例えば良質な音声データになるようユーザーが録音の知識を身に付け上手に録音するといった、ユーザー側もレベルアップも求められている。

【参考】上手な録音の仕方

■VoXTを使用する際の注意点

VoXTを利用する際に常に意識したいのは、VoXTがクラウド型のサービスであるということ。前回クラウド型音声認識サービスにおける情報漏えいリスクについて取り上げたが、クラウドサービスでは何らかの情報をサービス事業者に渡すことは避けられない。特に機密情報が含まれる音声データの使用には注意したい。

VoXTについては、FAQページに情報管理ポリシーと利用規約の情報が掲載されているので、利用する前にはぜひ目を通し、そのことを認識した上で利用してほしいと思う。

VoXT情報管理ポリシー 
VoXT利用規約第6章(秘密情報の取り扱い)

【参考】クラウド型音声認識サービスにおける情報漏えいリスクについて考える

ちなみに、VoXTは最初に紹介したとおりアドバンスト・メディアのクラウド型音声認識サービスであるが、同社は音声認識ソフト「AmiVoice SP2」という製品も販売している。AmiVoice SP2でも書起しエディターを使用して録音音声の文字化を行うことが可能であるが、AmiVoice SP2とVoXTの違いは何なのか。

まず大きな違いは、AmiVoice SP2はスタンドアロン型でコンピュータ単独で作業が完結する音声認識ソフトであり、VoXTはクラウド型でインターネットを介したサービスである、ということ。

もう一つは、どちらも自社開発の音声認識技術「AmiVoice」を活用しているが、AmiVoice SP2は特定のユーザーの声や話し方を学習して音声認識エンジンを作り上げていくのに対して、VoXTはクラウドサービスなのでさまざまな人の声や話題に対応できるような音声認識エンジンが採用されており、多くの人の声を学習しながら進化していく、ということだ。

そのため、録音音声の文字化を行う場合は、さまざまな人の声や話題に対応できるVoXTのほうが精度のよい結果になるかもしれない。だが、先に述べたようにクラウド型であるVoXTを利用する際には、クラウドサービスであるが故の情報漏えいのリスクが潜んでいることを常に意識したい。

機密情報を含む音声を音声認識により文字化したい場合、またテープ起こしのリライターや企業が、NDAなど秘密保持契約を結んだクライアントの音声を音声認識技術を活用して起こす場合は、スタンドアロン型の音声認識ソフトをおすすめする。

■(参考)音声文字変換結果

【元音声】増税後の消費者物価指数 東京都区部で大幅上昇(14/04/25)

【音声内容】
総務省が発表した4月の東京都区部の消費者物価指数、前の年の同じ時期に比べ2.7%と大幅に上昇した。消費税増税の影響によるものだ。
東京都区部の指数は、来月発表される全国各地の先行指標とされ、政府や日銀の政策判断の材料となるため、注目されていた。
日銀は来年の春ごろに2%の物価上昇を達成するとしている。
ただ、今回の物価上昇は、増税の影響を除くと実質的には増税前の3月と同じ水準だった。総務省は想定内の上昇としているが、日銀のシナリオに沿った上昇が今後も続くか、市場では懐疑的な見方も出ている。

【VoXTでの音声文字変換結果】
VoXTでの音声文字変換結果
※赤線は分かりやすいように誤変換部分を後からマークした(以下同)。

【AmiVoice SP2での音声文字変換結果(ユーザー:なし、辞書:標準(大)使用)】

AmiVoice SP2での音声文字変換結果(ユーザー:なし、辞書:標準(大)使用)

【元音声】小保方氏”反論”会見ノーカット STAP問題で05(14/04/09)

【音声原稿】
なお、この画像取り違いについて小保方さんはですね、えー、データの整理が十分ではなかった、あー、元データを確認しておればこのような取り違いというのは生じなかったというように反省しているところでございます。しかし、調査が不十分であったという点は否めませんので、ねつ造という結論をこの時点で出されたということについては不服でございますので、不服申し立てをしておる、ということでございます。以上が私からの説明でございます。

【VoXTでの音声文字変換結果】
result02_voxt

【AmiVoice SP2での音声文字変換結果(ユーザー:なし、辞書:標準(大)- 汎用音響モデル使用)】
AmiVoice SP2での音声文字変換結果(ユーザー:なし、辞書:標準(大)- 汎用音響モデル使用)

個人的な感想として、音質や内容によって文字変換結果は変わるが、例えば1番目のような聞き取りやすい一般的なニュースの音声であればVoXTでもAmiVoice SP2でもよい結果が得られやすい。YouTubeの自動字幕起こしと比較するのも面白いが、YouTubeでうまく起こせているものは大抵VoXTでもAmiVoice SP2でも起こせると思ってよいように思う。どのような音声だったらうまく起こせるのか、その目安としてYouTubeの自動字幕起こしの精度をチェックするのも参考になりそうだ。

なお、AmiVoice SP2は発売時から比べると、現在はアップデートでマスター辞書「標準(大)」の更新のほか、マスター辞書より汎用性を高めた「標準(大)- 汎用音響モデル」が新たに追加されている。「標準(大)」でうまくいかなくとも「標準(大)- 汎用音響モデル」を使用すると結果がよくなることも多く、AmiVoice SP2の進化を実感している。

余談であるが、AmiVoice SP2の書起しエディターは少し画面が見づらいので、今後のアップデートでVoXTアプリのように見やすくなれば個人的にはうれしい。また、VoXTアプリにあるような音声品質調整機能(特にノイズカット機能)が組み込まれるなど、さらなる進化を期待している。

【参考】VoXTアプリ チュートリアル