音声認識を使って効率的にテープ起こしをする、現在の個人的おすすめ(3)

「“音声認識を使って効率的にテープ起こしをする”をテーマに、現在の代表的な音声認識ソフトやサービス、テープ起こしをする際におすすめのもの、音声認識を使ってテープ起こしを効率的にする方法などについて、まとめる」

【 コンテンツ 】
(1)いろいろとある音声認識ソフトやサービス。代表的なものと、その特徴
(2)テープ起こしにはどれがおすすめ? 仕事編
(2-a)ドラゴンスピーチ11、AmiVoice SP2などの特徴と、その比較
(3)テープ起こしにはどれがおすすめ? その他
(予定)(4)音声認識を使ってテープ起こしを効率的にする方法とは


(3)テープ起こしにはどれがおすすめ? その他


次の表は(1)でも紹介した、代表的な音声認識ソフトやサービスをまとめたものだ。スタンドアロン型のものだと選択肢は少なく対応環境も限られるが、クラウド型のものも含めるとユーザーは多くの選択肢からその環境や用途に合ったものをチョイスできるようになる。

table-01new

機密情報を含んだ音声を起こす場合は(2)で述べたように基本的にオフラインで音声認識が使えるスタンドアロン型のものをおすすめするが、クラウド型のものはその仕組みからスタンドアロン型のものより高精度な認識が期待できるだけでなく、無料あるいは安価で使用できるものも多い。特に機密情報を含んだ音声でもなく、またクラウド型の音声認識を使っても問題ないという場合は、クラウド型のものもうまく使っていくといいだろう。

■録音音声の文字化機能を備えたVoXTセルフとVoice Rep Pro 2

音声認識を使ってテープ起こしをする場合、方法としては【1】音声認識で自動的に録音音声を文字化する、【2】自分で録音した音声を聞きながらリスピーク(復唱)することによって音声入力で文字化するという2通りがあるが、ユーザーとしては【1】の方法で音声認識を使うことによって録音音声を自動かつ高精度で文字化できればうれしい限りだ。

録音音声を自動で文字化できる「録音音声の文字化」機能は、スタンドアロン型ではドラゴンスピーチ11とAmiVoice SP2、クラウド型ではVoXTセルフとVoice Rep Pro 2に備わっている。

ただ、現状としてこれら一般的な音声認識ソフトやサービスを使うことで録音音声の自動かつ高精度な文字化が可能かというと、将来はどうなるか分からないが、現時点では「音声認識に適した音声」でなければ実用レベルの認識精度は得られない。また、音質の良し悪しのほか、その精度は話者の話し方や話す内容などによっても変わってくる。

※音声認識に適した音声とは:例えば発話者の口元とマイクの距離が近くはっきりとした音声で録音されており、周囲のノイズがほとんどない状態の、音質が良いもの。

特にスタンドアロン型のドラゴンスピーチ11とAmiVoice SP2の音声認識エンジンは両方ともユーザー個人を学習して成長していくものなので、基本的にそれに合った音声でなければこの機能で実用レベルの結果を得るのは難しい。よって、両ソフトを使用してテープ起こしをする場合、これらの音声認識に適した音声でなければ大抵は【2】の方法(復唱)で対応していくことになるだろう(詳細は後述(4)予定)。

【参考】気になる音声認識ソフト/サービスの音声認識精度等の現況、最新レポート(2)- 2015/12/01

VoXTセルフとVoice Rep Pro 2においても録音音声の文字化機能で実用レベルの認識精度を得るにはまだ音声を選ぶ現状だが、これらはクラウド型でどちらもディープラーニング技術が導入されており、音声認識エンジンは多くの人の声や話し方などを学習しながら日々進化していくのが特徴。

そのため、例えばVoXTセルフとAmiVoice SP2はどちらもアドバンスト・メディアの音声認識エンジンだが、同じ録音音声を認識させても基本的にはVoXTセルフのほうが高精度で仕上がる。録音音声を自動で文字化したいという場合、特に複数人数の会議やインタビューなどの音声の場合は、クラウド型の音声認識で試してみるといいだろう。ただし、機密情報を含んだ音声の場合は利用の検討をおすすめする((2)参照)。

VoXTセルフのよいところは、録音音声の文字化の際に1分間だが録音音声のお試し文字変換を無料で行えるという点だ。また、1つの音声ファイルで2回まで試せるのもポイント。長い音声であれば音声の最初と途中など違う時間帯でお試し変換をしてみることで、その音声がどの程度の精度で文字化可能かどうかをより見極めやすくなる。有効に活用したいサービスだ。

voxt

Voice Rep Pro 2は、グーグルの音声認識エンジンを採用したクラウド型の音声認識ソフト。グーグルの音声認識精度は今も非常い高いが、音声認識エンジンはまだまだ成長中だ。前バージョンのVoice Rep Proでは音声認識のレスポンスが悪く認識結果が飛んでしまうこともあったが、Ver.2.0では音声認識の処理が間に合うように改善されている。

なお、こちらは録音音声の文字化機能の体験版はないが、マイクによる音声認識は体験版ページから体験が可能だ。

voice-rep-pro2

■音声入力機能あり、無料で使えるGoogleドキュメント

Googleドキュメントは、PC、スマホ、タブレットのどの環境からでも利用できる、グーグルが提供する無料のワープロソフトだ。音声入力機能が付いており、音声で文章を作成していくことができる。

音声認識の精度は、先ほども述べたが非常に高い。音声コマンドは、現在日本語版は未対応だが英語版には対応しているので、そのうち対応すると思われる。また、音声入力の結果で灰色の下線が付いた単語は右クリックすると修正の候補が表示される。

Googleドキュメントを使うにはアカウントが必要なので、ない場合は取得しよう。音声入力は、PCではChromeブラウザで使用可能だ。

Googleドキュメントを使うにはアカウントが必要なので、ない場合は取得しよう。音声入力は、PCではChromeブラウザで使用可能だ。

なお、基本的に音声認識のレスポンスは速くサクサク音声で入力できるのだが、たまに音声入力している途中、マイクはオンでも音声入力できなくなることがある。前はそれが2分弱でよく起こっていたので入力時間制限があるのかなと思っていたのだが、今使ってみると5分以上音声入力し続けることができるので、どうやらサーバーのレスポンスの問題のようだ。

■グーグルの音声認識エンジンを使用したVoice Rep Pro 2とGoogleドキュメントの違い

Voice Rep Pro 2とGoogleドキュメントでは、どちらもグーグルの音声認識エンジンを使用して音声認識を行うため、基本的に認識精度自体に違いはない(レスポンスの問題や話し方などで結果に違いは出てくるだろうが)。ただ、使い勝手の面や機能で少し違いがあるので、主なところを次にまとめておく。

※Voice Rep Pro 2の特徴
有料、音声入力機能、録音音声の文字化機能あり、Windowsのみに対応・Chromeブラウザが必要、音声認識はChromeブラウザ内で行い認識結果をメイン画面に転送する仕組み、修正機能は特になし、句読点の自動挿入と数値表記の自動変換が可能

※Googleドキュメントの特徴
無料、音声入力機能、スマホ・タブレット・PC(Chrome)に対応、ドキュメント内で(直接)音声入力が可能、灰色の下線が付いた単語は修正候補の表示が可能

※Voice Rep Pro 2とGoogleドキュメントに共通の内容
グーグルの音声認識エンジンを使用、ユーザー辞書なし、音声コマンド日本語未対応(2017年1月時点)

なお、Googleドキュメントに録音音声の文字化機能はないが、録音音声の文字化はVoice Rep Pro 2の仕組みのようにステレオミキサーを使用してPC上の音を認識させるという手もあり。ただ、認識させる録音音声の質が重要で、それが認識精度に大きく影響するのはGoogleドキュメントも同じだ。

現在はさまざまな音声認識ソフトやサービスがあり、クラウド型の音声認識まで含めるとその選択肢は一気に広がる。いろいろと試して自分の環境や用途や好みに合うものを見つけてほしい。どんな音声認識ソフト/サービスをどのように使うかは人それぞれだが、次回は音声認識を使ってテープ起こしを効率的にする方法について、現在自分が使用しているソフトなども紹介しつつ、まとめたいと思う。

次回に続く

カテゴリー: 音声認識/音声入力 | コメントは受け付けていません。
  • 記事の大部分はそれに関係する企業の公開情報などに基づいていますが、「考えられる」「思われる」など、筆者の推測も多く含まれています。また、推測が事実とは異なる場合もあり、必要に応じて記事の内容を修正することがありますので、あらかじめご了承ください。

    筆者 秋月

    現在東京反訳でテープ起こしのリライターとしても活動しており、音声認識に関わることを日々調査・研究中。音声認識ラボでは音声認識に関する情報や、1ユーザーとして実際に使用や調査した音声認識ソフト/サービスについてのレビューなどを紹介していきます。

    ●御意見がございましたらこちらまで対象記事タイトルを記載の上お送り下さい。