音声認識を使って効率的にテープ起こしをする、現在の個人的おすすめ(2)

「“音声認識を使って効率的にテープ起こしをする”をテーマに、現在の代表的な音声認識ソフトやサービス、テープ起こしをする際におすすめのもの、音声認識を使ってテープ起こしを効率的にする方法などについて、まとめる」

【 コンテンツ 】
(1)いろいろとある音声認識ソフトやサービス。代表的なものと、その特徴
(2)テープ起こしにはどれがおすすめ? 仕事編
(2-a)ドラゴンスピーチ11、AmiVoice SP2などの特徴と、その比較
(予定)(3)テープ起こしにはどれがおすすめ? その他
(予定)(4)音声認識を使ってテープ起こしを効率的にする方法とは


(2-a)ドラゴンスピーチ11、AmiVoice SP2などの特徴と、その比較



前回、音声認識を使ってテープ起こしをしたいという場合、仕事では機密情報を含んだ音声を扱うことも多いことから、音声認識ソフトやサービスは基本的にオフライン(スタンドアロン)で使えるものをおすすめした。代表的なものは次の4つであるが、ここではその特徴や使用上のポイント、比較などをまとめる。

table-02a-1

【Mac音声認識】
Macにデフォルトで搭載されている音声認識。オフライン(スタンドアロン)で使用するには、システムの音声入力の設定で「拡張音声入力」をオンにしよう(辞書データ等がダウンロードされる)。なお、ユーザー辞書の存在は(たぶんあるのだと思うが)不明。

[修正について]誤変換部分は選択するとプルダウンで候補が表示されるが、正しいものの候補がない場合はキーボードで修正する。音声での修正は現在できない。

【Windows音声認識】
Windowsにデフォルトで搭載されている音声認識。オプションの「ディクテーションパネルを有効にする」がオンの場合、音声が認識されるごとにパネルで候補一覧が表示されるので、連続入力するにはオフにしておくこと。トレーニングすると認識精度が向上するので、可能な限り行おう。うまく認識されない場合は、マイクのセットアップもチェックする。

[起動直後のコツ]マシンのスペックやメモリ使用状況にもよるが、起動に少し時間がかかる。初めは「音声認識を開始します」という表示から「オフ」に切り替わるまでまずは待つこと。そして、マイクをオンにしたら「聞き取ります」という表示が出るまで待つこと。動作を急かすとビジー状態になりやすい。

[修正について]誤変換部分は音声で修正可能。修正時に出る代替パネルで正しいものが候補にない場合、言い直すことで再度候補を表示できる。ただし、何度言い直しても認識してくれない場合は、学習させるか、キーボードで修正するしかない。学習させるにはユーザー辞書(音声辞書)に単語を登録する。音声辞書では単語と音声の紐づけが可能だ。

【Windows音声認識での修正イメージ】

【Windows音声認識での修正イメージ】

【ドラゴンスピーチ11】
ニュアンス・コミュニケーションズの音声認識ソフトで、有名どころの一つ。ユーザー情報(性別・年齢・マイク設定等の基礎データや音響・辞書・学習データなど)はプロファイルで管理し、必要に応じてプロファイルを複数作り切り替えて使っていく点が特徴。トレーニングすると認識精度が向上するので行うこと。単語管理できるボキャブラリエディタが便利。

[修正について]誤変換部分はWindows音声認識と同じように音声で修正可能。さらにドラゴンスピーチ11の場合は、正しいものが候補になく、また何度言い直しても認識してくれない場合、修正ボックスの入力欄にテキストを入力することもできるので、それで学習させることが可能。かつ、トレーニングすることでその内容に音声を紐づけることもできる。

【ドラゴンスピーチ11での修正イメージ】

【ドラゴンスピーチ11での修正イメージ】

[録音音声の文字化機能について]表の項目についてはドラゴンスピーチ11のみ全て○だが、自分用の音声認識ソフトという位置付けなので、「録音音声の文字化」機能については使用中のプロファイルに該当した音声でなければ、ほぼ使い物にならない。ただし、逆にプロファイルに合った音声であれば、音声入力も録音音声の文字化も高精度で起こしてくれるので、使い方次第だ。

【AmiVoice SP2】
アドバンスト・メディアの音声認識ソフトで、ドラゴンスピーチ11と人気を二分する有名どころの一つ。このソフトは、不特定話者対応と、辞書の豊富さ、そしてアップデートモジュールが定期的に提供されているという点が特徴だ。また、基本的にドラゴンスピーチ11よりも動作が軽い。

[修正について]誤変換部分の修正は、対応エディタでは選択するとプルダウンで候補が表示されるので、そこから正しいものを選択可能。正しいものが候補にない場合、キーボードで修正する。音声での修正は現在できない。また、結果は認識された単語ごとに区切られている。例えば次のように「ご」「変換」と認識されているような場合、「誤変換」としたければキーボードで修正する。

【AmiVoice SP2での修正イメージ】

【AmiVoice SP2での修正イメージ】

認識されない単語やこの区切りをうまく認識させていくには、ユーザー辞書に単語を登録していくことになる。ユーザー辞書では、単語の読みは入力できるが、音声の紐づけはできない。また、読みの形式に関しては少しコツがある(ヘルプに記載あり)。

単語を登録する際には「テキスト学習」機能をうまく使うと便利だが、やみくもに単語を学習させてもユーザー辞書の容量が増え、逆に精度や動作の低下につながってしまう場合があるので注意。必要に応じてユーザーを複数作って辞書を分けて管理するなど、学習のさせ方などはよく考えたほうがいい。

[録音音声の文字化機能について]このソフトは不特定話者対応というその特徴から、今はうまく起こせない録音音声も将来的には音質がある程度よければ高精度で起こしていけるようになるのかもしれないという期待を抱かせる。ただ、ドラゴンスピーチ11と同様、今はまだこの機能でうまく起こせるのは一部の音声に限られるという現状だ。

■ドラゴンスピーチ11とAmiVoice SP2の比較

それぞれの主な特徴は上記のとおり。まずは気軽に試せるMacやWindowsの音声入力を使ってみるといいだろう。ドラゴンスピーチ11とAmiVoice SP2は、ちょっとお値段が高めだが、やはり専用の音声認識ソフトなだけあって高性能だ。ではどちらがいいのかというのはよく取り上げられる話題であるが、それぞれ一長一短であり、一概には言えない。ここでは両ソフトについて、その特徴を次にまとめてみたい。

table-02a-1

個人的な感想としては、AmiVoice SP2は不特定話者対応ということもあり基本的に誰が話しても初めから高精度で使えるだけでなく、定期的にアップデートモジュールが提供されている点が魅力。例えば新語・流行語も定期的に追加されている。また、ダウンロード版、無料体験版があることもうれしい点だ。

ただ、AmiVoice SP2は修正面が本当に残念なところで、学習につながる修正がしにくく、同じ間違いをしがち。そのためユーザー辞書に単語を登録していくことで対応していくことも多いが、やみくもに単語を登録すると逆に精度や動作の低下につながってしまう場合もあるので、そこは注意して使っていきたい。

ドラゴンスピーチ11は、こちらも精度は悪くないが、認識精度を高めるためにトレーニングはちゃんと行ったほうがいい。AmiVoice SP2のほうが動作は軽くアップデートも定期的にあるので安心できるが、ドラゴンスピーチ11のほうが使い勝手はよいように感じる。ドラゴンスピーチ11は修正方法が豊富で修正内容を学習させやすい点と、ボキャブラリエディタでユーザーが登録した単語だけでなく辞書全体での単語管理ができる点を個人的には評価している。

動作が軽く定期的なアップデートが魅力的なAmiVoice SP2か、辞書のカスタマイズが可能で学習につながる修正がしやすいドラゴンスピーチ11か、といった感じだろうか。ドラゴンスピーチ11での辞書のカスタマイズについては「(4)音声認識を使ってテープ起こしを効率的にする方法とは」で取り上げる予定だ。

次回に続く

カテゴリー: 音声認識/音声入力 | コメントは受け付けていません。
  • 記事の大部分はそれに関係する企業の公開情報などに基づいていますが、「考えられる」「思われる」など、筆者の推測も多く含まれています。また、推測が事実とは異なる場合もあり、必要に応じて記事の内容を修正することがありますので、あらかじめご了承ください。

    筆者 秋月

    現在東京反訳でテープ起こしのリライターとしても活動しており、音声認識に関わることを日々調査・研究中。音声認識ラボでは音声認識に関する情報や、1ユーザーとして実際に使用や調査した音声認識ソフト/サービスについてのレビューなどを紹介していきます。

    ●御意見がございましたらこちらまで対象記事タイトルを記載の上お送り下さい。