音声入力の機能しかなくても録音音声の文字化を無料で簡単に行う方法


WindowsやMacで音声認識を使って録音音声を文字化したいと思っても、無料で使えるものには音声入力の機能しかなく、それで録音音声の文字化を試してもうまく認識されなくて、残念に思ったことはないだろうか。

そんなときにはこの方法をお試しあれ。うまく文字化できるかどうかは音声によるが、音声認識に適した音声であれば、録音音声でも音声入力の機能を使ってサクサク文字化を行うことが可能だ。

なお、今回の内容は次のエントリーの補足となるので、興味のある方はこちらもどうぞ。
【参考】音声認識を使って効率的にテープ起こしをする、現在の個人的おすすめ
Googleドキュメントについては(3)を参照。


まずは音声入力で録音音声がうまく認識できるように設定しよう


今はさまざまな音声認識ソフト/アプリ/サービスがあるが、長時間の音声を扱ったり例えばその後に修正等をして納品物として仕上げたりするのは、やはりパソコンで作業したい場合が多いだろう。ただ、WindowsやMacで音声認識を使って録音音声を文字化したい場合、「録音音声の文字化」機能があればそれを利用すればいいが、残念なことに無料のものには大抵この機能が備わっていない。例えば、無料で使えるものではGoogleドキュメントが音声認識精度も高くおすすめだが、「音声入力」機能しかない。

Googleドキュメントの画面イメージ。

音声入力の機能を使うとマイクに向かって話すことで音声を文字化できるので便利なのだが、音声入力で録音音声を認識させようとしても、そのままでは基本的にうまく認識されない。パソコンのスピーカーから再生される音声をマイクがうまく拾えないからだ。

そこで裏技として、音声入力の機能を使って録音音声を文字化したい場合はステレオミキサーを使うといい。ステレオミキサーはざっくり言うとパソコンの音声を録音・配信したい場合などに使われる機能だが、ステレオミキサーを使うことで音声入力の際にパソコンの再生音を直接(スピーカーを通さずマシン内で)認識させることができるようになる。

実際に音声入力で録音音声の文字化を試した動画がこちら。ステレオミキサーを使うと音声入力の機能でも録音音声をうまく拾えるようになる。

なお、Windowsではステレオミキサー(ステミキ)といわれているが、Macにはいわゆるステミキという機能はなく、Soundflower、LadioCastといったソフトウエアを導入することで似た環境が構築できるようだ。

Windowsでもパソコンによってはステミキが搭載されていない場合があるので、まずはステレオミキサーが搭載されているかどうかをチェックしよう。

■ステレオミキサーの確認方法

Windowsでステレオミキサーが搭載されているかどうかは[サウンド]の[録音]タブで確認できる。画面右下、タスクトレイのスピーカーアイコンを右クリックして「録音デバイス」を選択すると、[サウンド]の[録音]タブを開くことができる。

※以下、画面キャプチャは全てWindows7で撮ったものだが、Windows 10でも特に大きな変更はない。

[録音]タブは、コントロールパネルから[ハードウェアとサウンド]→[サウンド]→[録音]でも表示可能。

[録音]タブの一覧に「ステレオミキサー」が表示されていない場合は、一覧(領域)の何も表示されていない部分を右クリックし、表示されるメニューから[無効なデバイスの表示]を選択してオンにする(チェックが付く)。ステレオミキサーが搭載されている場合は、一覧に表示される。

名称は「ステレオミキサー」のほか、「ステレオミックス」、「再生リダイレクト」、「WAVE 出力ミックス」など、パソコンによって違う場合がある。

[無効なデバイスの表示]をオンにしても表示されない場合は、残念ながらパソコンにステレオミキサーが搭載されていない。その場合は、外付けや仮想ステミキの導入を検討するといいだろう。

●サウンドカードを確認してドライバをアップデートしてみると、デバイスが追加されるケースがある。
●Windows付属のドライバ(High Definitionのみの表示)で動作している場合は、対応するサウンドカードのメーカー製のドライバをインストールしてみるという方法もあるよう。
●仮想ステミキを導入する。
●オーディオケーブルを用いる、あるいはUSBのステレオミキサーを用いる。

■ステレオミキサーの設定方法

[録音]タブの一覧に「ステレオミキサー」が表示されたら、「ステレオミキサー」で右クリックし、表示されるメニューから[有効]を選択する。

そうするとステレオミキサーが有効になるが、「ステレオミキサー」に緑のチェックが付いていない場合は、再度「ステレオミキサー」を右クリックし、表示されるメニューから[既定のデバイスとして設定」を選択する。

「ステレオミキサー」に緑のチェックが付き、「既定のデバイス」と表示されていればOK。

続いて、「ステレオミキサー」を選択し、右下の[プロパティ]ボタンをクリックすると[ステレオミキサーのプロパティ]が表示されるので、[レベル]タブを選択する。ここでステレオミキサーの音量を設定できる(スライダーを右に動かすと音量が大きくなる)。

[ステレオミキサーのプロパティ]は、「ステレオミキサー」を右クリックし、表示されるメニューから[プロパティ]を選択しても表示可能。あるいは、「ステレオミキサー」をダブルクリックすることでも表示できる。

録音音声の文字化がうまくされない場合は、音量が小さ過ぎることがよくあるので、[レベル]タブでステレオミキサーの音量を大きくして再度チャレンジしてみよう。

[レベル]タブでステレオミキサーの音量を設定したら、[OK]ボタンを選択する。[サウンド]画面に戻るので、[OK]ボタンを選択する。以上で設定は終了だ。


Googleドキュメントの「音声入力」機能で録音音声の文字化を試してみよう


Googleドキュメントにアクセスし、ドキュメントを作成あるいは開く(Googleアカウントを持っていない場合は先にアカウントを作成しよう)。[ツール]から[音声入力]を選択すると、マイクボタンが表示される。クリックするとマイクがオンになるので、録音音声を再生してみよう。ステレオミキサーを使うと、音声入力の機能でも録音音声をうまく拾えるようになる。

■Googleドキュメントの音声入力を使って録音音声の文字化を行う際のコツや注意点など

●音声入力のマイクをオンにした後に、音声を再生しようと例えばウインドウを切り替えたりクリックでプレーヤーの再生ボタンを押したりすると、マイクはオフになってしまう。よって、音声の再生ソフトはショートカットキーで操作できるもの(例えばOkoshiyasu2など)がおすすめだ。

●マイクはオンでも音声入力できなくなっていることがある(サーバーのレスポンスの問題か、制限か、原因は不明)。よって、マイクをオンにして録音音声を再生すれば後は放っておくと文字化完了……というわけにはいかないので注意。うまく音声を起こすには状況を見ながら必要に応じてマイクのオン/オフ、音声の再生/停止を行う必要がある。

●Googleドキュメントは無料で使えるだけでなく認識精度も高いので非常に有用だが、ユーザーは無料で使える代わりに音声データなど多くの情報を対価として渡していることを意識しておきたい。これはGoogleドキュメントに限らず、クラウド型のサービスでいえることだ。よって、精度の面ではクラウド型に劣るが、機密情報を含んだ音声を扱う場合はスタンドアロン型の音声認識を使うことをおすすめする。

なお、ここではGoogleドキュメントを取り上げたが、音声入力の機能があるものなら(認識精度は使うものによって変わるが)この方法で録音音声の文字化が可能になる。


この方法で録音音声の文字化がうまくいかない場合に考えられること


●音声の状態(音質等)が音声認識に適していない。

現時点では「音声認識に適した音声」でなければ実用レベルの認識精度を得るのはまだ難しい。冒頭で述べたように、うまく文字化できるかどうかは音声によるので、文字化はされるが誤変換が多い、途切れた結果になるといった場合は、さっさと諦めて別の方法に切り替えよう。

※音声認識に適した音声とは:発話者の口元とマイクの距離が近くはっきりとした音声で録音されており、周囲のノイズがほとんどない状態の、音質が良いもの、が理想だ。

●ステレオミキサーが「既定のデバイス」になっていない。

何も結果が返ってこないという場合は、[サウンド]の[録音]タブで、「ステレオミキサー」に緑のチェックが付き「既定のデバイス」となっているかを確認してみる。

●ステレオミキサーの音量レベルが適切でないため、うまく認識できていない。

何も結果が返ってこない、あるいは文字化はされても途切れた結果になるという場合は、[ステレオミキサーのプロパティ]の[レベル]タブで、ステレオミキサーの音量が小さ過ぎないかを確認してみる。音量を最大の100(スライダーを一番右)に設定して録音音声の文字化を試してみるのも一つの手だ。

なお、話者の話し方が早口だったり、抑揚があったり、語尾が聞こえづらかったり、そういった音声の場合も途切れた結果になりやすい。

●マイクがオンになっていない、マシンあるいはソフトやサービス等がビジー状態になっていることも考えられる。

……等々。

この方法を試す場合は、まずは「音声認識に適した音声」を用意して、ステレオミキサーが正常に機能していることを確認しよう。そうしておくと、うまくいかない原因を特定しやすくなる。その上でうまくいかない場合はGoogleドキュメントのようにマイクはオンなのに音声入力できなくなっているといったことなども考えられるが、大抵はやはり音声によるところが大きいだろう。

うまく文字化できるかどうかは音声によるので実際に試してみるしかないが、例えばGoogleドキュメントでは多少ノイズがあっても人間が「聞きやすいな」と思う音声の場合は結構起こしてくれたりもする。駄目ならさっさと諦めたほうがいいが、うまくいけばラッキーくらいの気持ちで、まずは試してみる価値はある。

【参考】パソコンで流れる音を録音する方法(ステレオミキサー)<Windows(R)7>


カテゴリー: 音声認識/音声入力 | コメントは受け付けていません。
  • 記事の大部分はそれに関係する企業の公開情報などに基づいていますが、「考えられる」「思われる」など、筆者の推測も多く含まれています。また、推測が事実とは異なる場合もあり、必要に応じて記事の内容を修正することがありますので、あらかじめご了承ください。

    筆者 秋月

    現在東京反訳でテープ起こしのリライターとしても活動しており、音声認識に関わることを日々調査・研究中。音声認識ラボでは音声認識に関する情報や、1ユーザーとして実際に使用や調査した音声認識ソフト/サービスについてのレビューなどを紹介していきます。

    ●御意見がございましたらこちらまで対象記事タイトルを記載の上お送り下さい。