「音声認識ソフト等を使って楽にテープ起こしができないか、その方法を模索する」
前回は代表的な音声認識ソフトの「録音音声の書き起こし機能」を使用することで楽にテープ起こしができないかを考察した。結果としては、残念ながらテープ起こしで依頼されるような音声をこの機能によって直接認識させることは仕様的にも難しく、現状ではやはり厳しいという結論に至った。
とはいえ、仕様を満たした音声であればこの機能で問題なく書き起こしはできるので、音声をそのまま直接認識させると厳しいが、認識できるような音声にしてやればいいのではないか、と感じている。
そう考えると、真っ先に思い付く方法としては、やはり自分の声での復唱ではないだろうか。高い精度で認識させるには、それが最良の方法だろう。だが、個人的にはやはり自動的にテープ起こしができたらうれしい。音声認識技術の進化が感じられる今、その技術の利用で何とか楽にテープ起こしはできないものだろうか…。
よって、もう少し「自動で楽にテープ起こしをする」というテーマで引き続き考えてみたい。そこで、今回は自動字幕付与機能に焦点を当ててみることとする。
自動字幕付与機能を使用してテープ起こしはできないか
字幕(じまく)は、皆さんもよくご存じだろう。テレビや映画等の映像において、音声を文字で伝えるものに字幕がある。長い間、生放送番組に対してリアルタイムに字幕を付けることは技術的に困難であったが、それも近年の音声認識技術などの進展によって年々拡充が図られている。
では、その自動字幕付与機能を利用してテープ起こしはできないだろうか?
確かいくつかの動画ソフトなどでもそんな機能があったはずである。身近なもので何か使えるものはないだろうか、いろいろとググってみた。
結果としては……なるほど、YouTubeは使えるかもしれない。
【参考2】Youtubeをインタビューデータの文字起こしに使う
ということで、今回はYouTubeを取り上げてみたい。動画共有サイトのYouTubeをご存じの方は多いと思うが、YouTubeではアップした画像に自動で字幕(キャプション)を付けることができる。この機能は2009年に開始されたが、2011年には日本語にも対応した。
【参考3】YouTube 自動キャプション機能が日本語に対応。音声認識技術を使って日本語の動画に自動で字幕を表示開始
自動で字幕を付与する機能をYouTubeでは「自動キャプション」というが、この自動キャプションはグーグルの音声認識技術を使用し、動画の音声から自動的に字幕を生成するものとなる。グーグルの音声認識技術ということで、その認識の精度にも期待が持てそうだ。
……
いろいろと検証した結果、個人的な結論としては「ものによっては使えなくもない」といったところだろうか。
興味があれば、現在YouTubeにアップされている動画に対しても字幕を見ることができるので、ぜひ実際に見てみてほしい。例えば、テレビ朝日の「ANN NEWS チャンネル」では本日のニュースを字幕付きで見ることができる。
やはり字幕ということで、向いている音声は限られる。認識率の一番高いものは、やはりニュースだろうか。他には記者会見やインタビューでも認識しやすいものであれば、手直しは絶対に必要だが、期待できそうだ。無料で利用できるのもうれしいし、一からテープ起こしをするよりは効率的なものもありそうなので、試してみる価値はあるかもしれない。
【まとめ(YouTube 自動キャプション機能)】
≫全体的な感想
●起こしの精度は「(良)ニュース>朗読>インタビュー・記者会見>会議・座談会(悪)」といった印象だが、話している内容、音質、話し方にもかなり左右される。
※内容によっては意味不明になるほか、逆の意味で認識されることも多いので、校正時には要注意。なお、早口や方言はまったく意味不明の内容になる場合が多い。複数人の言葉がかぶさる音声も、やはり無理である。
●固有名詞の認識は、一般的であればいけるが、基本的に認識はやはり無理である。
●音声によっては字幕を付与できないケースもあり。
≫YouTube 自動キャプション機能の利用について
●テープ起こしではプライバシー設定で必ず「非公開」を設定すること【重要】。
●音声ファイルのままでは利用できないので、適当な画像とくっつけ動画ファイルに変換が必要である。
※変換はYouTubeでも可能。また、Windows XP / Vistaの場合は「Windowsムービーメーカー」という動画編集ソフトが標準で入っている(Vistaは一部のOSで付属、Win7 / 8は必要に応じて「Windows Live ムービーメーカー」を無料ダウンロード可)ので、それも便利で簡単。
●動画は15分(容量2GB)以内という制限あり。設定変更して認証されたユーザは15分以上の動画もアップロード可能(12時間20GB以内)。
●音声によっては認識できず、字幕を付与できないケースもある(ノイズや音のこもりがある音声に多い感じがした)。
●字幕は、captions.sbvというファイルでダウンロード可能。タイムコード情報を含むテキストファイルなので、通常のテキストエディタでも開くことができる。
キャプション付与の方法としては、最初に挙げた【参考2】や次の【参考4】【参考5】のページが参考になった。
【参考4】YouTube:字幕と文字起こし
【参考5】YouTube:アップロードの詳細
……
今回いろいろな動画の字幕を見ていると、一部分ではあろうが音声認識精度の現状が見えてくるような気がした。やはりまだまだ難しい部分は多々あり、テープ起こしを楽にするためには、基本に戻ってしまうが、まず音質であれ話し方であれ人間側が録音時に注意し、認識しやすい音声にしてやることが一番なのだろう。
「自動で楽に」というのは難しいようだが、自動でなくとも音声認識を使って「楽にテープ起こしをする」には、どのような方法が効率的なのだろうか。次回はそれをテーマに考えてみたい。
次回に続く