Web会議ツールは無料版から有料版までいろいろとあるが、まだ音声・ビデオ会議の日本語でのライブ自動文字起こしや字幕表示には対応していないツールも多い。例えば人気のZoomでも音声認識による日本語ライブ自動文字起こしや字幕表示は対応が待たれる現状だ。
そこで今回は、ZoomなどのWeb会議ツールと併用可能な、Web会議での発話をリアルタイムで文字に書き起こせる便利ツールを2つ紹介したいと思う。どちらも個人の方が開発されたツールで、ソースコードはGitHubで公開されている。実際にWeb会議で使う際にはどう取り入れるかなど初めにいろいろと試めす必要があるかもしれないが、興味があればこれをきっかけにいろいろと試行錯誤してみてはいかがだろうか。
【目次】
音声認識で会話ログが取れるサービス「議事ロック」
Webカメラの映像に自動字幕を重ねるWebページ「Speech to Text Webcam Overlay」
「議事ロック」
議事ロックは、音声認識で会話内容をテキストログ化できるチャットツール。議事ロックを使えば、作成したチャットルームに接続しているメンバーの発話をリアルタイムで文字化しルーム内にチャット形式で表示できるので、Web会議のときに併用して使えば、会話の流れを時系列で見ることができ、便利だ。
ホスト(主催者)の画面。上部バーはホストの画面にのみ表示される(ホストのみ操作可能)。
議事ロック(https://skybeje.net/gijilock/)にアクセスすると、簡易チャットルームがすぐに作られるので、ホストは招待URL(ルームURL)をコピーし、参加メンバーに連絡する。メンバーはPC版のGoogle Chromeで招待URLのページを開くだけでチャットに参加可能。音声認識をオンにしておけば、会話がリアルタイムで文字化、ルームに表示される。キーボードから文字入力してメッセージ送信も可能だ。
ホストは、会話(チャット)ログの「CSV出力」および「メッセージクリア」を行える。
ホストは会話ログを出力できる。「CSV出力」ボタンを押すと、日時とユーザーID(話者)と会話内容が紐づけられた状態で、区切り文字付きテキストファイル(.txt)で出力される。
また、会話ログはブラウザに記録(IndexedDBに保存)されている。チャット終了後は「メッセージクリア」ボタンで消去可能だ。
- ※共有PCを使っている場合は注意。忘れずに消去しておこう。
- ※補足:IndexedDBの情報を確認したい場合は、Google Chromeではデベロッパーツール(WinではF12)で可能だ([Application] パネルで確認できる。必要な場合は削除等の操作も可能 ※ただし自己責任で)。
【参考】ストレージ、データベース、およびキャッシュの調査と管理 | Tools for Web Developers
【参考】ChromeのIndexedDB(2.0)に、限界までデータを登録してみました – Skyway Walker
https://skybeje.net/gijilock/
- 音声認識(Web Speech API)とNTTコミュニケーションズのSkyWayを使用
- PC版のGoogle Chromeブラウザでのみ使用可能
- 会話(チャット)ログはブラウザに記録される(IndexedDBに保存、メッセージクリアボタンで消去可能、ホストのみ)
【開発者】iwatendo (id:iwatendo)
≫ 音声通話やビデオ通話と併用して、音声認識で会話ログが取れるサービスを作ってみました – Skyway Walkers
「Speech to Text Webcam Overlay」
パソコンでGoogle ChromeブラウザからこのWebページ(Speech to Text Webcam Overlay)にアクセスし、カメラとマイクをオンにして話すだけで、話した内容をリアルタイムで文字化し、Webカメラの映像上に字幕として重ねてくれるシステム。
Web会議の際にブラウザを画面共有すれば、字幕付きで参加できる。字幕はサイズや位置なども細かく設定可能で、翻訳にも対応している。また、音声認識結果のログはテキストファイルで保存できるので、議事録の作成や会議記録として生かすことが可能だ。
https://1heisuzuki.github.io/speech-to-text-webcam-overlay/
動作環境としては、Android端末のChromeブラウザでも動きはするが、話さずにいるとマイクのオン/オフが繰り返されるためその切替音が鳴り続く状態になってしまう。また、それを避けるために手動でマイクのオン/オフを切り替える場合、ページの再読み込みが必要となるので認識結果のログが消えてしまう。今のところ使い勝手がよいとは言えないので、個人的にはPC版Chromeでの使用をおすすめしたい。
テキストファイルで保存された音声認識結果のログ。ずらずらと認識テキストが並ぶ感じになるが、日本語の音声認識の場合は文末に句点が付与される。
なお、音声認識結果を修正したい場合、認識結果のログは修正可能だが、合成画面上での編集(出力された字幕の修正)については現在未実装となっている。※直接の情報はないかもしれないが、Twitterでいろいろと開発提案や関連内容がやりとりされているので、興味がある方はチェックしてみると参考になるかも。
音声認識からWebカメラ映像への字幕合成までをGoogle Chrome だけでやってくれるWebページをつくってみました! #xDiversity
ブラウザを画面共有 or OBS等でキャプチャーすればビデオ会議に字幕付きで参加できます。
↓Webページhttps://t.co/xlGX4jkIJn pic.twitter.com/Y1ju1wfUvq
— Ippei Suzuki (@1heisuzuki) May 20, 2020
ここ数日、Twitterでは自動音声認識による字幕付き配信を行う方法が話題になっていた。そのきっかけは落合陽一(@ochyai)さんが投稿した動画からのようで、そこから今回紹介した開発者のように触発されて開発してみる方がいたり、いろいろと提案がなされたり……と広がりを見せている。なお、この話題から、他には例えばPC+iPhone+無料ツールで字幕付きZoomや配信をする方法を試して詳しく紹介してくれている方なども。
https://1heisuzuki.github.io/speech-to-text-webcam-overlay/
- 音声認識:Web Speech APIを採用
- Google Chrome[PC、Android]で利用可能(個人的にはPC版がおすすめ)
- よくある質問・ソースコード:GitHub
【開発者】Ippei Suzuki(@1heisuzuki)
≫ GitHub – 1heisuzuki/speech-to-text-webcam-overlay: Web Speech APIで音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ