同時発言も話者を特定した形でテキスト化。気になる「LiveTalk」の機能や特徴を紹介する

同時発言も話者を特定した形でテキスト化。気になる「LiveTalk」の機能や特徴を紹介する

「2015年4月14日に発表された「FUJITSU Software LiveTalk」。その特徴からコミュニケーションツールとしてだけでなく、議事録作成といった用途で使える可能性も秘めており、今後の進化が期待される製品だ。先日のデモを踏まえてその機能や特徴を紹介する」


「FUJITSU Software LiveTalk」(以下、LiveTalk)は、富士通と富士通ソーシアルサイエンスラボラトリ(富士通SSL)が共同開発した聴覚障がい者参加型コミュニケーションツール。会議や授業など複数人が情報を共有する場において、発話者の発言を音声認識し、即時テキストに自動変換して複数のパソコン画面に表示することで、聴覚障がい者を含む参加者全員がリアルタイムに情報を共有できるソフトウエアだ。

最大の特徴は、複数人の同時発言も話者を特定した形で時系列にテキスト表示できることだろう。その特徴からコミュニケーションツールとしてだけでなく、議事録作成といった用途で使える可能性も秘めている「LiveTalk」に興味を持っている企業も多いよう。今回は、先日デモをしていただいたので、「LiveTalk」の機能や特徴などをまとめ、紹介したい。

■聴覚障がい者参加型コミュニケーションツール「LiveTalk」とは

demo0518-01
「LiveTalk」のデモの様子

「LiveTalk」は、聴覚障がい者を含む参加者全員の双方向コミュニケーションを実現するソフトウエアだ。アドバンスト・メディアの音声認識ソフトウエア「Amivoice® SP2」(以下、Amivoice SP2)を組み合わせて使用する。

参加者が発言すると、まずその発言は「Amivoice SP2」によってテキスト化され、そのテキスト化された内容を「LiveTalk」が参加者全員の端末にリアルタイムで送信する。その結果、全ての発言が参加者の端末の画面上に話者が特定された形で時系列に表示されるため、参加者全員が同じ情報を共有でき、話の流れを正確につかむことができるようになる。

複数人が同時に発言した場合も「Amivoice SP2」によるテキスト化は個々の端末で行われるので、複数人の発言を明確に分離した上で時系列にテキスト表示できるのが特徴。発言が誤変換された場合はキーボードで修正もできる。音声入力だけでなく、キーボード入力、イラストを使ったスタンプ入力、定型文でのテキスト入力も可能だ。テキストチャットを行うような感覚で、参加者全員がリアルタイムに話を共有しながらコミュニケーションできる。

■「LiveTalk」を使用するために必要なもの

「LiveTalk」以外に、次のものが必要となる。

  • 動作環境を満たしている端末(パソコンあるいはタブレット)
  • アドバンスト・メディアの音声認識ソフトウエア「Amivoice SP2」
  • マイク
  • 無線アクセス機器(Wi-Fiルータ)

■「LiveTalk」使用時の接続イメージと流れ

g2-14台のパソコンで「LiveTalk」を使用する場合の接続イメージ(出典:富士通SSL)

流れとしては、まず参加者のパソコンに「LiveTalk」と「Amivoice SP2」をインストールし、ユーザー設定など必要な事前設定をしておく。なお、「Amivoice SP2」のインストールは発言する人の端末のみでよい。

参加者のパソコンを同一の無線LANに接続する。発言する人のパソコンにマイクを接続する。「LiveTalk」を起動し、ログインする(「LiveTalk」を起動すると「Amivoice SP2」も一緒に立ち上がる)。

発言する際はマイクを使う。マイクに話し掛けると、その発言は「Amivoice SP2」によりテキスト化され、その内容が「LiveTalk」によってリアルタイムに参加者全員の端末に送信される。

こちらが「LiveTalk」の画面だ。


「LiveTalk」の画面(出典:富士通SSL)

  1. 発言は、話者を特定した形でリアルタイムに時系列で表示される。
  2. 音声のほか、キーボード入力、スタンプ入力、定型文でのテキスト入力が可能(定型文は追加・編集・削除可能)。
  3. 音声認識で発言の誤変換があった場合は、キーボード入力で修正できる。なお、修正された場合はその枠の右下に三角の修正マークが表示され、修正されたことが分かるようになる。
  4. 発言の内容は、テキスト形式で保存することが可能だ。

demo0518-02
発言はテキスト形式で保存可能。ファイルには発言時間、発言者、発言内容が保存される。なお、発言時間や日時は各パソコンの「日付と時刻」設定が反映されるとのこと。

端末はパソコンのほか、動作環境を満たせばタブレットも使用可能。なお、ユーザー設定や定型文の追加・編集・削除などは、それぞれの端末で行う必要がある。

■「LiveTalk」の特徴

  • パソコンあるいはタブレット上で動作するソフトウエア
  • 音声認識技術は「AmiVoice SP2」を利用
  • 同一の無線LANに接続された全端末(参加者)に対し、テキストをリアルタイムに送信
  • 参加者全員の発言を時系列に表示するため、話の流れを正確に追うことができる
  • 複数人が同時に発言した場合も、それぞれの話者ごとに発言がテキスト表示される
  • 音声入力のほか、キーボード入力、スタンプ入力、定型文入力が可能
  • 発言内容はテキスト形式で保存可能

■知っておきたいこと

  • Windowsのパソコンあるいはタブレットに対応
  • 処理速度などは個々の端末のCPUやメモリによるところが大きい
  • 参加者の端末は同一の無線LANで接続する。リアルタイムに参加できるメンバー数や範囲などは無線LANの性能による
  • 音声認識は搭載しておらず、音声認識ソフト「AmiVoice SP2」を組み合わせて使用する(利用人数分、別途ソフトの購入が必要)
  • 「LiveTalk」、「AmiVoice SP2」ともに設定等はそれぞれの端末で行う必要がある
  • 1台のパソコンのマイクを複数人で利用する場合は「LiveTalk」でユーザーを切り替えて使用できるが、ユーザーの切り替えには時間がかかる(ユーザーを切り替えない場合、表示される話者は切り替わらず、「AmiVoice SP2」の学習効果も得られない)

■音声認識について

音声認識技術は「AmiVoice SP2」を利用するため、音声認識の精度等は「AmiVoice SP2」に依存する。きちんと音声認識させるためには事前に「AmiVoice SP2」の辞書に専門用語などを登録しておくとよい。

なお、精度はマイクの性能にも影響される。どんなマイクでも使用可能だが、うまく認識させるにはUSBの指向性ノイズキャンセリングマイクがおすすめ。また、ハンドマイクやヘッドセットマイクが利用できるが、パソコンでキーボード入力等をしながら進める場合はヘッドセットマイクが便利だろう。

ちなみに、デモではPhilips製のマイクが使用された。また、「AmiVoice SP2」にはマイク付きのパッケージも販売されている(Plantronics製)。

■今後期待したいこと

  • Android/iOSなど、Windows以外のOSへの対応。スマートフォンをマイク代わりにして利用できるようになる
  • 手書き入力への対応
  • 端末ごとにそれぞれ設定を行う必要があるが、必要に応じて複数の端末で設定を同期できると便利かもしれない
  • 発言内容の保存について、別ファイル形式への対応(例えばエクセルベースで書き出せるなど)

■最後に

「LiveTalk」を使用すると、会議や授業などにおいて聴覚障がい者を含む参加者全員がリアルタイムに情報を共有できるようになり、双方向でのコミュニケーションが可能になる。「LiveTalk」の最大の特徴は、複数人の同時発言も話者を特定した形で時系列にテキスト表示できることだろう。誰がどんな内容をいつ話したかが画面を見ることですぐに分かるので、みんなが話の流れを正確につかむことができる。

「AmiVoice SP2」をはじめとする一般的な音声認識ソフトだけでも音声のテキスト化は可能だが、複数人が同時に発言した場合などにはうまく対応できない。複数の発言は混在してしまい、発言内容も複数人のものが混ざったものとなってしまう。しかし、「LiveTalk」では参加者が使うパソコンとマイクから話者の識別を行うため、そうした問題が生じない。複数人が同時に発言した場合も、音声認識の処理はそれぞれの端末で行われるため、発言が混在することなく、話者を分離してテキスト表示できるようになっている。

「LiveTalk」の仕組みは非常にシンプルで、各端末をつなぐ架け橋といったところだろうか。その仕組みから、発言者ごとに独立したパソコン(「LiveTalk」と「AmiVoice SP2」がインストールされたもの)とマイクを用意する必要がある。動作環境を満たせばタブレットも使用できるが、「LiveTalk」と「AmiVoice SP2」を同時に立ち上げて使用するので、端末には一定のスペックが要求される。

1台のパソコンのマイクを複数人で使用する場合は「LiveTalk」でユーザーを切り替えて使うこともできるが、ユーザーの切り替えは「LiveTalk」、「AmiVoice SP2」の両方で行われるため、結構時間がかかる。円滑に進めるためには発言者一人一人に対し端末を用意したほうがよさそうだ。今のところユーザーを切り替えて使うのは現実的ではないが、今後もっと動作が軽くなり、もし例えば切り替えボタンなどで簡単にユーザーを切り替えていくことができれば、少ない台数で使用していけるので、コスト的にも管理的にもうれしいところではないだろうか。

また、今後Android/iOSタブレットやスマートフォンにも対応していけば、もっと便利になりそうだ。ネットワークの対応も必要となるが、遠隔地に居る人もスマートフォンから参加できるようになれば、さらに幅も広がりそう。なお、今は個人向けではないが、将来的に例えばスマホのアプリとして導入しやすい価格で販売することができれば、個人としても「LiveTalk」を使いたいという要望は多くあるような気がする。

今後「LiveTalk」が要望に対応できるかどうかは実際「AmiVoice SP2」が対応するかどうかによるところも大きくなかなか難しいところはあるかもしれないが、コミュニケーションツールとしてだけでなく、さまざまな用途で使える可能性を秘めている「LiveTalk」。引き合いも多いとのことで、これからどんどんブラッシュアップされていくことだろう。今後どのように進化していくのか、楽しみな製品だ。

【参考】FUJITSU Software LiveTalk 聴覚障がい者参加型コミュニケーションツール