【サービス編1】気になる音声認識ソフト/サービス/アプリの現況まとめ

【サービス編1】気になる音声認識ソフト/サービス/アプリの現況まとめ

サービス編では、クラウド型の音声認識サービスについてまとめる。最近は、特に高精度かつ採用のしやすさからGoogleの音声認識を利用したアプリやウェブサービスが増えているので、サービス編2ではその辺りについても取り上げる予定だ。

クラウド型の音声認識は、音声データ等を外部に渡すことになるというデメリットはあるが、無料あるいは安価で利用できるものが多く、誰でも高精度な認識が期待できるだけでなく、その精度は日々進化しているところが魅力。使うサービスの利用規約やプライバシーポリシーを理解した上で、うまく使っていきたいところだ。

【サービス編1 目次】
VoXT(ボクスト)
  VoXTセルフでの認識精度の変化(録音音声の文字化)
Googleドキュメントの音声入力
  Googleの音声認識、精度の変化(音声入力)

VoXT(ボクスト)

VoXTは、日本の音声認識のパイオニアであるアドバンスト・メディアが運営しているクラウド型の音声認識サービス。VoXTセルフでは、専用アプリからインターネットを介して録音音声の文字化と音声入力を従量課金で行える。音声入力は音声コマンドだけでなくユーザー辞書にも対応している点が特長だ。

VoXTの基本情報および現況

【サービス開始】2013年 【開発/音声認識エンジン】アドバンスト・メディア 【音声認識】クラウド 【VoXTアプリ対応OS】Windowsのみ、Windows 10に対応 【VoXTアプリ最新バージョン】0.0.1.557(2018年6月現在)

VoXTのサービスは、当初は1プランだったが、その後「VoXTセルフ」「VoXTフル(スタッフによる文字起こし)」の2プランとなり、VoXTセルフではオプションで音声入力もできるようになった。そして現在は「VoXTセルフ」「VoXTフル」「VoXTプロ(ビジネスソリューション)」の3プランとなっている。

VoXTセルフは、サービス開始当初からだと料金プランが多少変わりはしたが、利用方法に変わりはなく、従量課金額も録音音声の文字化(音声文字変換)・音声入力ともに30円(税抜)/1分で以前と同様。使い勝手の面も特に大きな変化はないが、その精度は少しずつだが向上している。

VoXTセルフでの認識精度の変化(録音音声の文字化)

※音声情報や以前の結果等の詳細は次のエントリーを参照ください。
「VoXTセルフ」の音声認識エンジンがリニューアル、認識精度は本当に向上したか(2016.01.04)

検証音声:ニュース、声:女性1人、雑音は多少あるが声は聞き取りやすい

【左】2014年調査・2015年調査:認識結果は全く同じ(誤変換等:8カ所)
【中】エンジンリニューアル後(2016年1月調査):認識精度の向上が見られた(誤変換等:3カ所に)
【右】2018年5月調査:誤変換等は4カ所だったが、認識結果の変化が見られる。

検証音声:会見、声:男性1人、雑音が多く音質はあまりよくない。話し方も考えながら話しているためケバが多く聞きづらい

【左】2014年調査・2015年調査:認識結果は全く同じ(誤変換等:15カ所)
【中】エンジンリニューアル後(2016年1月調査):認識率はそれほど高くないが、誤変換等は11カ所に減り、認識精度の向上が見られた。
【右】2018年5月調査:もう一息という感じではあるが、誤変換等は8カ所に減少。また、名前の漢字も正しく変換できた。

検証音声:会議、声:男性1人、音質が悪く内容も専門的、話し方に抑揚があり、語尾は特に聞こえづらい

人でも起こしにくい音声のためほとんど起こせていないので、認識できている箇所を青ラインで示している。
【左】エンジンリニューアル後(2016年1月調査):ほとんど起こせなかった。
【右】2018年5月調査:音声認識に適さない音質ではあるが、それでも認識できている箇所は以前より増えた。

VoXTセルフの音声認識エンジンは2015年12月にリニューアル(DNNを採用)され、2016年1月調査時には認識精度の向上を確認できた。そして今回2018年5月の調査では、ほぼ全ての音声で認識結果の変化が見られた。エンジンリニューアル前までは認識結果に変化は全くなかったのだが、リニューアル後は検証したほぼ全ての音声で認識結果が変化しており、良くも悪くもエンジンの成長を実感できる。

VoXTセルフは従量課金制だが、録音音声の文字化では指定した部分から1分間のお試し文字変換(無料)を1つの音声ファイルに対して2回まで行うことが可能。どのレベルで起こせるかは音声によるが、人が聞きやすいと思う録音音声は高精度で起こせる可能性が高いので、試してみる価値はある。

【公式サイト】VoXT 世の中にあふれる声に価値を与える音声認識AIクラウドサービス

Googleドキュメントの音声入力


Googleドキュメントは、PC、スマホ、タブレットのどの環境からでも利用できる、Googleが提供する無料のワープロソフト。音声入力に対応しており、Chromeブラウザで開いたGoogleドキュメントでは音声で文章を作成することができる。日本語版は音声コマンドにまだ対応していないが、音声の認識精度は非常に高く、実用的だ。

Googleドキュメントの音声入力、基本情報および現況

【機能追加】2015年 【開発/音声認識エンジン】Google 【音声認識】クラウド 【音声入力機能対応】Google Chromeブラウザ(PC)

Googleドキュメントで音声入力を行うには、ChromeブラウザでGoogleドキュメントを開き、[ツール]から[音声入力]を選択する。マイクが表示されるので、マイクをオンにして話し掛ければOKだ。マイクのオン/オフは、Shift+Ctrl+Sキー(Macは⌘[command]+Shift+S)で切り替えることもできる。

【左】[ツール]から[音声入力]を選択するとマイクが表示される。マイクのオン/オフはクリックのほかショートカットキーでも可能。
【右】音声入力の結果で灰色の下線が付いた単語は、右クリックすると修正の候補が表示される。

音声コマンドは、まだ英語版のみで日本語版では対応していないので、句読点の挿入や改行処理は現在音声で行えない。ただ、最近のGoogleのテキスト音声変換API(Cloud Speech-to-Text)の大規模アップデートなどのニュースを見ていると、近々対応するのではないかと期待している。

Googleの音声認識、精度の変化(音声入力)

Googleドキュメントに音声入力機能が追加されたのは2015年だが、Googleの音声認識については2014年あたりからその精度を調査してきた。以前は認識に癖があったが、今は成長し、高精度で起こせるようになっている。

認識の癖というのは、Googleの音声認識で文章が認識できるようになったばかりのころは、まだ単語で捉える傾向があった。例えば、
■「……付属語のうち活用のないもの……」と話したのに「……付属語 農地活用のないもの……」と認識される
■「このうち9856円は……」と話したのに「この地球80056円」と認識される
ということが多かった。

また、次の認識結果(句読点は後から追加している)のように、特に4ケタ以上の数字の文字化が苦手だった。

【話した内容】
……26万6400人減少して1億2639万3679人となった。前年を下回るのは4年連続。また、外国人の人口は198万200人で、これに日本人を合わせた総人口は1億2837万3879人となる。
【2014年2月調査時の認識結果】
……26万6400減少して1億2000639マン3600 79 2となった。前年を下回るのは4年連続。また、外国人の人口は198マン200人で、これ 日本人は 合わせた総人口は1億200080037万3線8709人となる。

【2018年6月調査】
……266400人減少して126393679人となった。前年を下回るのは四年連続。また、外国人の人口は1980200人で、これに日本人を合わせた総人口は128373879人となる。

2016年の初めぐらいまでは上記のような癖があり、できるだけ認識されやすいように区切り等に意識して話さないと誤変換が多くなりがちだった。また、特に4ケタ以上の数字は後から修正するしかなかった。だが、現在は前後の文脈等から判断できるように成長し、4ケタ以上の数字もうまく文字化できるようになっている。

高精度で起こすコツとしては、Googleの音声認識に限ったことではないが、日本語は同音異義語の認識が難しいので、きれぎれに話すよりもある程度の長さの文章で話すほうが誤変換は少なくなる。話す側も認識されやすい話し方を心掛けると、その精度はアップする。音声入力に関しては、認識されやすいように意識して話せば、内容にもよるが誤変換ゼロで起こすことも今は不可能ではない。

なお、Googleの音声認識を使った録音音声の文字化については次回取り上げる予定だ。

Googleドキュメント – オンラインでドキュメントを作成、編集できる無料サービス
【参考】Googleドキュメントを使用して最高の仕事をする(2015年9月10日木曜日)

【サービス編2】に続く

【関連記事】
音声認識を使ってテープ起こしを効率的にする、現在の個人的おすすめ(1~4)(2016.12.08)
気になる音声認識ソフト/サービスの音声認識精度等の現況、最新レポート(1~2)(2015.12.01)