音声認識技術で知られる会社がテープ起こし事業に参入する裏事情とは

音声認識技術で知られる会社がテープ起こし事業に参入する裏事情とは

「先日アドバンスト・メディアとフュートレックが人による音声文字起こしサービスを開始した。音声認識技術の開発を行う会社がいわゆるテープ起こし事業に参入するワケとは。その裏事情を探る」

音声認識技術で知られるアドバンスト・メディアとフュートレック。この2社が最近、人による音声文字起こしサービスを開始した。アドバンスト・メディアは「VoXTフル」、フュートレックは「TranscribeMe!(音声書き起こしクラウド)」というサービスだ。

なお、アドバンスト・メディアとフュートレックがどのような会社かについては、以前の記事を参考にしていただければと思う。

≫主な企業の歴史から音声認識技術の変遷を追う(5)- アドバンスト・メディア

≫主な企業の歴史から音声認識技術の変遷を追う(6)- フュートレック

では、まずはフュートレックのサービスから簡単に紹介しよう。

≫クラウド分業で“音声書き起こし”を安価に――フュートレックが提供(2014/7/7)

transcribe-me_img

2014年7月7日、フュートレックは音声文字起こしサービスを手掛ける米TranscribeMe, Inc.社に出資を伴う資本業務提携を行い、両社でクラウドソーシング(*)を活用した音声文字起こしサービスの提供を開始した。「TranscribeMe!(音声書き起こしクラウド)」というサービスだ。

* クラウドソーシング:インターネットを利用して不特定多数の人に業務を発注したり、 受注者の募集を行うこと。また、そのような受発注ができるWebサービス。(「IT用語辞典 e-Words」より)

「TranscribeMe!(音声書き起こしクラウド)」は、完全委託型の音声文字起こしサービスだ。その特徴は、依頼された音声データを独自の技術で20秒から1分程度の短いデータに分解し、大勢のクラウドワーカー(作業者)がそれを書き起こすということ。独自の技術でボリュームのある音声データでも多くのクラウドワーカーによって効率的に作業されるだけでなく、各クラウドワーカーには文書の一部しか配布されないため、データの機密性を保つことができる、という。

なお、現在このサービスにフュートレックの音声認識技術は使われていない。今後は同社の音声認識技術を利用したテキスト化の一部自動化も検討されているようだが、今は完全に人による音声文字起こしサービスとなっている。サービス提供は米TranscribeMeが実施しており、現在フュートレックは日本国内でTranscribeMeのサービスの販売・マーケティングを行っているだけにとどまっているようだ。

独自の音声処理技術での作業環境が構築されてはいるが、現在のサービス内容としては、いわゆる一般のテープ起こし専門会社と同じと言っていいだろう。

次に、アドバンスト・メディアのサービスを紹介しよう。

≫音声認識によるクラウド型文字起こしサービス「VoXT(ボクスト)」 完全委託型、フルサービスの文字起こしサービスが新登場!(2014/7/30)

アドバンスト・メディアは、2013年11月に「VoXT(ボクスト)」という音声認識技術を使用したクラウド型の文字起こしサービスを開始したが、2014年7月30日にそのサービスをリニューアルした。現在は「VoXTセルフ」、「VoXTフル」という2つのプランでサービスを提供している。当初から提供していたサービスは「VoXTセルフ」プランとなり、新たに「VoXTフル」プランが開始された格好だ。

「VoXTセルフ」プランは、以前の記事「テープ起こしに生かせる?音声認識製品・サービス、最新情報(3) ―VoXT―」も参考にしてほしいが、独自の音声認識技術AmiVoiceを用いたテキスト化支援サービスである。同7月30日にはVoXT音声入力機能も新たにオプションとして加わり、より便利になった。

「VoXTセルフ」プランは、いわゆるクラウド版の課金制音声認識ソフトというイメージで、ユーザーは必要に応じてAmiVoiceの音声認識技術を用い音声の文字起こしができる、というサービスである。

一方、新しく設けられた「VoXTフル」プランは、文字起こしスタッフによる「おまかせ文字起こし」サービスとなる。完全委託型のサービスで、VoXTサービス専属のスタッフが代わりに音声の文字起こしを行い、誤字脱字などの修正も行い、完成原稿として納品する、というものだ。

その特徴は、文字起こしスタッフはVoXTアプリを用いて業務を行っているということ。作業方法として、音声ファイルをそのまま音声認識で文字変換してその誤認識部分を編集するときもあれば、VoXT音声入力機能を利用して自分でマイクにしゃべって入力するときもあるよう。「VoXTフル」プランは、人による音声文字起こしサービスではあるが、一般のテープ起こし専門会社とは少し異なり、自社の音声認識技術を用いた人による音声文字起こしサービスとなっている。

■音声認識技術の開発を行う会社がいわゆるテープ起こし事業に参入する裏事情とは

今ご紹介したように、現在フュートレックでは「TranscribeMe!(音声書き起こしクラウド)」、アドバンスト・メディアでは「VoXTフル」という、人による音声文字起こしサービスが提供されている。

この動きは、テープ起こしを専門とする会社にとっては悩ましいところだろうが、音声認識に関わる会社がこのようないわゆるテープ起こし事業に参入してくるのは、次の事業拡大のステップとして想像できる。

ただ、個人的に今回これらのサービスの発表を見て最初に注目したのは、特にフュートレックの「TranscribeMe!(音声書き起こしクラウド)」サービスに現時点で同社の音声認識技術は使われていない、ということだ。では、なぜ今回、米TranscribeMeと提携しようと思ったのか。音声認識に関わる会社がテープ起こし事業に参入するのは展開として分かるが、その際には例えばアドバンスト・メディアの「VoXT」サービスのように、自社の音声認識技術を生かしたいのではないだろうか?

また、アドバンスト・メディアの「VoXT」サービスにしても、以前より向上したとはいえ録音音声の文字起こしを音声認識で行うのは、正直まだかなり厳しい現状といえる。そんな中、「VoXT」サービスを開始したのはなぜだろうか?

まあ、そういう現状だからこそ「VoXTフル」プランが登場したともいえるのだろうが、両社が今テープ起こし事業に参入するワケとは一体何なのだろう。これは考察だが、事業拡大を目指した動き、新たな顧客の開拓などという表向きのほかに、とにかく関連する膨大なデータを集めたいという裏事情があると感じている。

例えばフュートレックは、今はサービスに同社の音声認識技術は使われていないが、将来的には自社の技術を用いてサービスを提供したいはず。また、サービスを提供し顧客満足を得るためには、それに見合った精度(結果)が求められる。それを実現するためにも、とにかくあらゆる音声データとその音声に対応した正しいテキスト情報(人によって起こされた正しい文字変換情報)が欲しいのではないだろうか。そのために音声文字起こしを手掛ける米TranscribeMeと提携し、そこで得られた情報によって自社の技術をさらに進化させ、将来的には顧客満足度の高い自社の音声認識技術を用いたサービスを提供したい、という目的があるように感じる。

また、アドバンスト・メディアについても同様だ。「VoXTフル」プランによって、あらゆる音声データと、それに関わる大量の情報を得ることができる。サービスの特徴は先に述べたようにVoXTアプリを用いて作業を行っていることだが、それによって音声データのほか、その文字変換結果や誤認識されるパターンの情報なども蓄積することができる。また、VoXTアプリのバグや機能の改善点など、そういった情報もスタッフからフィードバックされることだろう。

以前は使えないといわれた音声認識技術が最近になって急に性能を上げているのは、利用者が増えたことで膨大な情報が蓄積されてきたことが大きい。データが増えれば増えるほど最適解を導き出せる確率が高くなるからだ。今後「VoXT」はさらに便利に、またAmiVoiceの音声認識技術はその性能をますます向上させることだろう。

現在テープ起こし(音声の文字起こし)を行う方法としては、自力で一から起こすほか、自力で音声認識を用いて起こす、あるいは「VoXT」のような音声認識サービスを利用する、テープ起こし専門業者に依頼するなど、いろいろと選択肢がある。次回は、特にニュースがなければ、コストパフォーマンスなどの面も含めて考えられる各方法のメリット・デメリットをまとめ、テープ起こしをする際にはどの方法がよいか、考察してみたい。

【参考】VoXT(株式会社アドバンスト・メディア)

【参考】TranscribeMe!(音声書き起こしクラウド)