音声認識関連のホットなニュースetc. (6)

「日々進化している音声認識技術。音声認識に関する最新の話題をピックアップして紹介する」

≫10人以上の音声を５秒で、東芝が話者分類技術（2014/8/23）

東芝が10人程度の多人数でも高精度で音声を分類できる話者分類技術を開発した。同一方向に居る話者の発話は「声の特徴」から分類し、異なる方向に居る話者の発話は「推定した方向情報」から分類することで、高精度に話者を分類するという技術だ。

前々回にマルチマイクについて取り上げたが、この新技術もマルチマイクを用いることで高精度化を実現している。話者分類において、従来技術の声の特徴からの分類に加えて、複数のマイクで録音した音の位相差を基に話者が居る方向を推定し、その方向情報を用いることで、高精度な分類を可能としている。その際、マイクについても、特殊な指向性マイクではなく、一般的なステレオマイクで実現可能というのもポイントだろう。

新技術は2014年度中に完成する計画で、議事録作成支援ソフトなどに組み込んで製品化することを予定しているとのこと。また、この新技術には内容を文字データとして書き起こす音声認識機能は含まれていないため、同社の音声認識技術などとセットで提供する可能性があるようだ。

音声の書き起こし作業もそうだが、その作業において話者を特定するのも、少人数ならまだしも多人数になると、人間でも一苦労。この製品がどのような価格帯で提供されるようになるかは分からないが、その価格によっては導入したいと考える企業等も多いのではないだろうか。

議事録作成を自社で楽に行いたいという企業だけでなく、例えば出張録音からテープ起こしまで一貫して請け負うテープ起こし専門会社で導入できれば、その音声を起こすリライターにとっても話者特定にかかる苦労が軽減され、うれしい限り。計画としては技術の完成が2014年度中ということで、来年にはあるだろう製品の発表に注目したい。

【参考】（東芝）多人数の会議音声を話者ごとに分類できる話者分類技術を開発

【参考】マルチマイク搭載の普及で音声認識の進化を改めて実感する日も近い？

続いて、他にもマルチマイクを生かした技術が発表されているので、紹介しよう。

≫工事現場の大騒音でも通話可能に、NTTが肉声だけを集音する技術（2014/9/24）

9月24日、NTTが大騒音下でも人の肉声だけを高感度で集音できる音響処理技術を開発したと発表した。技術の内容は挙げた記事に詳しく書かれているが、2?3本の指向性マイクとソフトを組み合わせて使い、音が発生した方向や周波数の特性を分析して雑音の中から目的とする音声（肉声）を分離するというもの。指向性マイクも特殊なものではなく1個100円以下のもので十分で、スマートフォンなどにも容易に実装可能ということだ。

工事現場や工場内、電車通過中のガード下などの環境でも携帯電話で通話したり、IT機器に音声を認識させたりできるようになるというのは、すごい進歩。さまざまな場所での応用が期待できるが、まずはハンズフリー通話や音声認識型カーナビなど自動車用機器向けの需要を見込んでいるようだ。

ちなみに、先日読んだ「車載マルチメディアの満足度　不満トップは音声認識」という記事によると、今のところ米国市場での車載マルチメディアにおける不満トップは音声認識機能ということである。しかし、ここで挙げられた不満も、このようなマルチマイクを利用した新技術などで音声認識が進化することによって、だんだんと解消されていくことだろう。

「車載マルチメディアの満足度　不満トップは音声認識」へのリンク↓
http://www.nikkei.com/article/DGXMZO76338630Z20C14A8000000/

ただ、ここで興味深い記事をもう一つ挙げたい。この記事は、ニュアンスが日本市場におけるカーナビの音声認識機能の利用実態調査を実施し9月19日にその結果を発表したということで、それについて紹介したものだ。

≫カーナビの音声認識使ってる？運転中の“ながら”SNSに20?30代が興味 (1/3) （2014/9/29）

この記事によると、年式を追うごとに音声認識機能に対する満足度が高まるとともに未使用の割合も減っているということだが、年代で見ると、カーナビの音声認識機能に悪いイメージを持たず興味を持っているのは20?30歳代で、市販カーナビの音声認識機能に悪いイメージを持っている年代は40歳代以上とのこと。

若い世代は音声認識に対して先入観なく、また興味を持って使ってくれる傾向があるようだが、音声認識の精度が低かった時代を知り悪いイメージを持っている人たちは、なかなかそうはいかないよう。カーナビに限らず、高精度な音声認識機能が実装された製品・サービスを実現したとしても、その層をどう取り込めるかが今後の音声認識普及の鍵となるのだろう。そして、その精度の高さとともに、その使い勝手のよさや習得期間の長さなどが音声認識に対する満足度につながるといえる。

とはいえ、この記事の後半にあるスマートテレビのユーザー調査の結果を見ていると、そうはいっても「使い勝手のよさ」を追求するのはとても難しいな、と改めて実感した次第である。

というのは、この記事にも書かれているが、まず音声認識機能を持つスマートテレビにおいて、音声認識にマイク付きの専用リモコンを使用することを知っている方はどのくらい居るのだろうか。そして、その理想の使用スタイルはどんなものを思い描いているだろうか？

私の初めのイメージは、音声認識でテレビを操作できるようになれば便利であるとともに、リモコンが壊れたりなくなったりしても困らなくていいな、というものだった。しかし実際には、音声認識の際には専用リモコンのマイクに話し掛けて操作する必要があるということを知って、ちょっと残念に思ったことがある。

ただ、ニュアンスが行った意識調査「テレビでの音声認識インターフェースの理想のスタイル」という設問の結果を見ると、テレビ用リモコンに向かって話し掛ける＝32.9％、スマホ・タブレットのアプリに話し掛ける＝25.2％、手ぶら（何も持たずにテレビに向かって話し掛ける）＝38.4％で、使用スタイル論争としては決着つかず、という結果だったのだ。

個人的には手ぶらで話し掛けるだけで操作ができるならそれがいいと思うし、そう思う人が多いんじゃないかと思っていたので、この結果は意外だった。使用スタイルを含む使い勝手のよさなどが満足度につながるといえるが、それは本当に人それぞれなのだなと実感した次第である。大抵はマジョリティーのほうを優先するだろうが、使用スタイルの理想が三つ巴の場合は……どうする？　なかなか考えさせられる興味深い結果だった。

ちなみに、スマートテレビに関してのホットなニュースとしては、先日パナソニックが4Kテレビ（解像度がフルハイビジョンの約4倍のテレビ）の「ビエラ」7機種を10月17日に発売すると発表した。

≫4Kテレビ、国内最多の12機種に　パナソニック（2014/9/25）

上位機種ではテレビに話し掛けて録画予約ができる音声認識機能を業界で初めて搭載し、目玉となる「AX900シリーズ」ではテレビに話し掛けると録画予約だけでなく番組検索などもできる、とのこと。

まだ普及率は少ないが、今後はどんどんスマホ関連以外でも音声認識が日常に浸透してくるのだろう。スマートテレビの場合、使用スタイルの理想がちょうど三つ巴なら、例えば専用のリモコンもあるが、手ぶらで声だけで操作もできるし、スマホやタブレットのアプリをリモコンとして設定もできるという、全てを満たした柔軟性を持ったテレビにするのは無理なのだろうか？　個人的にはそんなテレビが発売されたら、キュンときそうだ。

では、最後はこちらのニュースで締めたい。

≫ドコモら、機械翻訳事業の合弁会社「みらい翻訳」設立–TOEIC700点以上の精度目指す（2014/9/29）

9月29日にNTTドコモ、韓国のSYSTRAN INTERNATIONAL（シストラン）、フュートレックが、機械翻訳技術の開発とサービスを提供する合弁会社「みらい翻訳」の設立で合弁契約を締結したと発表した。10月に設立予定とのこと。

詳細は記事をチェックしてほしいが、2020年のオリンピック・パラリンピック東京大会を見据えた動き。現在の機械翻訳のレベルはTOEICのスコア600点程度で、2016年までに700点以上（一般企業の国際部門社員に求められる水準）の精度を目指す。

将来的には携帯電話のアプリ（応用ソフト）などの形で消費者に提供することを想定しているよう。言語の壁はいまだに大きいが、これで「言語バリアフリー」が実現できれば、日本の「おもてなし」のレベルもさらに増すはず。また、言葉が不安で海外旅行をちゅうちょしていた人などにとっても朗報。精度とともにユーザービリティーの面でも誰もが使いやすいアプリ（ソフト）になることを心から期待したい。