今年一年を振り返り、今後の音声認識の進化と発展を考える

今年一年を振り返り、今後の音声認識の進化と発展を考える

今年一年、音声認識について振り返ると、音声認識自体に特に大きな変化はなかったように思う。また、先日受講した音声認識に関するセミナーの内容を思い返しても、音声認識エンジン自体はもう既に完成形で、それ自体に特に大きな変化はないよう。ただ、実際は音声認識の性能に関わる「機械学習」などが著しい進展を見せている。今後の音声認識の進化を左右する重要なキーとなるのは、ビッグデータ、AI(人工知能)の一種である機械学習と、その実現に関わるプロセッサの進化などだといえるだろう。

AIの一種である機械学習とは、例えばコンピュータやスマホのような機械がGPSといった各種センサーやウェブなどから集めてきた膨大な情報、いわゆるビッグデータを基に学習して、自らの性能や機能を高めていく技術だ。そして今、強力な機械学習の技法として注目されているのがディープラーニング(あるいはディープニューラルネットワーク)といわれるものだ。ディープラーニングは、いわゆるニューラルネットワークの最新形として今注目されているAI技術である。

ニューラルネットワークとは、人間の脳を構成する無数のニューロン(神経細胞)とシナプス(接合部)のネットワークをコンピュータ上で再現したもの。人間の脳の構造を模倣しているニューラルネットワークでは、人間の脳と同様にコンピュータが自分自身で物事をデータ(情報)から学習していくことができる。

そして、そのニューラルネットワークを何層にも重ねるのがディープラーニング(深層学習)と呼ばれる手法だ。人工ニューロンの層の数を増やして「深く」することにより、より正確な識別ができるようになる。例えば猫ニューロンが有名だが、1層目で直線や曲線を認識し、2層目で目や耳という部位を認識し、3層目で目や耳を含む顏を認識し、4層目で身体全体を認識し……といったように、層を深くすることにより最終的に猫という概念を理解するといった仕組みだ。

ニューラルネットワークは1950年代から存在する概念のようだが、初期のAIは人間がコンピュータにルールを教え込むことによって実現しており、それでは多様性と例外に満ちた現実世界にはなかなか対応できなかったようだ。しかし、ディープラーニングでは、人間がコンピュータにルールを教え込むのではなく、コンピュータ自身がデータから学習できる。例えば猫ニューロンであれば、人間がコンピュータにこれが猫だと教えることなく、コンピュータ自身が膨大なデータからそれを学習・認識することによって、猫を自力で判断できたことで話題となった。

このディープラーニングは、アップルのSiriやグーグル音声検索などの音声認識技術でも採用されている。音声認識においては音声から意味のある情報を選別するパターン認識が重要となるが、ディープラーニングは音声認識においても高いパフォーマンスを示している。また、AI技術の進化には膨大な情報、すなわちビッグデータとそれを基にした学習が必要不可欠となるが、今はネットワークが進化しクラウドベースの音声認識システムが構築されている。ユーザーが利用すればするほど日々データはサーバーに蓄積され、その膨大なデータを基にAI技術は今後もっと進化していくことだろう。

ただ、ニューラルネットワークの進化によってコンピュータは現実世界に柔軟に適応できる能力を得たといえるが、まだ課題は多い。音声認識の性能を考えても昔に比べて高いパフォーマンスを示しているとは思うが、実際は例えばSiriの受け答えも、今はまだ本当にSiri自身が内容を正確に理解してやりとりができているわけではない。

ディープラーニングでは、層を深くすればするほど認識できる概念がより高度となり抽象的なものへの適応を可能にしていくといえるが、人間は1千数百億という膨大な数のニューロンを持っている。例えばSiriだけでなくロボットなどにおいても、それ自身が内容を理解しより自然な言葉で人間と会話ができるようになるには、少なくとも同等数レベルのニューロンネットワークを準備しなければ、人間の脳には追い付けないともいえるのではないだろうか。実際の人間の脳のネットワークと比べると今はまだ100万分の1規模ぐらいだというのだから、まだまだ発展の余地は残されている。

とはいえ、以前はその技術のほか、それを処理するコンピュータのスペックもまだ低く処理が追い付かないといった課題もあったようだが、今はコンピュータの処理速度も劇的に向上している。また、プロセッサもどんどん進化している。

最近では2014年8月に、IBMが米コーネル大学と共同でニューロンの働きを模したニューロモーフィックチップ(神経形態学的プロセッサ)を開発したと発表した。これはスパイキングニューラルネットワークを実装したチップで、今のところ100万個のニューロン、2億5600万個のシナプスを備えたニューラルネットワークとして機能するとのこと。ニューロン数でいえば昆虫の脳(人間の脳の1万分の1)に相当するようだ。

スパイキングニューラルネットワークは、従来のニューラルネットワークにニューロンが発する時間的なパルス(波形)を付加したもので、これは人工的な「脳波」に当たり、より本物の脳に近づくことになるといったもののよう。その先には意識を持ったAIが生まれるかもしれないという見方もあるほど先端的な研究ということである。

まだ課題も多く残されているのは事実のようだが、ビッグデータとプロセッサの進化も加わり今後AIがどんどん進化していくことは明らかだ。それに伴い音声認識の性能も着実に進化していくといえる。年が明け2015年にはソフトバンクのコミュニケーションロボットPepper(ペッパー)も一般向けに発売予定だが、Pepperもその身体を通じて多くを学んでいくことだろう。

Siriをはじめ、今はまだそれ自身が内容を正確に理解して話しているとはいえないが、注目すべきはAI技術の進化速度だ。以前にも少し触れたが、2045年頃には機械が人間の知能を超えるという予測もある。2045年ということは、約30年。30年では……と思うかもしれないが、その変化は指数関数的に早まっていくと見られているよう。つまり、最初はゆっくりとした変化だが、それが突然、急速に変化するということである。

変化に気付いた次の瞬間にはSFの世界が目の前に広がっている……ということもあるかもしれない。今や音声認識の進化にAI技術等は切っても切り離せないもの。来年はAIに絡んだニュースを取り上げることがますます増えそうだが、今後も音声認識をはじめとする関連技術の動向に注目し、ここで取り上げていく予定である。

【参考】AI(人工知能)にかける米シリコンバレーとGoogleの野望 ――危機に晒される日本の産業用ロボット(2014/5/28)

【参考】[脳に挑む人工知能2]脱ノイマン型へ、IBM70年目の決断(2014/10/2)

【参考】人工知能が急に進化し始めた!(2014/12/12)