アノテーションとは、音声や画像、映像データ、テキストなど、あらゆるデータにタグを付ける作業のことです。AIは、このようなタグ付けされたデータを取り込むことで、パターンを認識・学習することができます。
アノテーションとは本来、注釈、注解といった意味を持つ言葉ですが、IT分野においては、あるデータにタグを付ける作業のことを指します。ここでいうタグとは、データの種類や属性を表す注釈のことです。このタグ付けデータをAIに読み込ませて一定のパターンを認識させることで、機械学習が容易になります。このような機械学習のために作られたデータを教師データといいます。
機械学習用のアノテーションにはいくつかの種類があります。画像や動画の中の物体を特定するためのアノテーション、文章やテキストデータの中身を分類するためのアノテーション、そして音声認識の精度向上のために使われるアノテーションなどがあります。
音声認識用データのアノテーションとは、会話や発言を記録した音声データを人力で文字に起こし、言葉や単語一つ一つに対して音声データと文字を対にしてタグ付けしていく作業となります。認識率向上のためには様々な話し手、話し方、周りの環境などが組み合わさった大量の音声データを用意し、それらを正確にアノテーションして教師データを作成しAIに学習させる必要があります。
音声認識に限らず、AIに学習させるための教師データは「大量」で「正確」であることが要求されます。「大量」というのは100や200ではなく、数万単位のデータ数を指し、場合によっては数百万、数千万に上ることもあります。したがって音声認識用のアノテーションには正確な文字起こしとタグ付けができる優秀なスタッフを一度に多人数稼働させられる専門会社や組織が必要となります。