音声認識とは、人間の声などをコンピューターに認識させ、自動でテキスト化することや、音声の特徴を捉えて発言者を特定する機能のことを指します。
音声を人間の耳で聞きながらテキストに起こしていくのではなく、発言をコンピューターに認識させ、自動でテキスト化することを「音声認識」や「音声入力」といいます。近年数多くのパソコンやスマートフォンにこの音声認識機能が搭載されるようになりました。
現在さまざまな音声認識ソフトやアプリが流通していますが、まだ技術的には会話データを完璧に文字化できるまでには至っていません。
音声認識には大別すると「クラウド型」と「スタンドアロン型」がありますので、導入する際はそのメリットとデメリットを理解してから選択すると良いでしょう。
クラウド型音声認識は、使用するコンピューターとクラウド上の音声認識用サーバーを接続したオンライン状態で使用するものです。コンピューターからアップロードした音声データは、クラウド上のサーバーに送られ音声認識されます。近年、AIの発達で認識能力が向上し、多くの外国語や専門用語にも対応できるようになりました。声で動作を指示できる「スマートスピーカー」が相次いで登場したのもその流れです。
なお音声データや認識結果のテキストデータをサービス事業者の管理下に置くことになりますので、利用規約を確認し、データがどのように管理または利用されるのか把握しておく必要があります。
スタンドアロン型では、ソフトウエアを使用するコンピューターにインストールすることにより、そのコンピューター内で音声認識を行うものです。辞書登録など、自分仕様に手軽にカスタマイズできる点が魅力ですが、主要ソフトが販売終了になるなど、現在は全体的に縮小傾向にあります。