「AI文字起こし」にAzure AIが追加！複数の最新AIによる日／英／中の自動文字起こしが可能になりました

こちらの記事には最新版があります。≫ 最新版はこちら

AIによる音声の文字化サービス「AI文字起こし（旧AI起こし）」がリリースされてから約1年。現在はサービス名が少し変更となったほか、複数AIや複数言語に対応するなど、さらに便利になっている。今回は、より便利になった「AI文字起こし」を改めて紹介したい。

【目次】
「AI文字起こし」とは。初期リリースからの追加・変更点
 ベータ版の期間は無料で利用可能！手順は簡単・シンプル3ステップだ
 各AIの特徴は？目的や音声の状態などによってうまく使い分けながら効率的にテープ起こしをしていこう！
「AI文字起こし」現時点での基本情報

「AI文字起こし」とは。初期リリースからの追加・変更点

AI文字起こし（2019年10月現在ベータ版）　https://ai-ninshiki.jp/

「AI文字起こし」は、最新AI（音声認識API）を活用した音声の文字化（テープ起こし）サービス。ユーザーは録音音声をアップロードし登録するだけで、その音声の内容をAIが自動で文字化してくれるという、シンプルかつ簡単操作のクラウド型音声認識サービスだ。

初リリースは2018年8月で、オープンベータ版として無料公開をスタート。今も引き続きベータ版となるが、現在はリリース当初と比べると主に次の内容が追加・変更されており、より便利に使えるようになっている。

【初期リリースからの追加・変更点】

サービス名の変更：当初は「AI起こし」だったが、ユーザーにより分かりやすい名前となるよう「AI文字起こし」にサービス名が変更された。
機能・操作のシンプル化：「マイクによる録音」機能はなくし、本サービス内での操作は音声ファイルをアップロードし登録すればOKというシンプルなものに変更された。
複数の言語に対応：日本語だけでなく英語と中国語の音声の自動文字化も可能になった。
複数のAIに対応： 2019年10月にMicrosoft Azureが仲間入りし、GoogleだけでなくMicrosoftの音声認識APIを使った音声の自動文字化も可能になった。

［参考］リリース当初の紹介記事はこちら
≫【サービス編２】録音音声の文字化が自動で完了！　AIによるテープ起こしサービス「AI起こし」ベータ版が無料公開スタート（2018.08.03）

テープ起こしを一からやるのは大変だが、「AI文字起こし」であれば、起こしたい音声ファイルを登録後、処理結果を待つだけでOKだ。もしテープ起こしに困っているなら、ぜひ一度お試しあれ。

ベータ版の期間は無料で利用可能！手順は簡単・シンプル3ステップだ

【STEP1】まずはサイトにアクセス、「試してみる」ボタンをクリック。
≫ AI文字起こし（2019年10月現在ベータ版）

※本サービスはWindows／iOS／Androidに対応、推奨ブラウザはChrome／Firefox（最新バージョン）。

【STEP2】必要事項を入力し、アップロードする音声ファイルを選択・設定する。使いたい文字起こしサービス（文字起こしで使いたい音声認識API）と、音声ファイルの言語を選択し、「試してみる」ボタンをクリック。確認画面になるので、内容に問題がなければ「この内容で登録する」ボタンをクリックすると、音声の登録が完了。あとは処理完了のメールを待つだけだ。

※お名前：ニックネーム可。メールアドレス：文字起こしの処理結果ページURLが届く。タイトル：文字起こしテキストのタイトルとして設定される。

※音声ファイルは、wav／mp3／ogg／m4a形式に対応（100MBまで）。文字起こしは、日本語／英語／中国語の音声に対応。

【STEP3】処理完了のメールが届くので記載のURLをクリック、処理結果ページで文字起こしテキストを確認しよう。なお、現在アンケートを実施中。利用にあたり迷った点や気になった点などがあればフィードバックすると、正式版に反映される可能性あり。

各AIの特徴は？目的や音声の状態などによってうまく使い分けながら効率的にテープ起こしをしていこう！

「AI文字起こし」の大きな魅力は、音声認識でその性能がトップクラスに位置するGoogleとMicrosoftの音声認識を使って音声の自動文字化が行えるところだ。

これまでは、使える音声認識はGoogleのAPI（Google Cloud Speech-to-Text、以下Google）だけだったが、現在はMicrosoftのAPI（Microsoft Azure Speech to Text、以下Microsoft）が選択肢に加わったことで、ユーザーは音声認識で使用したいAI（音声認識API）を選ぶことができるようになった。

ただ、どちらのAIがいいのかというのは、正直なかなか答えるのが難しい。実際のところ両者に優劣をつけるのは難しく、また高精度で起こせるかどうかは音声によるので、ぜひ実際に試してみて、結果を比較してみてほしいと思う。

なお、両者で精度の差はそれほどないが、その起こし方には少し違いがあるので、その特徴を次にまとめる。これはあくまでも個人的感想になるが、よければ参考にしてほしい。

【Google／Microsoftの音声認識について、両者の違いや特徴】

文字起こしの精度について：それほど大きな差はなく、音声認識に適した音声の場合、どちらも高精度での自動文字化が可能。ただ、音声認識に適さない品質の音声や音量が小さかったり状態が悪い部分は、両者ともうまく起こせず誤変換が増える。

※その誤変換箇所は両者で異なることも多いので、例えば一方の文字起こしテキストだけだとよく分からない内容も、両方の文字起こしテキストを読むと内容が補完されて理解できることが意外と多かったりする（特に音声を聞けずテキストだけを読む場合に結構有効）。
可読性について：本サービスにおいて、現在Googleを使った場合は文字起こしテキストに句読点や改行が自動付与されないため全文がつながっている。Microsoftを使った場合は句読点と改行が自動付与されるため、Googleの文字起こしテキストより可読性は高い。

※ただ自動付与の正確さについてはまだ高いとはいえないので、句読点や改行が付与されることで逆に内容が理解しづらくなってしまう場合もある。そのためどっちもどっちだが、文字起こしテキストだけを読む場合はMicrosoftのほうが読みやすい。
音質が悪い音声の場合：精度のところでも述べたが、現状ではどちらも高精度での起こしは難しい。ただ個人的感想としては、Microsoftはできるだけ起こそうと頑張ってくれる感じ。Googleは、起こせない部分は結構内容をすっ飛ばすことが多い感じだ（例えば1時間の音声の文字起こしテキストが数行だったり、丸々内容が抜けていたり、など）。
その他の特徴：日本語文字起こしにおいて、Googleは英語部分は単語で前後に半角スペースが挿入されるが、Microsoftは挿入されない。

※例：Googleの文字起こし結果
インターネットにアクセスしたデバイスは何か教えてくださいPC PC PC iPad mini xperia z 3 Tablet iPhone 5 Samsung Galaxy iPad …

※例：Microsoftの文字起こし結果
インターネットにアクセスしたデバイスは何か教えてください。
Pcpcpcipadminixperiaz三tabletiphoneファイブサムスンギャラクシーipad。

両者ともにメリット／デメリットはあるが、音声認識に適した音声であれば両者ともかなり高精度で起こしてくれるので、試す価値はある。一つのツールとして目的や音声の状態などによってうまく使い分けながら効率的にテープ起こしをしていこう！

［参考］音声認識に適した音声についてなど、関連記事はこちら
≫ 録音音声の自動文字化をできるだけ高精度で行うために、知っておきたいポイント（1）～

「AI文字起こし」現時点での基本情報

【サービス名】AI文字起こし（2019年10月現在ベータ版より「AI文字起こしβ」）【音声認識エンジン（使用できる音声認識API）】Google Cloud Speech-to-Text、Microsoft Azure Speech to Text 【音声認識】クラウド【開発・運営元】株式会社東京アーカイブセンター【推奨ブラウザ】Chrome／Firefox 最新バージョン（Windows／iOS／Android対応）【サイトURL】https://ai-ninshiki.jp/