AI音声認識と文字起こし業者の違いとは

手軽に文字起こしができるという利点から、AIを使った自動文字起こし機能は広く利用されるようになりました。その反面、認識結果の間違いを目視で確認する作業に苦戦しているという意見も散見されます。
この記事では、AI音声認識と文字起こし業者、それぞれの特性を比較し、どのようなケースに適しているのかご説明いたします。

この記事における各用語の定義

AI音声認識 音声認識だけで行う文字起こしサービスで、いわゆるバッチ型のクラウド音声認識サービスのこと
※バッチ型のクラウド音声認識サービスとは:ユーザーが音声・動画ファイルをWebサービス上にアップロードすることにより、その音声(録音音声)を音声認識によって自動で文字化するサービスのこと
文字起こし業者 人(プロ)が提供する文字起こしサービスのこと(主に法人)

※この内容は2024年2月時点の情報です。

AI音声認識と文字起こし業者を使い分けるポイント

  • 誤認識を許容できる場合は
    AI音声認識

    スピード・コスト重視

    • 大まかでいいので速く音声を文字化したい
    • 手直し修正の負担は承知の上で、安く文字化したい

    AI音声認識に適しているケース

    登壇者が大勢の前で喋っている
    原稿を読み上げている場合(ケバが少ない音声)は、AI音声認識でも高品質な原稿が期待できます。
    3人で机を囲んで打ち合わせをしている
    話の大枠をざっと把握できればいいブレスト会議などであれば、AI音声認識でも事足りる可能性があります。
  • 実用的な結果を得たい場合は
    文字起こし業者

    品質・確実性重視

    • 文字起こし原稿の精度を重要視したい
    • 柔軟できめ細やかな対応をしてほしい

    文字起こし業者に適しているケース

    4人で机を囲んで打ち合わせをしている
    話者が自由に発話している場合(ケバが多い音声)は、適切な話者分けとケバ取りを実現できるプロの文字起こし業者が適しています。
    3人で立って話し合いをしている
    発言が証跡となる場合や、公に提出する資料、専門用語が多い会議などは、プロの文字起こし業者に依頼した方が手直しの負担が少なくなります。
※ケバとは……
「あのー」、「えー」などといった、それ自体では意味をなさない短い言葉のこと。
AI音声認識でもケバを削除することはできますが、適切な位置に句読点が挿入されず可読性が悪化します。

単純に金額だけを比較すると、AI音声認識のほうがコストパフォーマンスに優れているように見えますが、AI音声認識にかけた結果、出来上がった原稿の手直しにかかる時間を考慮すると、結果的には文字起こし業者に依頼したほうが費用対効果がいいケースもあります。
AI音声認識の認識結果に満足できなかった方や、修正工数が増えてしまった方は、プロの文字起こし業者に依頼してみるのも選択肢の一つです。

AI音声認識と文字起こし業者の原稿の違いを比較

AI音声認識の認識率は100%に到達していないため、文字起こし作業を外注する際は、必ず人の目を通した原稿の確認・修正の作業(後工程)が必要です。
この後工程が少なければ少ないほど、ご依頼者さまの負担が軽減されます。従って、業務負担減を目的として文字起こしのアウトソース化をご検討されている場合は、「原稿品質の高さ」は必須条件となります。

AI音声認識は処理が完了した時点で原稿を納品しますが、東京反訳では4つの工程を踏むことで原稿品質を高めています。
ここから先は当社の文字起こしプロセスに従い、原稿品質の決め手となるチェックポイントを順番に解説いたします。
※「」部分をクリックすると、各チェックポイントの説明や原稿サンプルが表示されます。

文字起こし業者の4つのステップ(東京反訳の場合)

1粗起こし

まず、話の大意や話者の意図をつかみながら、大まかに文字起こしを行います。(全工程の約30%)

ケバの有無

文字起こしには主に「ケバ取り」と「ケバ付き」という起こし方があります。

・ケバ取り:
スタンダードな起こし方。東京反訳では「標準起こし」と呼ぶ。
・ケバ付き:
ケバや言い間違いもそのまま記録する起こし方。消費者ニーズを細かく分析したい場合や、証拠音声として活用したい場合などに用いられる。

ケバが含まれた文字起こし原稿は可読性が悪く、手作業でケバを削除するための時間と労力がかかります。したがって、質的研究や反訳書のような特殊な例を除き、外注する際には「ケバ取り(標準起こし)」を選択することが一般的です。
当社の「標準起こし」をお選びいただきますと、ケバを削除するだけでなく、言い間違いや重複した表現をカットした状態で納品いたします。
一方AI音声認識は、正確な「ケバ取り」の実現が難しく、重要な文言がケバと共に消去されることがあるため注意が必要です。

AI音声認識サンプル

何かあまり和気あいあいっていうよりは人が数字を追って頑張った分だけ評価されるっていうような車夫でありました一方投射の場合は略で見ないでしょう。
もう本当に会社としてみんなで頑張っていこうみたいな雰囲気があったりだとかあとは助け合いというかっていうような感じだったので

文字起こし業者サンプル

和気あいあいというよりは、一人一人が数字を追って頑張った分だけ評価されるっていうような社風ではありました。
一方、当社の場合は真逆で、もう本当に会社としてみんなで頑張っていこうみたいな雰囲気があったり、あとは助け合いというような感じだったので。

表記の統一

AI音声認識の場合、原稿内の表記を統一するためには、辞書登録機能等などを使用してカスタマイズする必要があります。
一方、文字起こし業者では品質にばらつきが発生しないよう、多くの場合は決められた独自の表記ルールに従って文字起こしを行っています。
東京反訳では、一部の例外を除き記者ハンドブックを基に文字起こしを行っています。
またご要望に応じて標準用字用例辞典や、お客さまご希望の表記ルールなどにも対応しています。

2聞き直し(検索・表記の確認)

音声を聞き直しながら事実確認や漢字の特定を行い、聞き取り不能箇所を埋めていきます。(全工程の約50%)

専門用語・社内ルールなどの反映

AI音声認識で専門用語の認識率を上げるには、辞書登録機能等などを使用してカスタマイズし、適切な認識結果が得られるまで試行錯誤を繰り返す必要があります。
対して文字起こし業者の場合は、事前に関連資料(次第、名簿、当日配布資料など)を提供しておくことで、専門用語や会社特有の部署名、略称の表記などを原稿に反映させることができます。

AI音声認識サンプル

私はまずジョブサービス推進部に入社いたしまして、
それが、そうですね、大体4ヶ月ぐらい、3から4ヶ月ぐらいはずっとそれやってたその業務をしていたんですけれどもそこからいろんな業務をさせていただいて具体的には、
そうですね。
今のIEに関する業務であったりだとか、福祉に関する業務だったりとかそういった、新規事業といいますかそういった何かプロジェクトみたいなものを携わったりとかしておりました。

文字起こし業者サンプル

まずJobstyle推進部に入社いたしまして、大体3〜4カ月ぐらいはずっとそれをやっていた、その業務をしていたんですけれども、そこからいろんな業務をさせていただいて。具体的には、今のAI起こしに関する業務であったり新規事業といいますか、そういった何かプロジェクトみたいなものに携わったりしておりました。


東京反訳では、言い間違いや資料の誤字と推測される発言が見られた場合、事実確認を行った上で、納品コメントにて正式な名称に直した経緯を明記しています。

聞き取り不能箇所の表記

AI音声認識の場合は、誤認識も発言の重なりもそのまま残るため、確認の際に誤りを見落としやすいというデメリットがあります。
一方、文字起こし業者は発言が重なり合って聞き取りにくい箇所、あるいは漢字の特定ができない箇所などに、伏せ字や記号を挿入して納品します。
タイムコードの挿入を指定することもできるので、音声と照らし合わせて聞き直す際に便利です。

AI音声認識サンプル

入社していないの。
はい。
歩みを簡単に言うと、ただ最近の働き方とか残業の状況とか、はい。
入ってから今の状況というのはどんな感じですかね。

文字起こし業者サンプル

入社して以来の歩みを簡単に●と、あとは最近の働き方、残業の状況、入ってから今の状況というのはどんな感じですか。

なお、当社では以下のような記述方法を使用しております。

【聞き取り不明箇所の記述方法】
録音状態や発言の重なりなどで聞き取りができない場合は、以下のように原稿に記述いたします。

原稿記述方法 呼び方 ケース
くろまる 単語や文節、短文単位で聞き取り不能な箇所
<聞き取り不能> 長文単位で聞き取り不能な箇所
ゲタ 聞き取れるが、漢字などの確定ができない箇所
「〓確定できない箇所〓」のようにゲタで挟みます。
[___] 【英語多言語】聞き取り不能な箇所
[Ph] 【英語多言語】聞き取れるが、固有名詞などの確定ができない箇所

話者分け

無料のAI音声認識ツールの中には、話者識別に対応していない場合や正確さに欠ける場合があります。
プロの文字起こし業者でも、参加者の人数や録音データの音質によって、聞き分けの精度が落ちることがあります。
しかし、座席表や動画資料を提供することにより、話者分けの聞き取り精度を向上させることが可能です。

AI音声認識サンプル

重要な決定なので企画室の耳にも入れておいた方が企画室ね担当誰がいいかなまあ佐藤さんは必須でしょう佐藤さんね佐藤さんとあと鈴木さん男性の方の鈴木さんも入れておきましょうか

文字起こし業者サンプル

A:重要な決定なので、企画室の耳にも入れておいたほうが。
B:企画室ね。担当誰がいいかな。
C:佐藤さんは必須でしょう。
D:佐藤さんと、男性のほうの鈴木さんも入れておきましょうか。

3素読み

これまでの工程で得た知識を踏まえ、改めて音声を聞かずに原稿を読み返し、発言内容の矛盾点や誤りを検証・調整します。 (全工程の約15%)

句読点、改行の適切な挿入

AI音声認識は、句読点と改行の位置が不自然な場合が多く、読みやすさ改善のためにご依頼者さまが自ら手直しを加える必要があります。
対して文字起こし業者の原稿には、人が文章を読み進める上で最適な箇所に句読点が打たれています。さらに、話題転換をふまえて段落分けが行われているため、話の要点がつかみやすくなっています。

AI音声認識サンプル

家庭もすごく評価してくれますしやる気とかも評価してくれされるので私の場合はいろんな仕事をしたいなと思っている意見に対しても拾ってくださって、いろんな仕事も
か任せていただけるので非常にやりがいも感じましたし

文字起こし業者サンプル

過程もすごく評価してくれますしやる気とかも評価してくださるので私の場合はいろんな仕事をしたいなと思っている意見に対しても拾ってくださって、いろんな仕事も任せていただけるので非常にやりがいも感じましたし

4レイアウト確認

納品前の最終チェックを行います。主に表記ルールなどが正しいかどうか検証します。(全工程の約5%)

校正

AI音声認識は人の目による校正を通すことなく原稿が納品されますが、別料金で校正サービスを行っている会社もあります。
一方、文字起こし業者は作業後に校正を行う会社が多いという特徴があります。
東京反訳では起こし漏れがないか、お客さまの求める仕様通りになっているか、誤字脱字はないか等をチェックしています。

独自フォーマットへの対応

AI音声認識は基本的に会社独自のフォーマットに対応することができませんが、東京反訳では以下のような特殊な対応が可能です。

ご対応事例(別途料金がかかる場合もあります)

  • 共通ヘッダーの挿入
  • Excel形式での納品
  • PowerPointノート箇所への入力
  • PowerPointスライドの図を原稿内に挿入
  • 起こし原稿の翻訳
  • 動画への字幕挿入 など

セキュリティについて

文字起こしの音声は、秘匿性の高い重要な情報を含んでいる場合も少なくありません。
大事な情報の漏洩を防ぐため、外注先を選ぶ際にチェックしておきたい項目についてご紹介します。

  • 情報セキュリティ基本方針、プライバシーポリシー、利用規約などに同意できるか
  • アップロードしたデータ、納品原稿のデータの取り扱い方針が順当であるか、データの削除が行われているか
  • 運営元がPマークやISMS適合評価認証などを取得しているか
  • 秘密保持契約(NDA)が締結できるか
  • 漏洩事故など何か問題が起きた場合に、責任の所在等が明確か

AI音声認識は無料で使えるサービスがほとんどですが、その場合、音声データの取り扱い方やサポート品質が低い可能性もあります。
より高い情報セキュリティレベルのサービスを利用するためには、有料版のサービスを選択することが推奨されます。
また、音声データがサーバーに残らないサービスを選択することが望まれますが、たとえ音声データが収集・保管されていたとしても、暗号化・匿名化などの対策がなされているサービスを選択することをおすすめします。

東京反訳のセキュリティに対する取り組みについては以下のページをご参照ください。