文字起こしのプロが語る、「良い文字起こし原稿」の本質とは

1.業者ごとに異なる「ケバ取り」と「整文」の違い
2.AIの発達とともに加速する「正確な文字起こし」へのニーズ
3.大切なのは真にお客さまの負担を軽減する文字起こし原稿
4.AI音声認識の精度が100%に到達しない要因は「日本語の難しさ」にあり？

人の発言を人の耳で聞き取って記録する、文字起こしの仕事。
近頃は「機械で簡単にできるのではないか」「誰にでもできるシンプルな作業なのではないか」という声も聞かれますが、実際は専門的な知識やスキルが求められる高度な仕事です。
今回は20年以上のキャリアを持つ、東京反訳所属のプロの文字起こしライターに、「人が起こした原稿はAIによる自動起こし原稿と何が違うのか」「文字起こしという仕事の本質とは何か」について詳しく伺いました。
※このインタビューは「ケバ付き」以外の起こし方（「標準起こし」および「整文」）に限定して説明を行っています。

東京反訳株式会社シニアエキスパート文字起こしマスター　伊藤彩映

製造会社に約6年間勤務後、結婚・出産で退職。人の話を聞きながらメモを取ることが好きだったことから速記や文字起こしに興味を持ち、2000年頃第2子妊娠中に文字起こしの勉強を開始。その後、個人事業主として2006年に東京反訳株式会社と業務委託契約を結び、数多くの業務に携わる。2014年に正社員として登用され、現在はシニアエキスパート文字起こしマスターとして東京反訳のワーカー教育に従事している。

業者ごとに異なる「ケバ取り」と「整文」の違い

――文字起こし会社のWebサイトを比較していると、会社ごとに起こし方の種類にばらつきがありますよね。そこで、まずは東京反訳における「標準起こし（ケバ取り）」と「整文」の違いについて解説をお願いします。

伊藤：まず「標準起こし」では、文脈に関係のない不要語（ケバ）を取り除き、さらに言い間違いや重複表現などを削除することによって、読みやすい原稿を作成します。ただし口語体はそのまま残しますので、会話や講演の雰囲気などが残る点が特徴的です。用途としてはインタビューやヒアリング、座談会などの文字起こしに向いています。
いっぽう「整文」は、記録として逸脱しない範囲で話し言葉を書き言葉に変更します。例えば抜けている助詞を補完したり、倒置表現を戻したり、ですます調に直したりといった書き換えが加わります。ただし脚色や編集は加えません。こちらは重要会議や講演会、シンポジウムの記録などに適しています。

【標準起こし（ケバ取り）】原稿サンプル
初めに現状の把握ができたらなと思ってます。ひとまずこの委員会のメンバーで、何でもざっくばらんに、困っていることとかこうしてほしいとか要望とかをいろいろ出してみたいなと思うんですけども、よろしいでしょうか。

【整文】原稿サンプル
初めに現状の把握をしたいと思っています。ひとまずこの委員会のメンバーで、困っていることやこのようにしたいなどの要望を、何でもざっくばらんにいろいろと出してみたいと思いますが、よろしいでしょうか。

文字起こし・テープ起こしの起こし方

――「整文」では言い回しの一部が変更される可能性があるのですね。「どんどん」「わくわく」のようなオノマトペはどのように起こされるのですか？

伊藤：当社の「整文」ではオノマトペをそのまま起こすようにしています。先ほどお伝えした通り、当社における「整文」はあくまでも意味は変えず、発言内容を正確に起こすことを重要視しているためです。
最近はChatGPTなどのAI要約機能を利用する方も多いでしょう。しかしAIによる「整文」や「要約」は、スピードこそ速いものの、出来上がった内容を見てみると聞き取りにくい語句が省略されていたり、発話していない単語が含まれていることがあります。私たちはこのような時代だからこそ、人の力で発言者の意図をくみ取り、誤訳にならないように文字化することが大切だと考えています。

AIの発達とともに加速する「正確な文字起こし」へのニーズ

――先ほどおっしゃっていた「このような時代」という部分にもう少しフォーカスして、彩映さんが「正確に起こす」ことを重視されている背景について詳しく教えてください。

伊藤：最も顕著なことは、コンプライアンス意識の高まりから、いわゆる証跡としての文字起こしのご依頼が増加傾向にある点です。具体的には内部通報や第三者委員会、ハラスメント調査などで録音された音声などが上げられます。
AI音声認識による自動文字起こしツールは、現段階ではまだ精度100％の領域には到達していません。だからこそ、人の手によって丁寧に記録された文字起こし原稿が、証跡としての効力を高めているのです。当社はあくまでも第三者としての立場を守り、文字起こしライターの意図を含めることなく、客観的に発言内容を記録することをミッションとしています。

大切なのは真にお客さまの負担を軽減する文字起こし原稿

――発言を正確に起こすことを前提とした上で、文字起こしのプロとしての彩映さんが考える、もう一段階踏み込んだ「良い文字起こし原稿」について教えてください。

伊藤：お客さまに文字起こし原稿をお渡しした後は、その原稿を活用して議事録や報告書の作成など、次の工程に入るケースがほとんどですので、その際になるべく手をかけずに済む原稿にすることが大切だと思っています。
そのためには「誤字脱字のミスがない」「表記揺れがない」ことはもちろんですが、話し手の発言の文意を取りながら文字化すること。そしてケバを一律にカットするのではなく、言葉の一つ一つを慎重に取り扱うことが大切だと思っています。
AI音声認識によるケバ取りは、「この言葉がケバ」というふうに登録された言葉を、一律でカットするという仕組みになっています。そのため、いざケバを除去してみたらおかしなところが抜けていたり、重要な言葉の中の一部分がなくなっていたり、結果として違う言葉を吐き出していたりということがよく見られます。文意をくんで不要な表現だけをカットする作業は、人間のファジーな判断力の方が向いているということが分かります。

――なるほど。そういえば自動文字起こしツールを使った時に、「A4判」という言葉が「4番」とだけ記録されていて、何だろうと思ったことがありました。これは、音声認識が「えー（A）」をケバとして認識してしまったがゆえに、ケバを除去した結果「4番（4判）」だけが残るという現象だったのですね。

伊藤：おっしゃる通りです。ケバの代表的な言葉としては、主に「えー」とか「あー」とか、「うーん」などがありますが、それらの音が含まれる言葉はどうしても誤認識が発生しやすくなります。せっかくAI音声認識ツールを導入したのに、結局後から自分で音声を聞き直さなければならないとなると、残念に感じられる方も多いのではないでしょうか。
もう一つ、読みやすい原稿を作成する上で、私たちが気を付けていることとして「どもり」や「言い間違い」の文字起こしがあります。単純にどもりをカットするのであれば、いずれ音声認識でもできるようになるかもしれません。しかし、そもそもどもるシチュエーションとは、話者の方が何を言おうか迷われている時が多いものです。そのため私たちが「どもり」や「言い間違い」を文字起こしする際は、話者が最終的に何を言おうとしているかを判断することによって、より正確な記録を残すことを意識しています。

――具体的にはどのようなケースが考えられるのでしょうか。

伊藤：例えば会議中に「ジョブサービス部門」と発言した人がいたとして、その後しばらく議論を続けていくうちに、先ほどの発言は「ジョブスタイル部門」のことを言っていたと発覚したとします。その場合、AI音声認識では誤った発言がそのままテキスト化されてしまいますが、私たちは一度最初の発言に立ち返り、正しい表記である「ジョブスタイル部門」に修正します。
このように、人間が聞けば明らかに「言い間違い」だと気付ける内容でも、AIは自分の力で判断して修正することができません。そうなってしまうと、後から議事録や報告書としてまとめる際に、せっかくの重要な発言が見落とされてしまうことがあり得るのです。
誰が読んでも分かりやすい原稿を作成することによって、後工程の工数削減につながるのはもちろんのこと、最終成果物の品質を高めるという効果も期待できます。

AI音声認識の精度が100%に到達しない要因は「日本語の難しさ」にあり？

――今や世界中でAI音声認識を用いた自動文字起こしツールが普及していますが、日本語の認識率がなかなか上がらない理由は、日本語という言語の特異性も関係しているのでしょうか。

伊藤：そうですね。まず「日本語には助詞がある」ところが大きいかと思います。よく海外の方から「日本語は助詞が難しい」と言われているのは、助詞ひとつで文章の意味が大きく異なるという理由が大きいのかもしれません。
特に話し言葉では助詞が抜けてしまったり、話している勢いで異なった助詞を話してしまうことが多いものです。聞いている分には支障がなく、言葉の意味がすんなり理解できますが、それはあくまでも人間の脳が意味を取れるようにできているからです。実際はそのまま文字化してしまうと、異なった意味になってしまうことが多々あります。

――先ほどの質問に関連して、AI音声認識が間違いやすい日本語ならではのポイントは、他にもいくつかあるのでしょうか。

伊藤：はい。例えば同音異義語や異字同訓のように、同じ音声や似た音声で異なる意味を持つ固有名詞はたくさんあります。AI音声認識は音をそのまま文字化してしまうので、話の流れに沿わない漢字になっていることが多々あります。こうした現状を踏まえると、人間がきちんと聞き取って文字にするという工程は大切だと思います。
また、AIは学習されていない言葉を吐き出せないので、ニッチな学術用語はうまく認識されないことがあります。情報収集源がインターネットに限られるAIと異なり、私たち文字起こし業者はお客さまからお借りした資料を参照することで、情報を補完できるという強みがあります。
東京反訳の文字起こしライターは「聞き直し」および「検索」の作業に最も多くの時間を割いています。初めはうまく聞き取れなかった単語も、話者の背景や用語の知識をインプットしてから聞き直してみると、途端にするすると耳に入ってくるようになります。

東京反訳の文字起こし 4つのステップ

AI時代の文字起こしサービス・業者の選び方

――単純に聞き取り能力の違いだけでなく、そういったところからも精度の違いが出てくるのですね。その他、日本語に限らずAI音声認識が苦手としているポイントはありますか？

伊藤：音声認識は会話の重なりの聞き分けがまだまだ苦手のようです。人間の耳だからこそ声の違いを聞き分けられるし、話の流れとして「この人がこの発言をするのはおかしい」という違和感に気付いて、正しい話者に修正することができます。
それから現状のAIは、文意に合わせた句読点の挿入と段落分けができないようで、こちらが意図しない場所に句読点が入っていることがあります。話の論点とは無関係な場所で段落が分かれていて、いまいち法則がつかめないところがあるので、そのあたりは人間だからこそできる領域なのかなと思います。

	AI音声認識サンプル	文字起こし業者サンプル
正しいケバ取り	中断してしまいましてはいですね再開したいと思いますはい。	議長：中断してしまいまして。野中：いえいえ。議長：~~はい、~~じゃあ~~ですね、~~再開したいと思います。野中：はい。
どもり、言い方の癖	要はここの料理通だったわけです	要はここの両立だったわけです
同音異義語、異字同訓	この部分が鑑賞している	この部分が干渉している
ニッチな専門用語	古生物で有名なリチャードコーティング	古生物で有名なリチャード・フォーティ
発話の重なり	外側がねすごいんじゃないですか。それいいよねいいえ、悪くなったそうです。そう話していいと思いますよみたいな。へえ、	Ａ：外側が骨の生き物ね、すごいいいじゃないですか。Ｂ：いいよね。Ｃ：いいよね。Ｂ：悪くない。Ｄ：いいと思います。
句読点、段落分け	受付業務を、しております	受付業務をしております。

――ありがとうございます。次回は「会議の種類や利用目的に合わせたオーダーメイドの文字起こし」についてお話を伺います。