【AI時代の文字起こし-音声認識との差別化を図る-】西尾愛さま画像

今回は校正ワーカーの西尾愛さまより、【AI時代の文字起こし-音声認識との差別化を図る-】をテーマにご寄稿いただきました。
西尾さまには校正ワーカーとして当社に多大な貢献をいただいておりましたが、このたび3月をもって東京反訳を卒業され、4月より高校の国語科教諭として一歩を踏み出されることになりました。

■目次

■はじめに

はじめまして、校正ワーカーの西尾と申します。
文字起こし歴7年、東京反訳さまとのお付き合いは6年になります。よろしくお願いします。

今回タイトルで「音声認識」を取り上げましたが、実は7年前、私が初めて文字起こしワーカーとして登録したのが、まさに音声認識の会社でした。『アレクサ』や『グーグルアシスタント』など、身近になりつつあった音声認識の裏側を垣間見ることができ、大変な刺激を受けたことを覚えています。

音声認識はますます進化し続けています。最近も、人工脳組織を搭載したコンピューターチップが人の声を聞き分けたという、驚きのニュースが発表されました。
こんな時代だからこそ、AIが苦手とする部分をしっかりとカバーし、クライアントから「頼んでよかった」と思っていただける原稿づくりを目指しましょう。

■漢字は意味から当てはめる

AIは同音異義語や同訓異字の識別が苦手だと言われます。例えば、スマホの音声検索で「教授が学生にコウギする」と話し掛けると「抗議」と出ますが、教授と学生の立場を考えると「講義」のほうが自然な感じがしますよね。
また、滑舌が悪かったりして音が不明瞭だと「悪→楽」「行使→防止」のように誤って別の言葉に変換されることもあります。文字起こしでは、会話の流れや背景を丁寧に押さえ、その場に合った漢字を当てはめましょう。

ここで実際の事例を1つ。

話者はカウンセラーの方で、「クライアントの自立を促すために『シジ』的なカウンセリングが必要だ」という発話がありました。
当初、クライアントを支え援助するという意味で「支持的」かと思ったのですが、よく聞くと、ここは「クライアントにただ共感するだけでなく、カウンセラーからも積極的に情報を提供していこう」という文脈。最終的に、支持・傾聴とは真逆の「指示的」と判断しました。

他にも「×主義→○手技」(話者:看護師)、「×職階→○食介」(話者:介護士)、「×門下→○文科」
「×他人→○担任」(話者:教師)など話し手の属性も、漢字を当てはめる手がかりになります。

■つながりを意識する

AIは文脈を読み取るのが苦手だと言われます。文脈とは「つながり」です。語と語、文と文のつながりが自然かどうか、助詞や接続詞の働きに注意しましょう。

次の文章は、毎日新聞校閲部が校閲体験のために作った文章です。
助詞の重要性をお伝えするために、引用させていただきました。まず読んでみてください。

「(トランプ氏は)選挙戦では、企業減税やオバマ政権による医療保険制度改革(オバマケア)撤廃などを主張。日本など同盟国は米軍駐留経費の負担増を要求し、米軍撤退や核武装容認にも言及して物議を醸し出した。」
(毎日新聞校閲グループ,2017『校閲記者の目 あらゆるミスを逃さないプロの技術』,毎日新聞出版)

どこか違和感を感じませんでしたか。

正解は「×日本など同盟国は→○日本など同盟国にはです。

「は」だと「日本」が主語になってしまいます。日本が経費の負担増を要求したり米軍や核武装について言及した、ととらえるのは違和感がありますよね。
トランプ氏が日本に要求した、と見るのが自然です。このように「助詞」が一字違うだけで意味ががらりと変わってしまいます。実際の文字起こしでも、たかが1文字とあなどらず、正確に書き起こしましょう。

接続詞を見れば、その前後に入る内容を推測できます。これも実際にあった事例ですが「早めに対策をたてる、つまり●」と、接続詞の直後が●になっていました。
この場合、「つまり」が前の内容を要約する接続詞であることに着目すれば、●には「対策をたてる」と同義の言葉が入ると想像できます(この時は「手を打つ」が正解でした)。

「あるいは」「または」といった二者択一の接続詞があれば、前後に似たような言葉が入るでしょうし、「しかし」「けれども」といった逆接の接続詞があれば、後に予想外の結果や、意外な内容が続くことが予想されます。
このように、接続詞は文字起こしの大きな手掛かりになります。

接続詞ではありませんが、「AじゃなくてB」という場合、「なくて」が否定の意を表すことに着目すれば、BにはAの対義語が入ることが予想されます。

実際に「オフィシャルじゃなくて●に」という発話で、●に「非公式(=オフィシャルの対義語)」が入ったケースがありました。

■型を覚える

裁判や経営会議など、進行・つながりがパターン化している案件については、型をしっかりと覚えてしまいましょう。(「主尋問の後に反対尋問」といった順序や、専門用語など)

■手掛かりはあらゆるところに

他にも、文脈をつかむには人間関係や場所、時間など背景を押さえるのもポイントです。
案件名やファイル名からも、話者の名前、日付や場所などいろいろなことが読み取れますので、文字起こしの参考にしてくださいね。
時々、過去のことを話しているのに「思います」など、語尾を現在形にしている原稿を見かけます。いつのことを話しているのか、時制にも注意しましょう。

■番外編 「話し」と「話」

校正をしていると、「話し」と「話」の使い分けがされていないケースを多々見かけます。
記者ハンドブック「送り仮名の付け方」では「活用する語(=動詞など)は送り仮名を付ける」「活用のない語(=名詞)は送り仮名を付けない」となっていますから、ここはしっかりと使い分けましょう。

よくある「おはなしする」という発話の場合、「はなし」を動詞ととらえるなら「お話しする」ですし、「はなし」を名詞ととらえるなら「お話(を)する」なんですね。
ただ、「お<動詞>する」は敬語の謙譲表現ですので、「申し上げる」に言い換えられない場合、文脈から謙譲表現が適当でないと思われる場合は、「はなし」を名詞ととらえて送り仮名を省き、「お話(を)する」にしましょう。

これは私の個人的な考えですが、近ごろの音声認識の普及を鑑みると、今後は整文や要約まで求められるケースが増えてくるのではないでしょうか。
そうなっても大丈夫なよう、日ごろから文法も意識して文字起こしをしたいですね。

■おわりに

今回、漢字や文法など形式的なことをお話ししてきましたが、忘れてはならないのは、クライアントの存在です。
どんな目的で文字起こしを依頼されたのか、原稿を見てどのようにお感じになるか、クライアントの立場に立って考えることが、正確で読みやすい原稿づくり、ひいては音声認識との差別化につながると考えます。
一つ一つの仕事に誇りと責任を持って、AIに負けない文字起こしのプロを目指しましょう!!