AIと文字起こし業者の組み合わせで研究効率化を実現

目次

近年、AI音声認識の技術革新は目覚ましく、誰もが手軽に音声をテキスト化できるようになりました。その一方で、研究やビジネスの場においては、人手文字起こし業者に外注することが適切である場合もあります。
今回は、AI音声認識と人手文字起こし業者の効率的な利用方法について、歴史を専門とされる大学教授に当社代表取締役社長 田邊がインタビューを行いました。

大学教授が文字起こし業者を活用するメリットとは?

文字起こしを外注するようになった経緯

教授:資料集を作成するため、誰かに文字起こしを頼みたいと思ったことが依頼のきっかけです。これまでは大学院生などをアルバイトに雇って任せていたんですが、最近は労務管理が厳しくなり、出退勤管理が教員の責任になったので、請負ができなくなってしまいました。また最近は学生も忙しくしていて、あまり研究につながりにくいアルバイトは頼みづらいという理由もあります。
そこでまずはAI音声認識にかけてみたんですが、原稿を確認したところこのままでは使えそうにないぞということになりまして。こうなってくるといよいよ専門の業者に外注して、請負でやっていただくほうがいいかなという結論になってきますよね。

代表田邊:やっぱり本筋の研究成果を上げるためにも、研究時間を確保することは大事だと思いますので、使えるところにはぜひ文字起こし業者を使っていただければと思っています。

教授:そうですね。最近は特に大学の研究時間が少なくなっていて、その割にやることが増えて忙しくなっているという印象です。ある程度効率的にやっていかないと時間を作れないというか、調査や考察の時間を取るために、外に任せられるとこは任せたいなっていうのは正直なところあります。うちみたいなケースだと子どもがまだ小さかったりするので、なおさら短時間にどういうふうにやっていくかっていうのは、結構な課題ですよ。

代表田邊:お仕事、家庭、自分って、3つありますから、どうバランス取るんだっていう話ですよね。

教授:はい。最近は学校の自由研究も、親子でやることが前提になっていて。だから意外と夏休みもそんなに時間が取れる感じではなくて、こうした中で研究をやってくためには、外注の必要性が増していくのだろうなと予想しています。

文字起こし業者に依頼して良かったこと

教授:まず、他の業者さんや学生アルバイトに依頼する時と比べて、料金が安いなと思いました。特に学生に依頼する場合は時給換算なので、作業者のスピード次第で単価が変わってしまうのですが、外注なら一定の金額でお願いできるので。
また、ホームページ上でおおよその見積もりが算出できて、見積もり注文からデータ削除までオンライン上で完結できたのもありがたかったです。私たちのような30代、40代くらいの世代は、取りあえずインターネットで頼めるなら頼んでしまおう、と考える人が増えている気がします。使いやすいですし、システム化されているので便利ですよね。
以前は大学近くの別の業者に頼んでいたのですが、その時はデータや資料などを手渡しで預けていたので、ちょっと面倒だなと感じていました。それと、作業者によってテープ起こしの品質がだいぶ変わるので、今のように一定の金額・品質が担保されているのはありがたいですね。

コロナ禍によって訪れた変化

代表田邊:最近ではコロナ禍に行われたオンライン講義の音声を、テキスト化して研究なり書籍なりに転用するトレンドがあるのかなと認識しています。

教授:僕も出版社の人から「講義音声を基にテキストを作りたい」という依頼が増えていると聞いたので、それは大いにあるかと思います。語り口が柔らかくなるので、むしろしゃべった言葉をそのままテキストにするほうが良いんじゃないかっていう。特に歴史の場合、結構専門外の人も論文を読んだりするんですよね。そういう意味では分かりやすいに越したことはないので、他の自然科学系とかよりも、授業の内容を使って論文に近いものを書くっていう需要はあるかなと思います。

代表田邊:コロナ禍以降、科研費の使い道は変わりましたか?

教授:外出自粛の影響で、調査用の旅費が縮小した分、違った方向にもお金を使うようになりました。例えばシンポジウムの動画に字幕を付けてもらったり、新しい資料を手に入れるために、資料の複写や撮影を業者に外注したり。そういう生産的な依頼が今後も増えていくと思います。
あと、以前からできるだけ成果を一般市民へ還元したいとは思っていたのですが、近頃は特に意識するようになりました。やるだけやってそのままになってしまっていた講演会やセミナーも、文字起こしすることで記録に残せる。これからもそういう用途に使えるんじゃないかなと思います。

東京反訳では、講座・セミナー動画の文字起こしはもちろん、翻訳、字幕挿入のご依頼までワンストップで承っております。教育プログラムのグローバル化、アクセシビリティー向上などにご活用ください。

AI音声認識と人手起こし業者を比較して

人手文字起こし業者に校正を依頼した理由は?

代表田邊:今回はAI音声認識にかけた原稿を、人手文字起こし作業者に校正してほしいと伺いましたが、なぜ改めて校正を外注しようとお考えになられたのでしょうか。

教授:一番の問題は、やはり固有名詞や専門用語の認識率が期待通りではなかった点です。こちらの声の明瞭さとか、ツールによって違うとは思うんですけど、たまに“石炭”とか“石油”とかそういう、基本的な言葉でもうまく拾えていないことがあって。

代表田邊:AI音声認識の認識率は、発話者の滑舌やエンジン精度などによっても変わりますからね。

教授:おっしゃる通りです。ただ、文脈が分かっていれば間違えないようなところでも普通に間違っているので、それを修正するのに結構、時間がかかるなというところですね。他のAI音声認識でも、※1ケバ取りとかそういうのは無理なんでしょうか?

※1 ケバ:会話などに含まれている、それ自体では意味をなさない短い言葉のことを呼びます。ケバをそのまま文字に起こすと原稿が読みづらくなるため、東京反訳の「標準起こし」では追加料金なしでケバを削除しています。

代表田邊:最近、オプションが出てきて、ケバ付き・ケバなしを選べるようになりました。ですがやはり※2整文までは難しいみたいです。いったん起こしたものをきれいにすることはできても、ちょっと言葉尻が変な「ですます」になってしまったり、ニュアンスが変わってしまうことがあるみたいですね。

※2 整文:語尾を「ですます調」に統一し、話し言葉を書き言葉に整えることです。抜けている助詞を補完し、冗長な表現もカットするため、話の要点が見えやすくなります。(東京反訳でご依頼される場合、追加料金がかかります。)

教授:AI翻訳でも勝手に文章が抜かれてしまうとか、そういうことが度々起こりますよね。

代表田邊:ChatGPTに「文章はそのままで句読点を付けて」と指示を出しても、文章が変わってしまうことがあるそうです。やはりどうしても最後は人の目で確認しなければいけないという点が、歯がゆいところではあるのかなと。

教授:僕も一回AI音声認識で上がってきた原稿を自分の手で直してみたんですけれど、30分ぐらいの音声を直すのに、合計2時間ぐらいかかってしまって。こういう単調な作業は面倒くさいというか、疲れますよね。

代表田邊:そうですね。研究の合間にツールの使い方を試行錯誤するというのは、本業とはまた違った領域になりますから、ご負担も大きいのではないかと思います。

人手文字起こし業者が専門用語に強い理由

代表田邊:今回は事前に専門用語が載っている資料をご提供いただきましたので、専門知識よりも整文に特化した者をアサインしたのですが、仮に資料のご提供がなかった場合、専門知識のある者でないと聞き取りが難しい、高度な内容であったように思います。知らない言葉ってね、聞き取れないんですよ。

教授:なるほど。確かに僕も、昔テープ起こしの学生アルバイトをやったことがあるんですが、ビートルズを題材にした内容だったので、知らない曲名をいちいち調べながら作業した覚えがあります。

代表田邊:曲名のような、調べればきちんと特定できる用語はまだいいほうで、学術論文などはインターネットに載っていない情報も含まれているので、いかにして正確な情報にたどり着けるかが重要になってくるんです。
最近課題として感じているのは、先にAI音声認識にかけてしまうと、校正する側の人間が意外とその情報に引っ張られてしまうっていう問題。例えば“臨床試験”という用語が、AI音声認識結果で“印象試験”になっていたりすると、「あ、そういう試験があるんだ」と人間のほうが勘違いしてしまったりする。そうなると、もうどんなに聞き返しても“印象試験”というふうにしか聞こえなくなってしまうんですよね。

<AI音声認識と人手文字起こし業者のメリット・デメリット>

AI音声認識 人手文字起こし業者
メリット 大まかな文字起こし原稿が素早く安く手に入る 専門用語や固有名詞を正確に起こせるので、確認の手間が少ない
デメリット ケバや誤認識を目視でチェックし、自分で修正する必要がある AI音声認識よりも納期と費用がかかる

AI音声認識のメリットと論文指導における意外な活用方法

代表田邊:現状、AI音声認識の性能は決して完璧とは言えず、人手起こしのほうが精度が高いとされています。しかし、スピードやコスト面で言えば圧倒的にAI音声認識のほうが強い。例えば発話者が1人しかいない講演会の下起こしには、AI音声認識を使ったほうがいいんじゃないかなと思うことがあります。だから本当にケース・バイ・ケースな時代になってきたなと。そのような中で、先生が「AI音声認識はこういう時に使おう」と思っていらっしゃることはおありだったりしますか?

教授:手軽に使えるものですし、取りあえず認識できるものはさせてみよう、とは思いますね。で、出てきた結果を目視確認した上で、やっぱりこの精度では駄目だなと思う場合は、今回のように人の目を通したチェックをお願いするとか、そういう使い方になるかなと思います。
あと最近よくやっているのが、「話をするのは得意なんだけれど、文章を書くのが苦手」という学生に、取りあえず考えていることを一通り話してもらって、それをAI音声認識で起こして「あとは自分で直してください」とフィードバックする指導方法です。
学部生だけじゃなくて、大学院生でも、やっぱり修士論文を書くというのはものすごく大変なんです。彼らは「ポンチ絵を作って、それを基に話すことはできるんだけれども、いざ文章として書くとなるとなかなか書けない」というようなことを言っていて。こちらとしてみれば「言ってる通りの内容を取りあえず書いて、後から並び替えればいいのになぁ」というふうには思ったりはするけれども。なのでそういう論文指導とかに、AI音声認識を活用すれば、コスト的にもスピード的にも割に合っていて、書く取っかかりをつかんでもらいやすいんじゃないかと思います。

今後、AI音声認識と人手文字起こし業者をどのように使い分けるか

代表田邊:ありがとうございます。そうすると今後も、AI音声認識と人手の業者に頼むっていうところは、場面に応じて使い分けていくような感じですかね。

教授:そうですね。当面はそうなると思います。将来もうちょっと技術が進んだらとは思いますけど、でもどれぐらい進むか分からないですよね。事前に固有名詞を登録するにしても、うちの分野だとインターネット上に載ってない情報も多いので、結局、紙の情報しかないわけですから、ネット上の情報を集めて学習させるっていう手段も通用しないですし。

代表田邊:確かに、ここ3年ぐらいでだいぶ用語も充実してきたなとは思っているんですけど、例えば業界用語とか略称とか、同音異義語みたいなものは、どうしても精度が出にくいかもしれないですね。
AI音声認識の進化って、得意な分野に寄ってしまいがちな傾向があるみたいです。日常会話に登場しやすい用語であったり、議会で頻繁に利用される用語に偏って学習されることが多少あるようですね。

教授:そうなってくると、ちょっと機械だけでやるのはまだ無理だなというか。研究論文のような難解な文章を、全てAI音声認識に書かせるというのは、現実的に考えてちょっと難しいんじゃないですかね。

代表田邊:今回のご依頼のように、ご提供いただいた資料から専門用語を抜き出し、原稿に落とし込むといった手作業は、人手文字起こし業者だからこそ実現できる領域かなと思います。
その一方で、AI音声認識にはAI音声認識にしか出せない、スピードや手軽さといった魅力もある。それぞれを適切に使い分けることが、貴重な研究時間を確保する近道であると言えそうですね。

番外編 講義内容を上手に録音するコツは?

教授:実は最近、講義の録音がうまくいかず悩んでいます。コロナ禍など、Zoomでオンデマンド・ハイブリッド授業を行っていた時は、Zoomのレコーディング機能を使えるので、割と普通にマイクをつけているだけでも、きれいな音声がクラウドに保存されていたんです。でも今はコロナが明けて普通の授業に戻ったので、この前試しに録音してみたら、マイクにうまく音声が入っていなくて。ポケットにマイクを入れてしまうと、全然音が拾えないんですね。

代表田邊:はい。布面が擦れると雑音が入ってしまうので、ポケットの内側に固定できるマイクを購入していただくか、あるいは授業や講演の際は、手持ちマイクやピンマイクが一番音を拾いやすいです。
また先生によっては、講義のたびに毎回マイクを準備するのは大変ということで、ICレコーダー自体をマイクのように持って講義される方もいらっしゃいます
やはり音質がいいものはきれいに起こせるんですけれども、ちょっとお声が遠いぞとなると、はっきり聞き取れない箇所が出てきて原稿に響くといったようなことも起こりますので。録音方法を少し工夫していただくことによって、今回のような品質の高い原稿をお届けできるかと思います。