音声書き起こしのアノテーション作業、教師データ作成いたします

AI音声認識の開発企業さま、ビッグデータ活用企業さまなど向けに、音声書き起こしのアノテーション(タグ付け)作成、教師データ・訓練データ作成、テキストコーパス作成、機械学習用データ作成などを承っております。

専門のコーディネーターがお客様の要望を丁寧に仕様に落とし込み、弊社独自の採用試験(聞き取り能力、一般常識、語彙力、注意力など)に合格したテープ起こし技術者が書き起こします。AI用に精度の高い教師データをお求めのお客様にご利用いただいています。

東京反訳アノテーションサービスの特長

対応可能なソリューション

●大量の会話音声の書き起こし
●ご指定フォーマット、仕様での納品
●特定話者の発言のみを書き起こし
●発言の重なりや沈黙(秒数)を表記
●カタカナやローマ字での起こし
●タグ付与 など

その他ご要望がございましたらお気軽にご相談ください。

実績と納品原稿の具体例

音声認識開発企業、研究機関、研究者さま
ビッグデータ活用企業さま
コールセンター運営企業さま など


書き起こし+タグ付け作業

カスタマーセンターの会話音声を、
下記の話し言葉コーパスのタグを付与しながら書き起こす。
(F): フィラー/感動詞
(D): 語断片
(?): 聞取りや語彙の判断ができない場合

原稿サンプル

オ:オペレーター
カ:カスタマー

オ:お電話ありがとうございます。
カ:(F えー)御社の○○○を使っています。
カ:(F そんで)(F あのー)録画しようとしたんですが、(F あの)ボタンを押しても、いかないんです。(F えーと)スイッチが全然利かない。
オ:ええ。
カ:選択肢の中に字はあるんだけど、矢印でやっても、できないんです。
カ:(F ま)言ってる間に、もう(F あの)録画始まってしまってるので。録画が始まるとできないのは分かっているので、(F あのー)始まったらスタートメニューのうち、(F えー)ダビングとかハードディスク、ディスクの管理はもう真っ白になってしまうので、(D 前)その前のときでもできなかった。(F で)2枚ほど試したんですができないので、どうなってるのかなと思って。

発言ごとにセルに分けながら書き起こす

以下仕様に従い音声の書き起こしを行う。

  • 発言で「。」の句点が入るタイミングごとにセルを分けエクセルに記入。
    30秒以上の発言は「、」の読点が入るタイミングでセルを分ける。
  • 発言ごとのセルに、発言の開始と終了時のタイムコードを小数点第二位まで挿入。
    例)“0:00:00.00 – 0:00:01:56それでは開始いたします。”で1セル
  • 発言の重複箇所には、指定された記号を挿入。
  • 数字は音声通りに記載。
    例)「1110」の場合の聞こえ方と起こし方
    A:せんひゃくじゅー → 千百十
    B:いちいちいちぜろ → 一一一〇
    C:いちいちいちまる → 一一一丸

音声認識の誤認識校正と辞書登録

音声認識システムにて書き起こされた内容をエクセルに書き出し、再度同音声を再生しながら誤認識の校正を行う。

その後リストアップした校正箇所を同音声認識システムに登録されている現行辞書と比較し、追加で辞書登録を行う。

※機械処理を行うには要件が複雑かつ頻度が少ない場合、人間系の処理を組み合わせてローコスト、短納期で作業を行うことが可能です。

安定した品質と納期のための弊社作業フロー

1. ヒアリング&仕様策定

コーディネーターがお客さまの利用目的、書き起こし方のルールやタグの表記方法などを丁寧にヒアリングし、仕様に落とし込みます。また音声データの音質や使用ツールなども確認いたします。

2. 作業工程設計

ご要望の品質と納期を担保できるよう、作業工程の構築と必要数の人員アサインを行います。 書き起こしのバラつきが起きないよう、作業用マニュアルを作成し、作業者に原稿仕様の周知教育をいたします。また工程管理ツールを作成し管理者を立て、進捗にずれが起きないようにいたします。

3. 検品

案件用に作成した専用品質チェックツールや複数人での確認により、納品原稿の品質担保を行います。 ITツールと人間系、それぞれの特性を生かした検品で最終成果物の品質を高めます。

 
お問い合わせフォーム

お気軽にご相談ください

その他様々な案件に柔軟に対応できます。 ご相談は下記フォームより、お願いいたします。

お問い合わせフォーム