東京反訳
アノテーションサービス

音声認識エンジン、機械学習のための[AI用学習データ作成]や、[アノテーション作業]、[教師データの作成]を代行いたします。

東京反訳アノテーション
サービスの特長

大量音声データの書き起こしに対応

大量音声データの
書き起こしに対応

業界最大級、国内約750名のワーカーを擁しています。
当社の品質基準で教育を行っており、大量の音声や急ぎのご依頼にも、品質とスピードを担保しながら対応できる体制を整えています。
全ての工程が国内作業となります。

ご希望のデータ仕様に対応

ご希望のデータ仕様に対応

お客さまの目的、用途に合わせたファイル形式、起こし方、タイムコードの挿入など、さまざまな仕様に対応いたします。

高いセキュリティ水準を実現

高いセキュリティ水準を実現

プライバシーマーク ISO9001/ISO27001

東京反訳のアノテーション作成作業フロー

1. 作業仕様策定

お客さまの利用目的、後工程を確認の上、ご要望の品質を担保する作業体制を構築いたします。
大量の案件も、当社国内750名のワーカーから適任者をアサインし、作業の仕組みにより安定した品質と納期を担保します。

2. 作業工程設計

最終成果物の仕様、要求品質水準、納期を確認の上、作業工程構築、作業人員アサインを行います。
作業フローは作業員により理解度のバラつきが出ないよう、作業用動画マニュアルや工程管理ツールなどを準備して作業を行います。

3. 大量の教師データ作成と検品

作業進捗を管理ツールにより把握しながら、アウトプットを複数人でチェックし、品質担保を行います。
ITツール、人間系、それぞれの特性を生かした検品で最終成果物の品質を高めます。

東京反訳の品質管理

※ご要望に応じ、テストデータを事前に作成することも可能です。

アノテーション作業・教師データ作成 実績実例

音声書き起こし+タグ付け作業

カスタマーセンターの会話音声(日本語)を、
下記の日本語話し言葉コーパスのタグを付与しながら書き起こす。
(F): フィラー/感動詞
(D): 語断片
(?): 聞取りや語彙の判断ができない場合

原稿サンプル

オ:オペレーター
カ:カスタマー

オ:お電話ありがとうございます。
カ:(F えー)御社の○○○を使っています。
カ:(F そんで)(F あのー)録画しようとしたんですが、(F あの)ボタンを押しても、いかないんです。(F えーと)スイッチが全然利かない。
オ:ええ。
カ:選択肢の中に字はあるんだけど、矢印でやっても、できないんです。
カ:(F ま)言ってる間に、もう(F あの)録画始まってしまってるので。録画が始まるとできないのは分かっているので、(F あのー)始まったらスタートメニューのうち、(F えー)ダビングとかハードディスク、ディスクの管理はもう真っ白になってしまうので、(D 前)その前のときでもできなかった。(F で)2枚ほど試したんですができないので、どうなってるのかなと思って。

音声認識システム用教師データ作成

音声認識システムにて書き起こされた内容をエクセルに書き出し、再度、同音声を再度システム上で再生しながら、誤認識の校正を行う。
校正箇所をリストアップし、同音声認識システムに登録されている現行辞書と比較し、辞書登録を行う。
※機械処理を行うには要件が複雑かつ頻度が少ない場合、人間系の処理を組み合わせてローコスト、短納期で作業を行うことが可能です。

音声を発言ごとにセルに分けながら書き起こす

以下仕様に従い音声の書き起こしを行う。

  • 発言で「。」の句点が入るタイミングごとにセルを分けエクセルに記入。
    30秒以上の発言は「、」の読点が入るタイミングでセルを分ける。
  • 発言ごとのセルに、発言の開始と終了時のタイムコードを小数点第二位まで挿入。
    例)“0:00:00.00 - 0:00:01:56それでは開始いたします。”で1セル
  • 発言の重複箇所には、指定された記号を挿入。
  • 数字は音声通りに記載。
    例)「1110」の場合の聞こえ方と起こし方
    A:せんひゃくじゅー → 千百十
    B:いちいちいちぜろ → 一一一〇
    C:いちいちいちまる → 一一一丸

企業情報

社名 東京反訳株式会社
所在地 〒171-0022 東京都豊島区
南池袋3-13-15 東伸ビル4F
電話番号 03-5960-1772
設立 平成18年10月
資本金 1,000万円
役員 役員紹介はこちら
プライバシーマーク ISO9001/ISO27001