AI学習用 文字起こし

音声認識エンジン、機械学習のためのAI学習用データ作成や、
アノテーション作業(タグ付け)、教師データの作成を代行します。

Share
Share

AI音声認識の開発・活用企業さま、研究者さま向けのサービスです。

研究効率を上げる高品質なテキストデータを生成するため、独自の試験に合格した国内約750名の作業者が対応します。データの用途をお伺いし、予算・納期に合わせた最適な仕様をご提案いたします。
主な用途:音声認識用のアノテーション(タグ付け)データ・教師データ・機械学習用データ作成、テキストコーパス作成など

オンラインでのお打合せを承ります。
お打合せが必要な場合には、WEB会議・テレビ会議にても承りますので、お気軽にお申しつけください。
プロジェクトを遂行する専門担当者が対応いたします。

特長

専任担当者による丁寧なヒアリングと仕様策定

プロジェクト開始にあたり、経験豊富な専任担当者がお客様のご利用目的や起こし方などをヒアリングいたします。
その上でご予算、ご希望納期を担保する最適な仕様を策定いたします。

細かなご要望にもお応えします

ファイル形式、起こし方、タグ付け方法、タイムコードの挿入など、さまざまな仕様に柔軟に対応いたします。
また、当社の独自テストに合格した国内約750名の文字起こしワーカーから、案件仕様に最適な人員をアサインします。

精度の高いデータ作成

作業者用動画マニュアルの作成、検品用チェックツールの作成なども仕様に合わせて独自に行います。
人、IT両面からのチェックにて品質管理を行い、高品質なデータを作成します。

高いセキュリティ水準を実現

情報セキュリティへの取り組み

プライバシーマーク  ISO9001/ISO27001

ソリューション例

ご依頼内容の一例です。
貴社の研究・開発ニーズに合わせたソリューションに対応いたします。お気軽にご相談ください。
ELAN、Praat、Aegisubなどのソフト用発話セグメント形式の書き起こしも承ります。
作業内容:1発話に対して始端から終端の細かなタイムスタンプを挿入した区間区切り作業(発話セグメント作成)など

大量音声・動画データの書き起こしに対応

大量の会話音声の
書き起こし

ご指定フォーマット、仕様での納品

ご指定フォーマット、
仕様での納品

特定話者の発言のみを書き起こし

特定話者の発言のみを
書き起こし

発言の重なりや沈黙(秒数)を表記

発言の重なりや
沈黙(秒数)を表記

カタカナやローマ字での起こし

カタカナやローマ字での
起こし

タグ付与

タグ付与

タグ付与

発話データの収集

実績・実例

    対象企業さま
  • AI開発・音声認識技術開発企業さま
  • ビッグデータ活用企業さま
  • コールセンター運営企業さま

音声書き起こし+タグ付け作業

カスタマーセンターの会話音声(日本語)を、
下記の日本語話し言葉コーパスのタグを付与しながら書き起こす。
(F): フィラー/感動詞
(D): 語断片
(?): 聞取りや語彙の判断ができない場合

原稿サンプル

オ:オペレーター
カ:カスタマー

オ:お電話ありがとうございます。
カ:(F えー)御社の○○○を使っています。
カ:(F そんで)(F あのー)録画しようとしたんですが、(F あの)ボタンを押しても、いかないんです。(F えーと)スイッチが全然利かない。
オ:ええ。
カ:選択肢の中に字はあるんだけど、矢印でやっても、できないんです。
カ:(F ま)言ってる間に、もう(F あの)録画始まってしまってるので。録画が始まるとできないのは分かっているので、(F あのー)始まったらスタートメニューのうち、(F えー)ダビングとかハードディスク、ディスクの管理はもう真っ白になってしまうので、(D 前)その前のときでもできなかった。(F で)2枚ほど試したんですができないので、どうなってるのかなと思って。

音声認識システム 登録辞書の精度改善

1. 音声認識システムにて書き起こされた内容をエクセルに書き出し。
2. 同音声を再度システム上で再生しながら、誤認識の校正を行う。
3. 校正箇所をリストアップ。
4. 同音声認識システムに登録されている現行辞書と比較し、辞書登録を行う。

※機械処理を行うには要件が複雑かつ頻度が少ない場合、人間系の処理を組み合わせてローコスト、短納期で作業を行うことが可能です。

音声認識結果データの校正いたします

音声を発言ごとにセルに分けながら書き起こす

以下仕様に従い音声の書き起こしを行う。

  • 発言で「。」の句点が入るタイミングごとにセルを分けエクセルに記入。
    30秒以上の発言は「、」の読点が入るタイミングでセルを分ける。
  • 発言ごとのセルに、発言の開始と終了時のタイムコードを小数点第二位まで挿入。
    例)“0:00:00.00 – 0:00:01:56それでは開始いたします。”で1セル
  • 発言の重複箇所には、指定された記号を挿入。
  • 数字は音声通りに記載。
    例)「1110」の場合の聞こえ方と起こし方
    A:せんひゃくじゅー → 千百十
    B:いちいちいちぜろ → 一一一〇
    C:いちいちいちまる → 一一一丸

作業フロー

0. お問い合わせ

まずはお問い合わせフォームより概要をお知らせください。

1. 作業仕様策定

AI学習用教師データ作成専門の担当者が、以下のような項目をヒアリングいたします。

  • お客さまのご利用目的
  • 起こし方要望(タグ付け方法など)
  • 後工程
  • ご要望される品質レベル
  • ご予算と納期
  • セキュリティレベル
など

2. 作業工程設計

お打合せを重ね、以下の項目を最終確認いたします。

  • 最終成果物の仕様
  • 要求品質水準
  • 単価と納期
その後作業工程の構築、人員のアサインに入ります。

3. 教師データ作成・検品

作業者によるバラつきを防ぐため、作業用動画マニュアルなども作成し、仕様を周知徹底します。
仕様に合わせた独自作成の工程管理ツールや検品チェックツールを使い、納期と品質を担保いたします。

関連サービス

関連サービス

ELAN、EndNote、NVivoなどの各種ソフトウェアで分析するため、看護インタビューなどの文字起こしのご依頼をご検討されている方は、会話分析用テープ起こしサービスをご利用ください。

Share

お気軽にご相談ください

ご希望に合わせて柔軟に対応いたします。
自動チャットやメール、お電話にてご質問ください。