コンテンツにスキップ

動画アップロードの自動キャプション

はじめに

自動音声認識(ASR)モデルは、字幕や翻訳の生成を可能にすることで、動画コンテンツのアクセシビリティを革命的に向上させました。これらのモデルは、高い精度で話された言葉をテキストに書き起こすために高度なアルゴリズムを利用しています。ASR技術を動画プラットフォームに統合することで、コンテンツクリエイター、出版社、配信者は、聴覚障害者や異なる言語でコンテンツを消費することを好む人々を含む、より広範なオーディエンスにリーチできます。

プロセスは、動画ソースから音声をキャプチャすることから始まり、その音声がASRモデルに供給されます。このモデルは音声波形を分析し、それをテキスト表現に変換し、話された内容を字幕の形でキャプチャします。さらに、ASRモデルを言語翻訳に使用することもでき、多言語字幕の作成を可能にします。字幕が生成されると、それは動画と一緒に表示され、話された内容の同期したテキスト表現を提供します。

アップロード時の自動キャプション

図1: アップロード時の自動キャプション

  1. クライアントアップロード: 動画と音声の両方をAPIエンドポイントにPOSTリクエストで送信します。
  2. 音声の書き起こし: 音声を入力としてWorkers AI自動音声認識(ARS)モデルを呼び出して、タイムスタンプ付きの書き起こしを生成します。Workersを使用して、出力をサポートされている字幕形式に変換します。
  3. 字幕の保存: 字幕ファイルをR2に保存します。
  4. 動画の保存: 動画ファイルをR2に保存します。
  5. クライアントリクエスト: 動画と字幕のGETリクエストをオリジンに送信します。グローバルCacheを使用してパフォーマンスを向上させます。
  6. オリジンリクエスト: キャッシュのMISS時にR2からファイルを取得します。Public Bucketsを使用します。

関連リソース