5.2.1.20.2. 文字起こし¶
入力音声ファイルをもとに文字起こしを行うためのタスクです。
5.2.1.20.2.1. 入力値¶
im_transcription <object> *
├─ input <binary> *
└─ option <object>
└─ model <string>
項目名 | 必須/任意 | 型 | 配列/リスト | 説明 |
---|---|---|---|---|
im_transcription | 必須 | object | なし | - |
input | 必須 | binary | なし | 音声ファイルを指定してください。
(mp3ファイルなど)
|
option | 任意 | object | なし | - |
model | 任意 | string | なし | モデルを指定してください。 |
コラム
input に指定可能なファイル形式や model に指定する値については、各生成AIサービスにより異なります。
各生成AIサービスには、ファイルの大きさに制限がある場合があります。2024年10月現在、OpenAIの場合は最大25MBです。
OpenAI:
参考値:whisper など
Azure OpenAI Service:
Azure OpenAI リソースにモデルをデプロイした際に指定したデプロイ名
Azure OpenAI リソースのモデルデプロイについては「IM-Copilot 利用ガイド」の「Azure OpenAI Serviceのセットアップ」を参照してください。
注意
input に指定するファイルのサイズ、同時アクセス数などを考慮してご利用ください。
(実行環境のサイジング設計や負荷試験など)
5.2.1.20.2.2. 出力値¶
im_transcription <object>
└─ text <string>
項目名 | 型 | 配列/リスト | 説明 |
---|---|---|---|
im_transcription | object | なし | - |
text | string | なし | 文字起こし結果 |