intra-mart Accel Platform IM-LogicDesigner仕様書 第25版 2024-10-01

5.2.1.20.2. 文字起こし

入力音声ファイルをもとに文字起こしを行うためのタスクです。

5.2.1.20.2.1. 入力値

im_transcription <object> *
  ├─ input <binary> *
  └─ option <object>
       └─ model <string>
項目名 必須/任意 配列/リスト 説明
im_transcription 必須 object なし -
input 必須 binary なし
音声ファイルを指定してください。
(mp3ファイルなど)
option 任意 object なし -
model 任意 string なし モデルを指定してください。

コラム

input に指定可能なファイル形式や model に指定する値については、各生成AIサービスにより異なります。
各生成AIサービスには、ファイルの大きさに制限がある場合があります。2024年10月現在、OpenAIの場合は最大25MBです。

OpenAI:
参考値:whisper など

Azure OpenAI Service:
Azure OpenAI リソースにモデルをデプロイした際に指定したデプロイ名
Azure OpenAI リソースのモデルデプロイについては「IM-Copilot 利用ガイド」の「Azure OpenAI Serviceのセットアップ」を参照してください。

注意

input に指定するファイルのサイズ、同時アクセス数などを考慮してご利用ください。
(実行環境のサイジング設計や負荷試験など)

5.2.1.20.2.2. 出力値

im_transcription <object>
  └─ text <string>
項目名 配列/リスト 説明
im_transcription object なし -
text string なし 文字起こし結果