intra-mart Accel Platform IM-LogicDesigner仕様書第25版 2024-10-01

目次 ≪ 5.2.1.20.1. チャット 5.2.1.20.3. 音声生成 ≫

5.2.1.20.2. 文字起こし¶

入力音声ファイルをもとに文字起こしを行うためのタスクです。

5.2.1.20.2.1. 入力値¶

im_transcription <object> *
  ├─ input <binary> *
  └─ option <object>
       └─ model <string>

項目名	必須/任意	型	配列/リスト	説明
im_transcription	必須	object	なし	-
input	必須	binary	なし	音声ファイルを指定してください。（mp3ファイルなど）
option	任意	object	なし	-
model	任意	string	なし	モデルを指定してください。

コラム

input に指定可能なファイル形式や model に指定する値については、各生成AIサービスにより異なります。
各生成AIサービスには、ファイルの大きさに制限がある場合があります。2024年10月現在、OpenAIの場合は最大25MBです。

OpenAI:
https://platform.openai.com/docs/api-reference/audio/createTranscription
参考値：whisper など

Azure OpenAI Service:
Azure OpenAI リソースにモデルをデプロイした際に指定したデプロイ名
Azure OpenAI リソースのモデルデプロイについては「IM-Copilot 利用ガイド」の「Azure OpenAI Serviceのセットアップ」を参照してください。

注意

input に指定するファイルのサイズ、同時アクセス数などを考慮してご利用ください。

（実行環境のサイジング設計や負荷試験など）

5.2.1.20.2.2. 出力値¶

im_transcription <object>
  └─ text <string>

項目名	型	配列/リスト	説明
im_transcription	object	なし	-
text	string	なし	文字起こし結果

目次 ≪ 5.2.1.20.1. チャット 5.2.1.20.3. 音声生成 ≫