エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
ワークロードの分散が一定のままであれば、PTU の数は呼び出し速度でほぼ直線的にスケーリングされます... ワークロードの分散が一定のままであれば、PTU の数は呼び出し速度でほぼ直線的にスケーリングされます。 待機時間: 呼び出しごとの応答時間 このコンテキストでの待機時間の大まかな定義は、モデルから応答を取得するまでにかかる時間です。 完了要求とチャット完了要求の待機時間は、モデルの種類、プロンプト内のトークンの数、生成されるトークンの数によって大きく異なります。 一般的に、プロンプト トークンごとに増える時間は、生成されるトークンが増えた場合と比較して、微々たるものです。 これらのモデルでは、予想される呼び出しごとの待機時間の見積もりは困難な場合があります。 完了要求の待機時間は、(1) モデル、(2) プロンプト内のトークンの数、(3) 生成されたトークンの数、(4) デプロイとシステムの全体的な負荷の、4 つの主な要因によって異なります。 多くの場合、合計時間を主に左右するのは (1)