トークン予算
大規模言語モデル(LLM)および生成AIの文脈において、トークン予算とは、アプリケーションまたはユーザーが特定のインタラクション、API呼び出し、または使用期間内に処理することが許可される最大トークン数を指します。トークンは、LLMが情報を処理するために使用するテキストの基本的な単位であり、単語、サブワード、または文字を表すことができます。
この予算は、モデルが同時に処理できる総入力(プロンプト)サイズと総出力(補完)サイズを決定し、レイテンシと運用コストに直接影響を与えます。
トークン予算の管理は、いくつかのビジネス上の理由から極めて重要です。
トークン化プロセスは、生のテキストを離散的なトークンに分解します。例えば、「tokenization」という単語は複数のトークンに分割される可能性があります。トークン予算は通常、モデルのコンテキストウィンドウサイズ(例:4096トークン)によって定義されます。このウィンドウは、入力プロンプトと期待される出力応答の両方を収容する必要があります。
プロンプトが3000トークンを消費し、モデルの最大コンテキストウィンドウが4096トークンである場合、応答に残っている予算はわずか1096トークンになります。