短期コンテキスト
短期コンテキストとは、AIモデル(特に大規模言語モデル (LLM) や会話エージェント)が次の出力を生成する際に積極的に考慮できる、直感的で限られた先行情報群を指します。これは、特定の対話やセッションにおけるシステムの「ワーキングメモリ」です。
大量の履歴データを保存する長期記憶とは異なり、短期コンテキストはモデルの固定されたコンテキストウィンドウ、つまり同時に処理できる最大トークン(単語またはサブワード)数によって制約されます。
短期コンテキストの質とサイズは、AIの応答の一貫性、関連性、正確性を直接決定します。コンテキストウィンドウが小さすぎると、モデルは会話の初期部分を「忘れて」しまい、無意味または反復的な出力を生じさせます。効果的なコンテキスト管理は、信頼性の高い人間のような会話体験を構築するために不可欠です。
ユーザーがプロンプトを入力すると、システムはそのプロンプトと先行する対話ターン(会話履歴)を単一の入力シーケンスにまとめます。この短期コンテキストを構成するシーケンスがトランスフォーマーアーキテクチャに供給されます。その後、モデルはアテンションメカニズムを使用して、その限られたウィンドウ内の各トークンの重要度を重み付けし、次に最も可能性の高いトークンを予測します。