コンテキスト圧縮
コンテキスト圧縮とは、大規模言語モデル(LLM)に提供される入力データ(コンテキストウィンドウ)のサイズまたは複雑さを、必要な出力のために最も重要な意味的情報を保持しながら削減するために使用される一連の技術を指します。
このプロセスは極めて重要です。なぜなら、LLMには有限のコンテキストウィンドウの制限があり、非常に長い入力を処理することは計算上コストがかかり、時間がかかるからです。
実際のアプリケーションでは、ユーザーは文書全体、長いチャット履歴、複雑なコードベースなど、膨大な量のテキストをコンテキストとして提供することがよくあります。これらすべての生データをモデルに送信すると、かなりのコスト(トークンごとの料金)が発生し、推論レイテンシが増加します。
コンテキスト圧縮は、これらのボトルネックに直接対処し、企業が強力なLLMを経済的かつ大規模に展開できるようにします。
コンテキスト圧縮にはいくつかの手法が採用されており、これらはしばしば組み合わせて使用されます。
コンテキスト圧縮は、いくつかのエンタープライズユースケースで不可欠です。
コンテキスト圧縮を実装する主な利点は3つあります。
その有用性にもかかわらず、コンテキスト圧縮は完璧な科学ではありません。主な課題には以下が含まれます。
この技術は、検索拡張生成(RAG)、ファインチューニング、プロンプトエンジニアリングと密接に関連しています。RAGが関連データを検索することに焦点を当てるのに対し、コンテキスト圧縮はすでに検索または提供されたデータを凝縮することに焦点を当てます。