低遅延ガードレール
低遅延ガードレールとは、大規模言語モデル(LLM)やその他の生成AIから望ましくない、または有害な出力を防ぐためにAIパイプライン内に実装されるシステムまたは一連の事前定義された制約であり、極めて高速な応答時間を維持します。これは、ユーザー入力と最終的なモデル出力の間のリアルタイムフィルターまたは検証レイヤーとして機能します。
ライブカスタマーサポートボットやリアルタイムレコメンデーションエンジンなどの現代的で高スループットなアプリケーションでは、安全性は速度を犠牲にすることはできません。従来の安全チェックは、かなりの処理遅延を引き起こす可能性があります。低遅延ガードレールは、重要な安全チェック(毒性フィルタリングやPIIマスキングなど)が最小限のオーバーヘッドで実行されることを保証し、エンドユーザーにAIが瞬時に感じられるようにします。
これらのガードレールは通常、次の2つの方法のいずれかで動作します。