モデル監視におけるパフォーマンス監視機能は、推論遅延やスループットなど、計算に基づいた指標の測定に特化しています。この機能により、SRE(Site Reliability Engineer)は、リアルタイムでシステム上のボトルネックを検出し、システムの状態を維持することができます。また、リクエスト処理時間やトランザクション数に関する詳細な情報を提供し、AIサービスが様々な負荷条件下で一貫したパフォーマンスを維持し、劣化しないようにします。
システムは、すべての推論リクエストに対して継続的にレイテンシの測定値を収集し、応答時間の急激な増加や低下を特定します。
スループットデータは集計され、1秒あたりのリクエスト数を算出することで、エンジニアがシステムのリソース利用状況や拡張の必要性を理解するのに役立ちます。
遅延が設定された閾値を超えた場合、アラート機能が自動的に作動し、SREチームが迅速に対応できるようになります。
推論エンドポイントにおいて、コンピューティングメトリクスを収集するためのモニタリングエージェントを初期化します。
特定のモデルのエンドポイントに対するSLA要件に基づいて、レイテンシの閾値を設定します。
一定期間におけるデータ集約処理を行い、キャパシティの飽和状態を検知します。
レイテンシの急増とスループットの低下を関連付け、計算リソースのボトルネックを特定します。
リアルタイムでのレイテンシ傾向とスループットグラフの可視化により、迅速な状況把握を支援します。
パフォーマンス指標が重要な閾値を超えた場合、SRE担当者に即時に通知が送信されます。
監査およびデバッグのために、タイムスタンプ付きのレイテンシおよびスループット値を詳細に記録したログエントリを提供します。