この機能により、サイト信頼性エンジニアは、コンピューティング領域におけるサービスレベル契約(SLA)の遵守状況を監視できます。分散型推論サービスから収集したレイテンシ、スループット、エラー率などのメトリクスを、あらかじめ定義されたSLAの閾値と比較します。このシステムは、リアルタイムでコンプライアンス状況を可視化し、サービス劣化が発生した場合にチームに即座に通知することで、迅速なインシデント対応を支援し、AIインフラ全体のエコシステムにおける運用効率の維持に貢献します。
システムは、AIモデルをホストするコンピューティングノードから継続的にテレメトリデータを収集し、正常な動作の基準を確立します。
リアルタイム比較アルゴリズムは、現在のパフォーマンス指標を定義されたSLA(サービス品質)目標と比較し、潜在的なサービス劣化を示唆する逸脱を特定します。
自動化されたアラート機能が、閾値超過時にSREチームに通知し、定義済みの復旧ワークフローが起動され、サービスレベルが復元されます。
各コンピューティングクラスタについて、レイテンシの上限、可用性率、およびエラー許容率を含む、具体的なSLA(サービス品質)パラメータを定義してください。
推論サービスが稼働しているコンピューティングノードから、高頻度なメトリクスを収集するためのテレメトリー収集パイプラインを設定します。
受信したメトリクスを、確立されたSLAの閾値と比較するロジックを実装し、コンプライアンス状況を算出します。
SLAパラメータに違反が発生した場合に、通知と対応スクリプトを自動的に実行するアラートルールを有効にします。
監視対象のすべてのコンピューティングクラスタについて、リアルタイムのSLA遵守率と過去の推移グラフを表示する、集中管理インターフェース。
統合された通知システムにより、重要なSLA違反を、詳細な情報と推奨される対応策とともに表示します。
外部監視ツールやチケット管理システム向けに、RESTful APIを通じて詳細なSLAメトリクスを取得するためのプログラムアクセスポイントを提供します。