この機能は、受信したデータセットを、あらかじめ定義された品質基準に対して、リアルタイムまたはバッチ処理で検証します。モデルへの取り込み前に、データの完全性、正確性、およびフォーマットの適合性を保証します。このシステムは、欠損値、分布からの逸脱、またはスキーマのずれなどの異常を早期に検出し、これにより、後続の推論の信頼性を確保し、破損したトレーニングデータによって引き起こされる高コストな再トレーニングを防止します。
システムは、上流のパイプラインから生データストリームを取り込み、同時にルールベースの検証チェックを適用し、不適合なレコードをフィルタリングします。
統計分析モジュールは、欠損値の割合、カラムのカーディナリティ分布、および過去の基準データとの比較による特徴量ドリフト指標など、主要な指標を算出します。
設定された許容範囲を超える違反が検出された場合、パイプラインは自動的に処理を停止するか、データを手動レビューのために別の経路へ転送します。
受信データストリームを解析し、現在のスキーマ定義との整合性を検証します。
統計指標、例えば有意水準、分布の変化、および外れ値の数を算出します。
算出された指標を、あらかじめ設定された品質基準および過去の基準値と比較する。
違反が検出された場合、自動的な是正措置を実行するか、処理を停止します。
生データペイロードが解析され、品質チェックが開始される前に初期のスキーマ検証が行われるエントリーポイント。
統計分析、異常検知アルゴリズムの実行、およびコンプライアンス規則評価を行うための主要なコンピューティングサービス。
データエンジニア向けのインターフェース。リアルタイムの品質スコアの確認、重大なエラー発生時の通知、および閾値の調整が可能です。