この機能により、データマネージャーは、厳格な品質管理プロトコルを実行することで、ラベル付けされたデータセットの整合性を監視できます。この機能は、不整合、ラベルの欠落、およびガイドラインからの逸脱を自動的に検出し、同時に、人間による検証メカニズムを提供します。このシステムは、検証済みのデータのみがトレーニングパイプラインに進むことを保証し、これにより、機械学習モデルのデータ品質を維持します。
品質管理モジュールは、ラベル付けされたデータセットを、あらかじめ定義されたスキーマ規則および過去の精度基準と比較することで、自動化された監査ログを開始します。
特定された不整合は、重要度レベルが付与され、データマネージャーが、緊急の人的介入を必要とする重要なエラーを優先的に対応できるようにします。
最終検証レポートは、すべての注釈が企業レベルの品質基準を満たしていることを確認する、認証済みデータセットの状態を示します。これにより、モデルの取り込み前にデータ品質が保証されます。
システムは、アノテーションパイプラインから取り込まれた、完了したアノテーションバッチを、品質管理のための一時的な保存領域に格納します。
自動化されたスクリプトが、初期段階でフォーマットの妥当性、完全性、およびガイドラインへの準拠に関するルールベースのチェックを実行します。
検出された異常は、関連するメタデータと信頼度指標とともに、データマネージャーのキューに転送されます。
マネージャーがサンプルを審査し、最終的な判断を下した後、システムがデータセットのステータスを正常にクリアされたものとして更新します。
アクティブなアノテーションプロジェクト全体で、リアルタイムの精度指標、エラー分布のヒートマップ、およびコンプライアンススコアを可視化します。
データマネージャー専用の作業領域を提供し、問題のあるサンプルを検査したり、関連情報を確認したり、承認または却下の処理を実行したりすることができます。
すべての検証イベントを記録し、ユーザーID、タイムスタンプ、判定結果、およびシステムが生成した信頼度スコアを含みます。