此功能用于协调对传入数据集进行实时或批量验证,以确保其符合预定义的质量阈值。它在模型导入之前,确保数据的完整性、准确性和格式符合要求。通过早期检测异常情况,例如空值、超出范围的样本或模式漂移,该系统可保障后续推理的可靠性,并防止因受损的训练数据而导致的昂贵模型重训练。
该系统接收来自上游流程的原始数据流,并立即应用基于规则的验证检查,以过滤掉不符合规范的记录。
统计分析模块能够计算关键指标,例如缺失值百分比、列的基数分布以及与历史基准相比的特征漂移指标。
当检测到违反配置的容差范围的情况时,流水线将自动停止处理或将数据重定向至人工审核环节。
解析接收到的数据流,并根据当前的模式定义进行验证。
计算统计指标,包括零率、分布变化和异常值数量。
将计算出的各项指标与预定义的质量阈值和历史基线进行比较。
如果检测到违规行为,则可触发自动修复或阻止处理。
原始数据包的入口点,在此处进行解析和初步的模式验证,随后开始质量检查。
核心计算服务,用于执行统计测试、异常检测算法以及合规性规则评估。
为数据工程师提供的界面,用于查看实时质量评分、接收关键故障通知以及调整阈值。