数据管道与 ETL 模块中的数据抽样功能,允许组织通过生成具有统计显著性的子集,高效地管理海量数据集。该功能支持关键的测试阶段,在这些阶段中,对完整数据集进行处理可能在计算上不可行。通过应用分层抽样或随机抽样技术,数据科学家可以在不耗尽系统资源的情况下,验证预处理流程并训练初始模型。
该系统接收原始数据流,并应用可配置的抽样算法,根据预定义的标准,提取具有代表性的子集。
中间处理环节用于验证样本的完整性以及统计分布,并在将结果传递给后续分析引擎之前进行处理。
最终确定的样本已存储为优化格式,可直接供机器学习训练流程使用。
定义抽样策略的参数,包括样本量和分布类型。
对源数据流执行提取逻辑,并应用已配置的过滤器。
验证生成的子集在统计特性上是否与原始总体一致。
将最终确认的样品导出至指定的存储或处理终端。
用户可以在流程编辑器中定义抽样参数,包括样本大小、分层规则和抽样方法。
实时指标显示样本统计数据,例如均值、方差和数据完整性,以确保数据的代表性。
系统日志记录了数据摄入速率、处理延迟以及已采样数据集成功交付到目标位置的情况。