此计算密集型功能通过应用统计变换、生成模型和噪声注入技术,自动创建扩充数据集。它处理原始输入特征,生成多样化的样本,这些样本在保留底层分布特征的同时,引入必要的变异性,以用于训练深度学习模型。该系统执行批处理工作流程,以高效地在大型企业级数据集上进行数据增强操作,无需人工干预。
该功能首先通过分析特征分布,以确定针对特定数据类型的最佳数据增强策略。
然后,它会同时启动多个并行合成数据生成引擎,并应用诸如SMOTE、GANs以及高斯噪声注入等技术。
最后,系统会对增强后的样本进行质量评估,然后将其合并到主要的训练数据集中。
将原始数据集导入计算集群。
分析特征分布,并选择策略。
对数据样本执行并行增强算法。
验证输出质量并将其合并到训练集中。
用户可以通过安全的API接口上传原始数据集,以便进行即时处理和分析。
科学家可以通过可视化界面选择增强算法并定义参数。
输出质量通过自动化指标仪表盘进行评估,并在部署到模型之前进行审查。