该功能在存储系统中执行自动化数据匿名化流程,系统地替换或哈希敏感标识符,以防止其进入训练流程。它确保数据集不包含任何个人身份信息 (PII),并符合严格的法规框架,如 GDPR 和 CCPA。该过程涉及扫描原始输入数据,根据保留策略应用可逆或不可逆的转换算法,并验证已移除的可识别属性,以防止重识别攻击。
该系统从安全的存储空间读取原始训练数据集,并启动深度扫描,利用模式识别引擎检测个人身份信息 (PII)。
一旦检测到个人身份信息 (PII),引擎将应用预配置的匿名化算法,例如 k 匿名或差分隐私,对数据进行转换,同时保留用于模型训练的统计效用。
后处理过程包含一个验证步骤,该步骤会对转换后的数据集进行审计,以确认在归档或将其发布到训练集群之前,不存在任何可识别的残留模式。
扫描传入数据集,以识别与已知个人身份信息 (PII) 结构或敏感元数据字段相匹配的模式。
应用选定的匿名化算法,以替换或遮蔽已识别的数据点,同时保持数据的可用性。
执行验证程序,以确保已处理的数据集中不包含任何可识别的个人信息。
将转换后的数据存档,并记录不可篡改的日志,以确认合规性,同时安全地将其分发到训练环境。
自动触发机制会在新数据集上传时启动扫描,并标记包含潜在个人身份信息 (PII) 的文件,以便立即进行匿名化处理。
配置界面允许工程师根据数据的敏感级别和法规要求,选择合适的匿名化策略(例如,分词、哈希)。
实时仪表盘显示匿名化成功率、已标记的个人身份信息 (PII) 数量以及验证日志,用于审计跟踪和合规性报告。