该功能系统地审计机器学习模型,以检测在受保护属性上的统计歧视。它通过分析特征权重、决策边界和输出分布,来识别潜在的差异性影响。该过程通过量化偏见指标,确保模型在投入生产环境前符合相关法规。
该系统会导入历史训练数据集和推理日志,以建立不同人群细分市场的基准性能指标。
算法分析通过计算失衡比率和均衡赔率分数,以识别特定方面的歧视或过度代表现象。
结果与业务影响评估相关联,以确定优先实施的补救措施,这些措施应符合组织的伦理准则。
初始化审计上下文,通过定义受保护属性集合和目标公平性阈值。
执行子组性能分析,比较不同人口统计群体的预测准确率和错误率。
计算偏见指标,包括差异影响比率 (disparate impact ratio) 和机会均等化得分 (equalized opportunity score)。
根据已识别的统计差异,生成详细的整改建议。
自动从分布式存储集群中提取带标签的数据集和推理轨迹,用于全面的偏见审计。
在计算沙箱环境中,执行统计测试,包括人口统计均衡性检查和校准分析。
偏见热图和合规性评分的可视化结果,可直接提供给机器学习伦理专家进行审查和采取行动。