可解释基准
可解释基准是一套标准化的测试集,它不仅旨在衡量人工智能模型的原始性能(准确率、F1 分数),还旨在量化模型得出决策的方式和原因。与仅关注输出指标的传统基准不同,这些基准纳入了与可解释性、鲁棒性和公平性相关的指标。
在关键应用中——例如医疗诊断、贷款审批或自动驾驶——高准确率分数是远远不够的。利益相关者要求确保模型是合乎逻辑和合乎道德地运行的。可解释基准弥合了高性能与高信任度之间的差距,使开发人员和监管机构能够审计人工智能的推理过程。
这些基准集成了各种评估层。除了标准指标之外,它们通常要求模型在做出预测的同时提供解释(例如,特征重要性得分、反事实示例)。然后,基准会根据事实真相或人类期望来评估这些解释的质量、稳定性以及保真度。
开发稳健的可解释基准是复杂的,因为“好的”解释是主观的。在所有领域中,没有一个普遍的标准来界定什么是足够清晰或忠实的解释。
该概念与可解释人工智能 (XAI)、模型可解释性以及对抗性鲁棒性测试密切相关。