校准分析评估机器学习模型中预测概率分数与实际观测频率的一致性。这一关键评估确保模型在预测特定事件的可能性时,该预测在实际场景中能够成立。通过使用诸如Brier分数或可靠性图等指标来量化校准误差,组织可以识别系统性偏差,例如,对于高概率事件出现过度自信的预测,或对于低概率事件出现过度保守的预测。这个过程对于在受监管的行业(如金融和医疗保健)部署模型至关重要,因为准确的概率估计直接影响下游决策、资源分配和合规性要求。
分析过程首先从模型的推理引擎中提取预测概率,并将这些概率与保留的验证数据集中的真实标签进行配对。
统计校准指标用于量化预测置信度与实际准确性在不同概率区间上的偏差。
结果通过可靠性图进行可视化,该图将预测概率与实际频率进行对比,以揭示模型过拟合或欠拟合的模式。
从模型推理结果中提取所有验证样本的预测概率。
将预测结果按照概率阈值划分为十个等级或区间。
计算每个区间内的实际频率,并与预测的平均概率进行比较。
计算包括布里尔评分 (Brier score) 和期望校准误差 (expected calibration error) 在内的聚合校准指标。
上传包含特征向量和对应真实标签的验证数据集,用于概率比较。
对模型进行处理,以生成一批与输入验证特征相对应的预测概率分数。
显示生成的指标、可靠性曲线以及诊断报告,突出显示特定区域的校准误差。