主动学习通过迭代地识别具有高不确定性或高信息价值的数据点进行标注,从而优化机器学习工作流程。这种方法减少了实现最佳模型性能所需的标注数据总量,显著降低了标注成本,并加速了产品上线时间。通过将计算资源集中在关键决策边界上,企业可以更快地构建稳健的模型,同时避免人工选择样本带来的偏差。
系统首先通过在现有标注数据集上训练一个基准模型,来建立初始性能指标和不确定性评估。
一种主动学习算法会评估未标记的数据点,并计算它们相对于当前模型的预期信息增益或预测方差。
高价值的样本会被选择进行人工标注,并更新到训练集中,模型则在一个持续的反馈循环中进行重新训练。
使用当前标注数据集初始化基准模型。
使用不确定性指标评估未标注数据。
根据信息增益,选择前 k 个样本。
使用新标注的高价值样本重新训练模型。
计算每个未标记样本的认知不确定性,以识别模型在预测方面缺乏信心的区域。
采用如期望模型变化 (Expected Model Change) 或最大方差 (Max Variance) 等优化算法,对候选样本进行排序,以确定标注优先级。
优先将选定的、具有较高价值的样本提交给人工标注员,并根据其计算出的信息增益评分进行排序。