アクティブラーニングは、機械学習のワークフローを効率化するために、繰り返し、不確実性が高いデータや情報量が多いデータを特定し、ラベル付けを行います。この手法により、最適なモデル性能を達成するために必要なラベル付きデータの総量を削減し、アノテーションコストを大幅に削減するとともに、製品化までの時間を短縮します。組織は、計算リソースを重要な決定境界に集中させることで、サンプル選択における手動によるバイアスを排除し、より迅速に堅牢なモデルを構築できます。
システムは、既存のラベル付きデータセットを用いてベースラインモデルを学習させることで初期化され、初期のパフォーマンス指標と不確実性の推定値を確立します。
アクティブラーニングアルゴリズムは、ラベル付けされていないデータポイントを評価し、現在のモデルに対するそれらのデータポイントが持つ予測される情報量増加または予測分散を算出します。
高付加価値のサンプルは、人的アノテーションによって選定され、トレーニングデータに更新されます。その後、モデルを再トレーニングし、継続的なフィードバックループを確立します。
現在のラベル付きデータセットを使用して、ベースラインモデルを初期化します。
未ラベルデータに対して、不確実性指標を用いて評価を行う。
情報量に基づいて、上位k個のサンプルを選択します。
新たにアノテーションされた、高価値なサンプルデータを用いてモデルを再学習する。
各未ラベルデータに対して、モデルが予測を行う際に抱える不確実性を算出することで、モデルが自信を持って予測できない領域を特定します。
ラベル付けの優先順位付けを行うために、Expected Model ChangeやMax Varianceなどの最適化アルゴリズムを適用します。
選択された、価値の高いサンプルを、算出された情報ゲインスコアに基づいて、優先的にアノテーターに提出します。