アクティブラーニング統合は、現在のモデルの信頼度に基づいて最も情報量の多いサンプルを自動的に選択することで、データラベリングのワークフローを最適化します。この手法は、不確実性が最も高い箇所に人的リソースを集中させることで、アノテーションコストを削減し、モデルの収束を加速します。従来のデータ処理のように、順次またはランダムにデータを処理するよりも効率的です。
システムは、既存のラベル付きデータセットを取り込み、ベースラインモデルを構築するとともに、予測のばらつきが大きい領域を特定します。
アルゴリズムエンジンが、ラベル付けされていないデータサンプルを評価し、アノテーションを行うことでモデル全体の誤差をどの程度低減できるかという潜在能力に基づいてランキング付けを行います。
アノテーションプラットフォームでは、優先度キューが生成され、評価の高いサンプルがワークキューの先頭に配置されます。
アクティブラーニングのプロセスを、現在のラベル付きデータセットとベースラインモデルのバージョンを使用して初期化します。
利用可能なすべての未ラベルデータセットに対して、不確実性評価指標を算出します。
情報ゲインの潜在力を基にサンプルをランク付けし、優先順位付けされた選択リストを作成します。
最高品質のサンプルデータを注釈インターフェースに提供し、モデルの再学習のためにパフォーマンスに関するフィードバックを記録します。
この機能は、計算インフラストラクチャに連携し、新たにアノテーションされた優先度の高いデータを使用して、モデルを継続的に再学習します。
データサイエンティストは、緊急度を示す指標とともに、選択スコアに基づいて厳選されたサンプルデータが提供されます。
バックエンドサービスは、エントロピーと予測のばらつきを計算し、それに基づいてリアルタイムでサンプルの優先順位を動的に調整します。