フェデレーテッド・スコアリング
フェデレーテッド・スコアリングとは、基盤となるデータが複数の独立した、そして多くの場合地理的に分散したノードやデバイスに存在する場合に、機械学習モデルのパフォーマンスを評価したりスコアを割り当てたりするプロセスを指します。すべての生データを単一の中央サーバーに集約してスコアリングする代わりに、スコアリングロジックは分散され、データ主権を維持しながらモデルをローカルデータセットに対してテストできるようになります。
現代のエンタープライズ環境では、データが集中化されていることはほとんどありません。規制上の制約(GDPRやHIPAAなど)や膨大なデータ量により、機密データを移動することは非現実的または違法になります。フェデレーテッド・スコアリングは、データプライバシーを侵害したり、大規模なデータ転送コストを発生させたりすることなく、厳密な実世界でのパフォーマンス検証を可能にすることで、この問題に対処します。
このプロセスでは、通常、中央オーケストレーターがモデルアーティファクトまたはスコアリング関数を様々なローカルクライアントに配布します。各クライアントは、自身のプライベートデータセットに対してローカルでスコアリング関数を実行します。入力データや結果のスコアを直接送信する代わりに、クライアントは集計されたメトリクス、勾配の更新、またはローカライズされたパフォーマンス指標をオーケストレーターに送信することがあります。その後、オーケストレーターがこれらの分散化された結果を集約し、全体的なシステム全体のパフォーマンススコアを生成します。
フェデレーテッド・スコアリングは、エッジコンピューティング、モバイルデバイスのインテリジェンス、マルチパーティデータコラボレーションが関わるシナリオで極めて重要です。例としては、異なる銀行支店全体で不正検出モデルのスコアリングを行うことや、さまざまな地域ユーザーベース全体でパーソナライズされたレコメンデーションエンジンを評価することが挙げられます。
主な利点には、データプライバシーの強化、推論をデータソースにより近づけることによるレイテンシの削減、およびガバナンスやインフラストラクチャの制限によりアクセスできなくなる可能性のある大規模で異種なデータセット上でモデルを訓練および検証できる能力が含まれます。
フェデレーテッド・スコアリングを実装するには、ネットワークの異質性、異なるデータ分布(非IIDデータ)にわたる統計的関連性の確保、および多数の独立したノード間の通信オーバーヘッドの管理に関連する複雑さが伴います。
この概念は、分散データにわたるモデルのトレーニングに焦点を当てるフェデレーテッド・ラーニングと密接に関連していますが、フェデレーテッド・スコアリングは、分散的な方法でのモデルの評価または推論検証に特化しています。差分プライバシーは、共有されるメトリクスに数学的な保証を追加するために、しばしば併用されます。