フェデレーテッドモデル
フェデレーテッドモデル(Federated Model)は、多くの場合フェデレーテッドラーニング(FL)を介して実装される機械学習パラダイムであり、生のデータを交換することなく、ローカルなデータサンプルを保持する分散型のエッジデバイスまたはサーバーのネットワーク全体で共有グローバルモデルを訓練します。機密データを中央の場所に集約するのではなく、モデルがデータの方へ移動します。
GDPRやCCPAのような厳格なデータ規制の時代において、機密性の高いユーザーデータを一元化することは、リスクが高く、多くの場合コンプライアンス違反となります。フェデレーテッドモデルは、組織がモバイルフォン、病院、またはローカル支店サーバーなどに存在するような膨大で分散したデータセットを活用して堅牢なAIモデルを構築できるようにしつつ、データをローカルかつプライベートに保つことで、この問題を解決します。
このプロセスにはいくつかの反復的なステップが含まれます。まず、中央サーバーがグローバルモデルの現在のバージョンを、選ばれた参加クライアントに送信します。次に、各クライアントはその独自のデータセットを使用してこのモデルをローカルで訓練します。ローカル訓練後、クライアントは生のデータではなく、モデルの更新(例:勾配更新または重み変更)のみを中央サーバーに送信します。サーバーは次に、これらの更新(多くの場合、フェデレーテッドアベレージング(FedAvg)などの技術を使用)を集約して改善されたグローバルモデルを作成し、それを次のトレーニングラウンドのために再配布します。
フェデレーテッドモデルは、データがそのソースから離れることができないシナリオで非常に適用可能です。例としては、ユーザーのスマートフォン上での予測テキストモデルの訓練、患者記録を共有せずに多病院ネットワークでの診断AIの開発、または複数の金融機関にわたる不正検出の改善などが挙げられます。
主な利点は、強化されたデータプライバシーとコンプライアンス、データ送信コストの削減、およびガバナンスの制限により隔離されがちな、非常に多様で現実世界のデータで訓練できる能力です。これにより、より堅牢で汎用性の高いモデルが生まれます。
FLを実装するには技術的なハードルがあります。これらには、システム異質性(計算能力が異なるデバイス)の管理、クライアント間での非独立同分布(non-IID)データの処理、および推論攻撃に対する送信されるモデル更新のセキュリティ確保などが含まれます。
この概念は、差分プライバシー(Differential Privacy、個々のデータポイントの逆設計を防ぐために更新にノイズを追加するもの)やセキュアアグリゲーション(Secure Aggregation、中央サーバーが個々のクライアントの更新を見ることができないようにするもの)と密接に関連しています。