ローカルパイプライン
ローカルパイプラインとは、完全にプライベートなオンプレミスインフラストラクチャまたはローカルネットワーク環境内で動作する、完全で自己完結型のデータ処理ワークフローを指します。外部サービスに依存するクラウドベースのパイプラインとは異なり、ローカルパイプラインは、組織が物理的に管理するリソースを使用して、データ取り込み、変換、保存、配信を管理します。
ローカルパイプラインを導入する主な動機は「制御」です。独自の財務記録、患者の健康情報(PHI)、防衛データなどの機密性の高いデータを扱う組織は、データレジデンシーを義務付ける厳格な規制要件(GDPRやHIPAAなど)に直面することがよくあります。ローカルパイプラインは、データがセキュアな境界を離れることがないことを保証し、サードパーティのクラウドアクセスに関連するリスクを軽減します。
プロセスは、ローカルデータソース(データベース、センサー、ログファイル)から始まります。取り込み層がこの生データをキャプチャし、ローカル処理エンジンにフィードします。このエンジンは、ローカルコンピューティングリソースを使用して、定義された変換(データのクレンジング、集計、またはエンリッチメント)を実行します。最終的な出力は、ローカルデータストアにルーティングされるか、内部アプリケーションによって消費されます。
ローカルパイプラインは、いくつかの運用ドメインで極めて重要です。
ローカルパイプラインの導入と維持には、特定のハードルがあります。これらには、ハードウェアの高い初期資本支出、ローカルインフラストラクチャの管理の複雑さ(パッチ適用、スケーリング)、およびスタック全体を維持するための専門的な社内専門知識の必要性などが含まれます。
この概念は、データソースの近くでデータを処理するためにローカルパイプラインを利用することが多いエッジコンピューティングや、データが法的にどこに存在しなければならないかを規定するデータ主権と密接に関連しています。