この機能は、データ抽出、変換、およびロードの各段階を通じて、生データを処理します。変換段階において厳格な検証ルールを適用することで、データの整合性を確保し、クリーンなデータをリレーショナルデータベースまたはNoSQLデータベースに永続化します。このプロセスは、ペタバイト規模のデータセットを処理できるスケーラブルなアーキテクチャをサポートし、同時に、ダウンストリームの分析アプリケーション向けのリアルタイム同期機能を維持します。
抽出段階では、APIまたはデータベースコネクタを介して、多様なソースシステムに接続し、元のデータ構造を変更することなく、生のレコードを取得します。
変換ロジックは、SQLまたはスクリプト言語を使用して、データクレンジング、正規化、およびデータ拡充のルールを適用し、フォーマットの標準化と不整合の解消を行います。
データ処理後、バッチ処理またはストリーミング方式を用いて、対象のストレージエンジンにデータを投入し、レポートシステムにおける最小限の遅延を確保します。
設定された認証情報とネットワークポリシーを使用して、データソースへの接続を特定し、認証を行います。
ソーステーブルから生データを取得し、必要に応じてページネーションまたはストリームプロトコルを適用します。
ターゲットとなるスキーマ定義に基づいて、データクレンジング、検証、および構造化を行うための変換パイプラインを適用します。
変換されたデータセットを、部分的なコミットを防ぐために、アトミックトランザクションを使用してターゲットデータベースにロードします。
上位データベース、API、またはファイルリポジトリへの安全な接続を確立し、データ取得処理を開始します。
ETLスクリプトを実行し、ソーススキーマをターゲットモデルにマッピングするとともに、データ品質の制約とビジネスロジックのルールを適用します。
大量のデータを一括で挿入したり、ストリーム形式で書き込んだりすることができ、トランザクションによってデータの整合性を保証します。