E_MODULE
ソフトウェア - データベース

ETLプロセス

ソースシステムからデータを抽出し、ビジネスルールに従って変換し、分析のためにターゲットデータベースにロードします。

High
データエンジニア
Engineers observe glowing server stacks and data streams in a futuristic data center.

Priority

High

Execution Context

この機能は、データ抽出、変換、およびロードの各段階を通じて、生データを処理します。変換段階において厳格な検証ルールを適用することで、データの整合性を確保し、クリーンなデータをリレーショナルデータベースまたはNoSQLデータベースに永続化します。このプロセスは、ペタバイト規模のデータセットを処理できるスケーラブルなアーキテクチャをサポートし、同時に、ダウンストリームの分析アプリケーション向けのリアルタイム同期機能を維持します。

抽出段階では、APIまたはデータベースコネクタを介して、多様なソースシステムに接続し、元のデータ構造を変更することなく、生のレコードを取得します。

変換ロジックは、SQLまたはスクリプト言語を使用して、データクレンジング、正規化、およびデータ拡充のルールを適用し、フォーマットの標準化と不整合の解消を行います。

データ処理後、バッチ処理またはストリーミング方式を用いて、対象のストレージエンジンにデータを投入し、レポートシステムにおける最小限の遅延を確保します。

Operating Checklist

設定された認証情報とネットワークポリシーを使用して、データソースへの接続を特定し、認証を行います。

ソーステーブルから生データを取得し、必要に応じてページネーションまたはストリームプロトコルを適用します。

ターゲットとなるスキーマ定義に基づいて、データクレンジング、検証、および構造化を行うための変換パイプラインを適用します。

変換されたデータセットを、部分的なコミットを防ぐために、アトミックトランザクションを使用してターゲットデータベースにロードします。

Integration Surfaces

ソースシステムコネクタ

上位データベース、API、またはファイルリポジトリへの安全な接続を確立し、データ取得処理を開始します。

変革エンジン

ETLスクリプトを実行し、ソーススキーマをターゲットモデルにマッピングするとともに、データ品質の制約とビジネスロジックのルールを適用します。

ターゲットデータベースライター

大量のデータを一括で挿入したり、ストリーム形式で書き込んだりすることができ、トランザクションによってデータの整合性を保証します。

FAQ

Bring ETLプロセス Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.