ETLプロセス

ソースシステムからデータを抽出し、ビジネスルールに従って変換し、分析のためにターゲットデータベースにロードします。

High

データエンジニア

Engineers observe glowing server stacks and data streams in a futuristic data center.

Priority

High

Execution Context

この機能は、データ抽出、変換、およびロードの各段階を通じて、生データを処理します。変換段階において厳格な検証ルールを適用することで、データの整合性を確保し、クリーンなデータをリレーショナルデータベースまたはNoSQLデータベースに永続化します。このプロセスは、ペタバイト規模のデータセットを処理できるスケーラブルなアーキテクチャをサポートし、同時に、ダウンストリームの分析アプリケーション向けのリアルタイム同期機能を維持します。

抽出段階では、APIまたはデータベースコネクタを介して、多様なソースシステムに接続し、元のデータ構造を変更することなく、生のレコードを取得します。

変換ロジックは、SQLまたはスクリプト言語を使用して、データクレンジング、正規化、およびデータ拡充のルールを適用し、フォーマットの標準化と不整合の解消を行います。

データ処理後、バッチ処理またはストリーミング方式を用いて、対象のストレージエンジンにデータを投入し、レポートシステムにおける最小限の遅延を確保します。

Operating Checklist

設定された認証情報とネットワークポリシーを使用して、データソースへの接続を特定し、認証を行います。

ソーステーブルから生データを取得し、必要に応じてページネーションまたはストリームプロトコルを適用します。

ターゲットとなるスキーマ定義に基づいて、データクレンジング、検証、および構造化を行うための変換パイプラインを適用します。

変換されたデータセットを、部分的なコミットを防ぐために、アトミックトランザクションを使用してターゲットデータベースにロードします。

Integration Surfaces

ソースシステムコネクタ

上位データベース、API、またはファイルリポジトリへの安全な接続を確立し、データ取得処理を開始します。

変革エンジン

ETLスクリプトを実行し、ソーススキーマをターゲットモデルにマッピングするとともに、データ品質の制約とビジネスロジックのルールを適用します。

ターゲットデータベースライター

大量のデータを一括で挿入したり、ストリーム形式で書き込んだりすることができ、トランザクションによってデータの整合性を保証します。

FAQ

Technical Specifications

Deliverables

分析ツールやBIツールによる即時利用のために、クリーニングおよび標準化されたデータが準備完了です。

各バッチ処理の実行ログには、処理件数、エラー率、およびレイテンシに関するメトリクスが記録されています。

最新の変換マッピングとデータ型変換を反映したデータベーススキーマを更新しました。

データ品質レポート。データ抽出段階で検出された検証エラーや異常を強調します。

Bring ETLプロセス Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.

ETLプロセス

Execution Context

Operating Checklist

Integration Surfaces

ソースシステムコネクタ

変革エンジン

ターゲットデータベースライター

FAQ

ETLがシステム間でのデータ移行時に、データの整合性をどのように保証しますか？

ロードフェーズにおけるバッチ処理とストリーミング処理の選択を決定する要因は何ですか？

ETLプロセスは、ターゲットデータベースのスキーマ変更に対応できますか？

ETLワークフローにおいて、抽出処理の失敗はどのように扱われますか？

Bring ETLプロセス Into Your Operating Model