デ_MODULE
データパイプラインおよびETL

データ取り込みフレームワーク

このフレームワークは、多様な異種ソースから構造化データおよび非構造化データを収集し、中央集権的な処理エンジンに統合することで、即時的な変換と分析を可能にします。

High
データエンジニア
Two technicians examining and connecting cables to a piece of networking hardware in a data center.

Priority

High

Execution Context

データ取り込みフレームワークは、エンタープライズデータパイプラインの基盤となるものであり、多様なシステムから生データを取り込み、検証し、初期変換を行う役割を担います。高性能な計算リソースを活用することで、ストリーミングデータとバッチデータの低遅延処理を実現し、異なるフォーマット間でのスキーマの一貫性を維持します。この機能は、ダウンストリームの分析や機械学習モデルが、手動での介入や大きな遅延なしに、クリーンで統合されたデータセットで動作できるようにするために不可欠です。

システムは、データベース、API、ファイルシステムなど、接続されたソースからの新しいデータストリームを検出し、データ取り込みプロセスを開始します。

リアルタイムの検証ルールを適用し、不正なレコードをフィルタリングするとともに、データ処理前に、あらかじめ定義されたスキーマの制約にデータが準拠していることを確認します。

検証されたデータは、その後、並列処理スレッドを使用して最適な処理速度を実現するために、標準化された内部形式に変換されます。

Operating Checklist

複数の異種データソースへの接続を検出し、認証します。

受信データストリームを解析し、初期のフォーマット検証を実行します。

無効なレコードをフィルタリングし、スキーマの制約をリアルタイムで適用します。

検証済みのデータを、統合された内部表現に変換します。

Integration Surfaces

ソースコネクタの設定

エンジニアは、各データソースに対して、接続パラメータと認証プロトコルを定義し、安全かつ信頼性の高いアクセスを確保します。

スキーマ検証エンジン

自動化されたルールにより、受信データが規定の構造と一致するかどうかを確認し、下流の分析モデルを破損させる可能性のある異常なデータは拒否されます。

ストリーム変換レイヤー

データは、到着後すぐに正規化およびデータ拡充の処理を受け、ストレージまたはさらなる処理のために準備されます。

FAQ

Bring データ取り込みフレームワーク Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.