データ取り込みフレームワークは、エンタープライズデータパイプラインの基盤となるものであり、多様なシステムから生データを取り込み、検証し、初期変換を行う役割を担います。高性能な計算リソースを活用することで、ストリーミングデータとバッチデータの低遅延処理を実現し、異なるフォーマット間でのスキーマの一貫性を維持します。この機能は、ダウンストリームの分析や機械学習モデルが、手動での介入や大きな遅延なしに、クリーンで統合されたデータセットで動作できるようにするために不可欠です。
システムは、データベース、API、ファイルシステムなど、接続されたソースからの新しいデータストリームを検出し、データ取り込みプロセスを開始します。
リアルタイムの検証ルールを適用し、不正なレコードをフィルタリングするとともに、データ処理前に、あらかじめ定義されたスキーマの制約にデータが準拠していることを確認します。
検証されたデータは、その後、並列処理スレッドを使用して最適な処理速度を実現するために、標準化された内部形式に変換されます。
複数の異種データソースへの接続を検出し、認証します。
受信データストリームを解析し、初期のフォーマット検証を実行します。
無効なレコードをフィルタリングし、スキーマの制約をリアルタイムで適用します。
検証済みのデータを、統合された内部表現に変換します。
エンジニアは、各データソースに対して、接続パラメータと認証プロトコルを定義し、安全かつ信頼性の高いアクセスを確保します。
自動化されたルールにより、受信データが規定の構造と一致するかどうかを確認し、下流の分析モデルを破損させる可能性のある異常なデータは拒否されます。
データは、到着後すぐに正規化およびデータ拡充の処理を受け、ストレージまたはさらなる処理のために準備されます。