データパイプラインおよびETLモジュールのデータサンプリング機能により、組織は統計的に有意なサブセットを生成することで、膨大なデータセットを効率的に管理できます。この機能は、フルデータセットの処理が計算上困難な重要なテスト段階をサポートします。層化サンプリングまたはランダムサンプリングの手法を用いることで、データサイエンティストは、システムリソースを消費することなく、前処理パイプラインを検証し、初期モデルのトレーニングを行うことができます。
システムは、生データストリームを取り込み、定義された基準に基づいて代表的なサブセットを抽出するために、設定可能なサンプリングアルゴリズムを適用します。
中間処理段階では、サンプルデータの信頼性と統計的な分布が検証され、その結果が後続の分析エンジンに提供されます。
最終確認済みのサンプルデータは、機械学習のトレーニングワークフローで直ちに利用できるよう、最適化された形式で保存されています。
サンプリング戦略のパラメータを定義します。これには、サンプルサイズと分布の種類が含まれます。
設定されたフィルタを使用して、ソースデータストリームに対して抽出処理を実行します。
生成されたサブセットの統計的特性を、元の母集団と比較して検証する。
最終確認済みのサンプルを、指定された保管先または処理先へエクスポートしてください。
ユーザーは、パイプラインエディタ内で、サンプルサイズ、層化抽出のルール、および配布方法を含む、サンプリングパラメータを定義できます。
リアルタイムの指標表示では、平均値、分散、データ完全性などの統計情報をサンプルデータに基づいて表示し、データの代表性を確保します。
システムログは、データ取り込み速度、処理遅延、およびサンプリングされたデータセットがターゲット先に正常に配信されたかどうかを記録します。