この機能により、データソース内で発見されたすべてのエンティティに対応するノードを自動的に生成できます。この機能を実行することで、データエンジニアは、各レコードに対して手動での介入なしに、オントロジーのスキーマ全体を網羅的にカバーできます。システムは、抽出された属性を定義されたノードタイプに直接マッピングし、検証された値でプロパティを埋め込みます。このプロセスは、現在のビジネス状況を反映する動的な分類体系を維持するために不可欠です。これにより、生のデータ取り込みと意味表現の間のギャップを解消し、下流の分析が完全に構築されたグラフ構造に対して即座にクエリを実行できるようになります。
エンジンは、入力データセットを繰り返し処理し、あらかじめ定義されたオントロジーのクラスに一致するエンティティを特定します。各一致は、中央リポジトリ内に個別のノードインスタンスを作成することをトリガーします。
属性の抽出は、ノードの初期化と並行して行われ、これにより、ノードが他のシステムコンポーネントによってクエリ可能になる前に、その属性値が設定されることが保証されます。
各エンティティタイプに特化した検証ルールは、データ作成時に適用され、無効なデータがナレッジグラフ構造に登録されるのを防ぎます。
単一の実行サイクルにおいて、数百から数千のノードをまとめて生成する。
スキーマ定義とデータ型推論に基づいて、自動的にプロパティのマッピングを行います。
ノードの最終確定前に、オントロジーの制約に対するリアルタイムな検証を実施します。
1時間あたりに作成されるノード数.
スキーマ準拠率
データ抽出の精度.
生データストリームに含まれるエンティティを特定し、分類します。これは、人間の介入なしに行われます。
エンティティの認識と検証が成功すると、すぐにグラフノードが作成されます。
オントロジーの定義に基づいて、適切なプロパティの種類と値を自動的に割り当てます。
大量のエンティティを同時に処理することで、オントロジーの構築を加速します。
データソースを事前にフィルタリングし、処理される不要なデータ量を削減してください。
高負荷状態でのノード作成時に発生する一時的なネットワーク障害に対する再試行ロジックを設定します。
単一の操作で数百万のノードをインスタンス化する際に、メモリ使用量を監視してください。
データに含まれるが、オントロジーのスキーマに欠落しているエンティティタイプを特定し、更新が必要であることを示します。
頻繁にアクセスされる物件については、新しいノードテンプレートの導入を検討する価値がある場合があります。
共通の属性不一致を追跡し、抽出ルールを改善することで、今後の実行における精度向上を図ります。
Module Snapshot
関係データベース、ログ、または非構造化テキストデータから、エンティティのインスタンスを抽出します。
マップは、タクソノミースキーマ内の標準的なプロパティ定義に、抽出された属性を関連付けます。
実際のノード作成処理を実行し、その結果を中央のデータストアに保存します。