スパース検索
スパース検索とは、テキストの離散的で明示的な表現、通常はスパースベクトルを使用することに依存する情報検索技術の一種を指します。テキストを連続的で高次元のベクトル空間にマッピングする密な検索手法とは異なり、スパース手法は、用語カウントやバイナリインジケーターなど、明示的に存在する特徴を使用してドキュメントとクエリを表現します。
大規模な情報検索システムでは、効率性と解釈可能性が極めて重要です。スパース手法は、ゼロでない特徴値のみを保存および処理するため、特にインデックス作成と検索速度において計算上の利点を提供します。これにより、正確なキーワードマッチングや用語頻度が最優先される膨大なデータセットに対して高いスケーラビリティを発揮します。
中核的なメカニズムは、テキストを語彙空間にマッピングすることを含みます。各ドキュメントまたはクエリは、次元が語彙の用語に対応するベクトルとして表現されます。次元の値は、通常、その用語の頻度(例:TF-IDFスコア)またはドキュメント内での二値の存在インジケーターです。検索は、スパースクエリベクトルとスパースドキュメントベクトル間の類似性(通常、コサイン類似度や内積などの技術を使用)を計算することによって実行されます。
スパース検索は、高精度なキーワードマッチングのために従来の検索エンジンで広く採用されています。また、正確な用語マッチと意味的な意味の両方を捉えるために密な検索モデルを補完するハイブリッド検索アーキテクチャでも使用されています。アプリケーションには、Eコマース製品検索、ドキュメント管理システム、ナレッジベースのクエリなどが含まれます。
主な利点には、インデックス作成およびクエリ実行時の高い計算効率、優れた解釈可能性(検索結果を特定のマッチングキーワードに遡って追跡できる)、および非常に具体的で専門用語の多いクエリを扱う際の堅牢性があります。
スパース手法の大きな限界は、本質的に意味的な類似性を捉えることができない点です。クエリがドキュメントの語彙表に明示的に存在しない同義語や関連概念を使用している場合、スパース検索は関連性の高い結果を見つけられない可能性があり、密なモデルと比較して再現率が低下します。
この技術は、ニューラルネットワークを使用して連続的な埋め込みを生成する密な検索と対比されることがよくあります。また、高度に最適化されたスパース検索アルゴリズムであるBM25などの技術とも密接に関連しています。