トピックモデリング
トピックモデリングは、文書群に現れる抽象的な「トピック」を発見するために使用される統計的手法です。これは教師なし機械学習の一形態であり、ラベル付けされた例で明示的に訓練されることなく、データ内のパターンを見つけ出します。モデルにトピックが何かを教えるのではなく、大量のテキストコーパスをモデルに入力し、頻繁に共起する単語をまとまりのあるテーマ的クラスターに分類させます。
顧客レビュー、サポートチケット、ニュース記事、ソーシャルメディアフィードなど、膨大な量の非構造化テキストを扱う企業にとって、トピックモデリングは実用的なインテリジェンスを導き出すためのスケーラブルな方法を提供します。これは単なるキーワードカウントを超えて、顧客の感情、市場のトレンド、コンテンツのパフォーマンスを推進する根本的なテーマを明らかにし、より的を絞った戦略を可能にします。
最も一般的なアルゴリズムは潜在的ディリクレ配分(LDA)です。簡単に言えば、LDAは各文書が様々なトピックの混合物であり、各トピックが単語の集合に対する確率分布であると仮定します。モデルはこれらの確率を反復的に洗練させます。多くの文書間でどの単語が一緒に現れるかを調べます。もし「バッテリー」、「充電」、「寿命」が同じ文書で頻繁に出現する場合、モデルはそれらを「デバイスのパフォーマンス」のような単一の潜在的なトピックに高い確率で割り当てます。
トピックモデリングは、企業全体で多様な応用が可能です。
関連する概念には、トピックに関連する感情を判断するセンチメント分析、特定の人物や場所を識別する固有表現認識、単語を数学的な空間内の密なベクトルとして表現する単語埋め込みなどがあります。