テキスト分類は、非構造化文書を特定の定義済みのグループに分類するための、主要な自然言語処理(NLP)基盤機能です。エンタープライズデータセットで学習された深層学習モデルを活用し、この機能は生のテキスト入力を処理することで、意味を識別し、正確なラベルを付与します。これは、情報検索、コンテンツモデレーション、および自動ルーティングシステムのための重要な前処理ステップであり、多様な組織環境において、大量の文書を高い精度で処理することを可能にします。
システムは、構造化されていないテキストドキュメントを取り込み、事前に学習されたTransformerモデルを適用して、潜在的な意味特徴を抽出します。
分類アルゴリズムは、抽出された特徴量を、企業固有のカテゴリで構成された体系的な分類体系に照らして対応付けます。
結果は信頼度スコアとともに表示され、これによりエンジニアはモデルの性能を検証し、必要に応じて閾値を調整することができます。
テキスト分類パイプラインを初期化するには、対象となる分類体系と入力スキーマを定義してください。
各ドキュメントカテゴリの代表的なサンプルを含む、ラベル付けされたトレーニングデータセットをアップロードしてください。
非構造化文書の入力ストリームに対して、モデル推論を実行します。
分類されたラベルと、それに関連する信頼度をレビューのために取得します。
RESTful APIのエンドポイントは、JSON形式のペイロードを受け付け、そのペイロードには、処理対象となるドキュメントのテキストデータまたはファイルパスが含まれます。
NLPエンジニアが、ラベル付けされたデータセットをアップロードし、最小限の遅延で分類モデルを再学習できる構成ダッシュボード。
リアルタイムで分類精度、エラー率、およびカテゴリ分布のヒストグラムを表示するモニタリングパネル。