セーフティ分類器
セーフティ分類器は、入力データ、テキスト、画像、またはコードを分析し、事前に定義された安全ポリシーに違反しているか、有害なコンテンツを含んでいるかを判断するために設計された特殊な機械学習モデルです。その主な機能は、コンテンツがエンドユーザーに届く前、または下流システムによってさらに処理される前に、ゲートキーパーとして機能し、コンテンツにフラグを立てたり拒否したりすることです。
生成AIの時代において、ヘイトスピーチ、誤報、危険な指示の生成といった悪用の可能性は重大です。セーフティ分類器は、ブランドの評判を維持し、法的コンプライアンスを確保し、倫理基準を維持するために不可欠です。これらは、有害または禁止された出力に対する自動化された防御層を提供します。
この分類器は、暴力、性的コンテンツ、自傷行為、バイアスなど、さまざまな種類の危害について細心の注意を払ってラベル付けされた膨大なデータセットで訓練されています。新しいデータが提示されると、モデルはいくつかの定義されたリスクカテゴリ全体で確率スコアを計算します。いずれかのカテゴリのスコアが所定のしきい値を超えると、コンテンツはレビューのためにフラグが立てられるか、自動的にブロックされます。
関連概念には、コンテンツフィルタリング、入出力ガードレール、毒性検出、AIアライメントが含まれます。