適合率-再現率曲線

モデルの性能を評価するために、様々な分類閾値における適合率-再現率曲線分析を実行し、特に不均衡データセットにおける偽陽性率に焦点を当てます。

High

データサイエンティスト

Group of men review performance graphs displayed on computer monitors at a workstation.

Priority

High

Execution Context

この計算負荷の高い関数は、二値分類器の性能を包括的に評価します。具体的には、様々な確率閾値における適合率と再現率の関係をグラフ化することで、その関係性を可視化します。モデルの予測結果と実際のラベルを比較し、Area Under the Curve (AUC-PR) を算出することで、感度と特異性とのトレードオフに関する重要な情報を提供します。この分析は、誤検出が大きな運用コストにつながる場合や、クラスの不均衡が従来の精度指標に影響を与える場合に特に重要であり、データサイエンティストがモデルの信頼性を検証し、本番環境へのデプロイ前にその妥当性を確認することを可能にします。

システムは、トレーニングパイプラインから入力される生の予測データと、それに対応する正解ラベルを読み込み、評価エンジンを初期化します。

反復閾値化アルゴリズムは、定義された確率閾値の範囲において、適合率と再現率の指標を計算し、その結果に基づいて曲線を構成するための座標ペアを生成します。

計算された指標は、可視化可能なデータセットに集約され、AUC-PRや信頼区間を含む統計的な要約が算出されます。

Operating Checklist

ソースデータセットから、二値分類の予測結果と、それに対応する正解ラベルを取得します。

適合率・再現率の算出における閾値範囲と粒度を定義してください。

各データ点に対して、閾値を変更しながら、対応する適合率(precision)と再現率(recall)の値を算出します。

集計結果を、AUC-PR値と信頼区間を含む構造化された曲線オブジェクトとして出力します。

Integration Surfaces

データ取り込み

モデルのトレーニングに使用されたデータリポジトリから、予測ベクトルと正解ラベルを自動的に抽出します。

メトリック計算

分類の閾値の連続的な範囲全体にわたる、精度と再現率のリアルタイム計算。

可視化レンダリング

インタラクティブなグラフを生成し、曲線軌跡を表示するとともに、パフォーマンスに関する統計情報を注釈として付加し、即座に確認できるようにします。

FAQ

Bring 適合率-再現率曲線 Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.

適合率-再現率曲線

Execution Context

Operating Checklist

Integration Surfaces

データ取り込み

メトリック計算

可視化レンダリング

FAQ

不均衡データセットにおいて、PR曲線とROC曲線の違いは何ですか？

この機能は、異なる閾値の細かさ（グラニュラーティ）をどのように処理しますか？

この関数は、多クラス分類の問題に適用できますか？

クラスの不均衡が、結果として得られるAUC-PR値にどのような影響を与えるか。

Bring 適合率-再現率曲線 Into Your Operating Model