コンテクスチュアルベンチマーク
コンテクスチュアルベンチマークとは、単独で評価されるのではなく、テスト対象システムの特定の運用環境、ドメイン、または実世界の文脈の中で評価されるパフォーマンス基準または一連のメトリクスです。標準化された、多くの場合合成されたデータセットを使用する一般的なベンチマークとは異なり、コンテクスチュアルベンチマークは、実際の運用使用状況を非常によく模倣したデータやシナリオに対してパフォーマンスを測定します。
標準的なベンチマークは、現実世界の複雑さのニュアンスを捉えられないことがよくあります。モデルは、クリーンで実験室で作成されたデータセットでは高い精度を達成するかもしれませんが、ノイズが多く、曖昧であるか、非常に具体的な本番データに直面するとパフォーマンスが低下する可能性があります。コンテクスチュアルベンチマークは、このギャップを埋め、システムの準備状況と有効性について、はるかに現実的で実用的な評価を提供します。
このプロセスには、運用環境の代表的なスライスを定義することが含まれます。これには、過去の顧客インタラクションログ、ライブのプロダクショントラフィックサンプル、またはドメイン固有の障害ケースを使用することが含まれる場合があります。その後、システムはこのキュレーションされた、文脈豊かなデータセットに対してテストされ、アナリストは実際の運用上のプレッシャーの下でパフォーマンスがどのように低下または成功するかを確認できます。
この概念は、文脈上の弱点を積極的に探すアドバーサリアル・テスティングや、特定の運用ドメイン内でモデルのパフォーマンスを調整するドメイン適応と密接に関連しています。