嵌入式评估器
嵌入式评估器是直接集成在人工智能或机器学习流程中的一个组件。与外部的、事后测试套件不同,嵌入式评估器在模型或代理的运行或生成过程中评估其性能、质量或对约束的遵守情况。它充当一个内部质量门。
在复杂、实时应用中,等待批处理测试运行是不够的。嵌入式评估器支持持续验证,确保人工智能输出在与实时数据或用户交互时保持相关性、安全性和准确性。这使得质量保证提前到开发生命周期的早期阶段。
这些评估器通过针对实时输出应用预定义指标或专业模型来运行。对于生成式AI,这可能涉及检查事实一致性、毒性或对特定语气的遵守情况。对于决策代理,这可能涉及验证所选操作是否与初始目标状态一致。评估逻辑与执行环境紧密耦合。
该概念与人类反馈强化学习(RLHF)、自动化测试框架以及大型语言模型(LLM)中的护栏实施密切相关。