上下文评估器
上下文评估器是一个系统或模块,它通过考虑周围的数据、提示历史或操作环境来评估人工智能生成输出的质量、相关性和正确性。与简单的基于指标的评估器(如BLEU分数)不同,它根据特定上下文中的语义契合度来判断输出质量。
在复杂的AI应用中,一个技术上正确的答案在上下文上可能仍然是错误的。例如,一个没有考虑用户当前投资组合上下文的财务查询是无用的。上下文评估器弥合了原始算法准确性与实际、现实世界效用之间的差距,确保AI解决方案真正有帮助。
这些评估器通常通过将原始提示、生成的响应和相关的上下文数据(例如,用户资料、先前轮次、外部知识库片段)输入到次级模型或一组复杂的规则中来运行。然后,评估器根据预定义的上下文标准对输出进行评分,例如连贯性、遵守约束和领域相关性。
开发强大的上下文评估器是具有挑战性的,因为“上下文”本身可能是模糊的或巨大的。为“适当性”等主观特质定义可量化的指标需要大量的“人在回路”的完善以及对评估器本身的仔细提示工程。
相关概念包括基于事实的生成(Grounded Generation)、检索增强生成(RAG)和语义相似度评分。虽然RAG提供了上下文,但上下文评估器判断模型如何使用所提供的上下文。