大型语言模型(LLM)缓存是 LLM 基础设施中的一个关键存储机制,旨在降低高推理成本并优化延迟稳定性。该系统通过拦截请求并将其与已存储的响应进行比对,从而能够立即从内存或对象存储中提供相同的提示,而无需触发昂贵的模型计算。此功能主要依赖于响应重复检测和检索,以确保企业应用程序在缓存生命周期内保持一致的性能,同时避免在缓存过程中生成新的数据点。
系统通过对输入提示和上下文窗口进行哈希运算,生成一个唯一标识符,从而启动缓存查找,用于潜在的数据检索。
当在存储层找到匹配项时,系统会立即返回缓存的响应,完全绕过神经网络推理引擎。
如果未找到匹配项,则请求会继续传递给主模型进行生成,生成的输出结果随后会被存储,以便在未来处理相同的查询。
分析接收到的请求数据包,提取语义内容用于哈希计算。
使用生成的哈希标识符查询存储层。
如果在 TTL 范围内找到有效的匹配项,则检索已存储的响应。
提供缓存数据,或将请求转发至模型服务器以进行新内容生成。
从输入文本生成确定性标识符,以便在分布式存储系统中实现精确查找。
在向下游应用提供缓存数据之前,系统会验证缓存数据的时效性和完整性,以确保数据的准确性。
将请求直接路由到存储端点,从而有效解耦工作流程与计算密集型模型执行。