定义
在大型语言模型(LLMs)和生成式AI的背景下,Token预算指的是应用程序或用户在特定交互、API调用或使用周期内被允许处理的最大Token数量。Token是LLM处理信息的基本文本单元;它们可以代表单词、子词或字符。
该预算决定了模型可以同时处理的总输入(提示)大小和总输出(补全)大小,直接影响延迟和运营成本。
为什么它很重要
管理Token预算对多个业务原因至关重要:
- 成本控制: LLM的使用通常按Token计费。超出预算或发送过长的提示可能导致不可预测的高运营支出。
- 性能与延迟: 极大的输入或输出可能会使模型的处理能力超负荷,导致响应时间变慢。
- 系统限制: 许多API对上下文窗口大小施加硬性限制。遵守预算可确保应用程序在提供商的技术规范内保持功能正常。
工作原理
分词过程将原始文本分解为离散的Token。例如,单词“tokenization”可能会被分解成多个Token。Token预算通常由模型的上下文窗口大小(例如,4096个Token)定义。该窗口必须容纳输入提示和预期的输出响应。
如果您的提示消耗了3000个Token,而模型的最大上下文窗口是4096个Token,那么您剩余的响应预算只有1096个Token。
常见用例
- 聊天机器人和对话式AI: 限制预算可以防止无限循环或过长的对话历史导致成本激增。
- 数据摘要: 在总结大型文档时,设置预算可确保输出简洁并符合下游处理限制。
- 智能体编排: 在多步骤AI智能体中,预算控制在采取最终操作之前推理链的复杂性。
主要优势
- 可预测的支出: 建立明确的预算使财务团队能够准确预测AI运营成本。
- 优化的用户体验: 通过管理输入长度,开发人员可以确保用户及时获得相关答案。
- 资源效率: 防止在过于冗长或不相关的数据上浪费计算资源。
挑战
- 上下文管理: 在不超出预算的情况下,确定应包含多少历史数据到提示中是一个持续的平衡行为。
- Token估算不准确: 尽管存在工具,但在发送复杂、非结构化数据之前准确预测其确切的Token数量仍然具有挑战性。
相关概念
- 上下文窗口:模型在任何给定时间可以考虑的Token总容量。
- 提示工程:构建输入以引发所需、高效输出的做法。
- 推理成本:运行模型以生成响应相关的运营费用。