Presupuesto de Tokens
En el contexto de los Modelos de Lenguaje Grandes (LLMs) y la IA generativa, el Presupuesto de Tokens se refiere al número máximo de tokens que una aplicación o usuario tiene permitido procesar dentro de una interacción, llamada a la API o período de uso específico. Los tokens son las unidades fundamentales de texto que utilizan los LLMs para procesar información; pueden representar palabras, subpalabras o caracteres.
Este presupuesto dicta el tamaño total de la entrada (prompt) y el tamaño total de la salida (completado) que el modelo puede manejar simultáneamente, lo que afecta directamente la latencia y el costo operativo.
Gestionar el Presupuesto de Tokens es fundamental por varias razones de negocio:
El proceso de tokenización desglosa el texto sin procesar en tokens discretos. Por ejemplo, la palabra 'tokenization' podría dividirse en varios tokens. El Presupuesto de Tokens generalmente se define por el tamaño de la ventana de contexto del modelo (por ejemplo, 4096 tokens). Esta ventana debe albergar tanto la indicación de entrada como la respuesta de salida esperada.
Si su indicación consume 3000 tokens y la ventana de contexto máxima del modelo es de 4096 tokens, su presupuesto restante para la respuesta es de solo 1096 tokens.