Modelo Local
Un modelo local se refiere a un modelo de inteligencia artificial —como un modelo de lenguaje pequeño (SLM) o un modelo de visión especializado— que está diseñado y optimizado para ejecutarse completamente en el hardware del usuario final, como un smartphone, una computadora portátil o un dispositivo de borde. A diferencia de los modelos basados en la nube que requieren conectividad constante a Internet y comunicación con servidores remotos, los modelos locales ejecutan la inferencia directamente en la CPU, GPU o unidades de procesamiento neuronal (NPU) especializadas del dispositivo.
El cambio hacia los modelos locales aborda necesidades empresariales críticas relacionadas con la gobernanza de datos, la latencia y la resiliencia operativa. Para las empresas que manejan datos sensibles (por ejemplo, atención médica, finanzas), mantener los datos en el dispositivo elimina el riesgo asociado con la transmisión de información propietaria a servidores en la nube de terceros. Además, la eliminación de la dependencia de la red garantiza un rendimiento constante incluso en entornos de baja conectividad.
El despliegue de modelos locales depende en gran medida de las técnicas de cuantización y poda del modelo. Estos métodos de optimización reducen el tamaño y los requisitos computacionales del modelo sin sacrificar drásticamente la precisión. Marcos de trabajo como TensorFlow Lite u ONNX Runtime permiten a los desarrolladores compilar modelos grandes preentrenados en versiones ligeras y altamente eficientes adecuadas para entornos de hardware restringido. Los pesos del modelo se incrustan dentro de la propia aplicación, lo que permite un funcionamiento autónomo.