Entrene a múltiples agentes simultáneamente dentro de un entorno compartido para optimizar las estrategias de toma de decisiones colectivas, mediante el procesamiento paralelo de señales de recompensa y la convergencia de políticas.

Priority
Este módulo, que requiere una alta capacidad de procesamiento, permite el entrenamiento simultáneo de agentes de aprendizaje por refuerzo distintos que operan dentro de un entorno de simulación unificado. Facilita la ejecución paralela de las políticas de los agentes, lo que permite una exploración rápida de interacciones complejas entre múltiples agentes y la dinámica del espacio de recompensas. El sistema gestiona recursos de cómputo distribuidos para manejar actualizaciones de gradiente concurrentes de múltiples agentes, garantizando una convergencia eficiente hacia comportamientos colectivos óptimos, al tiempo que mantiene el aislamiento entre las trayectorias de aprendizaje individuales de cada agente.
El sistema inicializa una configuración de entorno compartida donde se despliegan múltiples agentes independientes para interactuar con el mismo espacio de estados.
Los clústeres de computación paralela procesan señales de recompensa distintas de cada agente, lo que permite actualizaciones simultáneas del gradiente de la política sin interferencia.
Un controlador centralizado agrega las trayectorias de aprendizaje para evaluar métricas de rendimiento colectivo y ajustar dinámicamente los parámetros del entorno global.
Configure los parámetros del entorno compartido, incluyendo las dimensiones de la observación del estado, las definiciones del espacio de acciones y las funciones de recompensa globales.
Implemente N instancias de agentes distintas, con políticas iniciales aleatorias, para asegurar estrategias de exploración diversas.
Ejecute bucles de entrenamiento paralelos donde cada agente recibe señales de recompensa independientes, al tiempo que comparten las mismas transiciones del entorno.
Agregue los gradientes de la política y actualice los pesos del modelo global en función de las métricas de rendimiento colectivas y los indicadores de estabilidad.
Defina los espacios de estado compartidos, los espacios de acción y las estructuras de recompensa aplicables a todos los agentes participantes en el marco de trabajo multiagente.
Implementar políticas individuales para cada agente, utilizando parámetros iniciales únicos, garantizando al mismo tiempo que operen dentro del mismo entorno computacional.
Monitoree métricas de rendimiento agregadas en todos los agentes para identificar comportamientos colectivos estables y prevenir la manipulación de recompensas o el colapso catastrófico.