Un algoritmo para entrenar IA en cadenas de suministro 400 veces más rápido

El aprendizaje por refuerzo tiene un enorme potencial para las cadenas de suministro, pero hasta ahora su entrenamiento era dolorosamente lento. Gracias a un nuevo algoritmo (Iteración de Picard), lo que llevaba 10 horas puede hacerse ahora en 2 minutos.

Featured Faculty Icon Profesorado mencionado

En las cadenas de suministro modernas, cada decisión —dónde mantener inventario, cómo enrutar un pedido, cuándo reponer— forma parte de un gran rompecabezas. Tomar bien estas decisiones repercute en entregas más rápidas, menores costes y menos desperdicio. Pero el entrenamiento de algoritmos para tomar decisiones de forma eficiente siempre se ha topado con un cuello de botella: las simulaciones tardan demasiado. 

El reto: sistemas de aprendizaje lentos

Compañías como Amazon, Walmart y Alibaba utilizan gemelos digitales —réplicas virtuales exactas de sus procesos reales— y ya están experimentando con el aprendizaje por refuerzo (RL, por sus siglas en inglés) para optimizar sus cadenas de suministro. Los algoritmos de RL funcionan simulando innumerables escenarios hipotéticos, aprendiendo con el tiempo qué estrategias funcionan mejor. 

¿El problema? Estas simulaciones son intrínsecamente secuenciales: un paso debe terminar antes de que empiece el siguiente. En cadenas de suministro grandes, simular solo un mes de operaciones puede tardar horas. Y entrenar un algoritmo hasta su punto de madurez suele requerir miles de estas ejecuciones, lo que implica que han de pasar semanas o incluso meses antes de obtener resultados utilizables. Demasiado lento para el ritmo actual de los negocios. 

El avance: Iteración de Picard

Un nuevo método desarrollado por investigadores de Esade, MIT, Columbia y UBC cambia esta dinámica. Su algoritmo, llamado Iteración de Picard, convierte lo que antes era un proceso secuencial y paso a paso en uno paralelo

En lugar de simular la cadena de suministro como una larga secuencia de eventos, el método divide el problema en bloques que pueden procesarse al mismo tiempo. Cada bloque hace una estimación informada sobre sus vecinos y la actualiza conforme llega nueva información. Tras unas cuantas rondas, todo el sistema converge hacia el mismo resultado que el lento método secuencial, pero de forma mucho más rápida. 

En las pruebas, la Iteración de Picard aceleró las simulaciones 400 veces. Lo que antes llevaba 10 horas ahora se puede hacer en 2 minutos. 

Por qué esto importa para los profesionales

Para los responsables de la cadena de suministro, la velocidad se traduce directamente en agilidad. Con simulaciones más rápidas se puede: 

  • Probar más políticas: experimentar con nuevas estrategias de cumplimiento o de enrutamiento a diario, no mensualmente.
  • Adaptarse con rapidez: responder a choques de mercado, promociones o disrupciones con una reoptimización inmediata.
  • Escalar la IA: aplicar aprendizaje por refuerzo a problemas reales de la cadena de suministro que antes eran poco prácticos. 

Las implicaciones van más allá de las cadenas de suministro. Cualquier sistema donde las decisiones se despliegan a lo largo del tiempo —desde redes energéticas hasta logística y finanzas— podría beneficiarse.

Lo que viene

Los gemelos digitales ya están transformando la forma en que las empresas modelan sus operaciones. Al eliminar el cuello de botella de las simulaciones, la Iteración de Picard hace posible pasar de la experimentación a la ejecución mucho más rápido.

En un entorno en el que las empresas toman miles de decisiones cada segundo, la capacidad de entrenar IA para tomar decisiones 400 veces más rápido no es solo un incremento de la eficiencia: es una ventaja estratégica. Lee el artículo completo de investigación aquí: Speeding up Policy Simulation in Supply Chain RL

Todo el contenido está disponible bajo la licencia Creative Commons Reconocimiento 4.0 Internacional.