Optimización de Rutas Bajo Incertidumbre Mediante Aprendizaje por Refuerzo y Metaheurísticas Sensibles al Riesgo: Un enfoque híbrido ALNS–PPO para el ruteo de vehículos con ventanas de tiempo y evaluación mediante CVaR

Herrera Marín, MauricioÁlvarez Martínez-Conde, Gabriel2026-03-132026-03-132026https://hdl.handle.net/11447/10626Proyecto de grado presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data ScienceEste trabajo aborda la resolución de un problema de ruteo de vehículos con ventanas de tiempo bajo incertidumbre, incorporando explícitamente métricas de riesgo mediante simulación Monte Carlo. El objetivo principal es comparar distintos enfoques de optimización, evaluando no solo la calidad promedio de las soluciones, sino también su comportamiento en escenarios adversos, utilizando el Conditional Value at Risk al 95% (CVaR95) como métrica central de desempeño. Se analizan tres métodos: un enfoque determinista basado en OR-Tools, un esquema metaheurístico de Adaptive Large Neighborhood Search (ALNS) y una extensión híbrida que integra ALNS con aprendizaje por refuerzo profundo mediante Proximal Policy Optimization (PPO). Las soluciones obtenidas se evalúan bajo múltiples escenarios de severidad creciente, considerando métricas de tardanza promedio, CVaR95, nivel de servicio y esfuerzo computacional, medido a través del tiempo de cómputo y la cantidad de ticks ejecutados. Los resultados muestran que el enfoque determinista presenta limitaciones estructurales bajo incertidumbre, con altos niveles de riesgo extremo y bajo cumplimiento de ventanas de tiempo, a pesar de su bajo costo computacional. El ALNS clásico logra mejoras sustanciales en calidad y robustez, pero a costa de un esfuerzo computacional elevado. En contraste, el método PPO-ALNS alcanza sistemáticamente los menores valores de CVaR95 y mayores niveles de servicio, especialmente en escenarios severos, utilizando una fracción del esfuerzo computacional requerido por ALNS. El análisis del comportamiento de operadores evidencia que el agente de aprendizaje por refuerzo aprende políticas especializadas y adaptativas, concentrando el uso de operadores de alto impacto y evitando exploraciones poco eficientes. En conjunto, los resultados demuestran que la integración de aprendizaje por refuerzo en un marco ALNS permite mejorar simultáneamente la robustez de las soluciones y la eficiencia computacional, posicionando al enfoque PPO-ALNS como una alternativa particularmente adecuada para aplicaciones operacionales de ruteo bajo incertidumbre.69 p.es070037SOptimizaciónLogísticaMachine learningVehículosRutasOptimización de Rutas Bajo Incertidumbre Mediante Aprendizaje por Refuerzo y Metaheurísticas Sensibles al Riesgo: Un enfoque híbrido ALNS–PPO para el ruteo de vehículos con ventanas de tiempo y evaluación mediante CVaRThesis