Herrera Marín, MauricioSoto Segura, César2026-05-142026-05-142026https://hdl.handle.net/11447/10749Proyecto de grado presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data ScienceLa planificación de rutas de última milla con ventanas de tiempo (VRPTW) es una operación crítica fuertemente condicionada por la variabilidad del tráfico urbano. Los enfoques deterministas tradicionales priorizan la eficiencia nominal, pero subestiman el costo operacional de los retrasos severos cuando los tiempos de viaje son inciertos. Este trabajo de grado propone y evalúa un marco híbrido que integra Búsqueda Adaptativa de Vecindades Grandes (ALNS), simulación Fast Monte Carlo (mediante distribuciones PERT y Triangular) y una política de Aprendizaje por Refuerzo (PPO) sensible al riesgo. El agente RL, provisto de un estado enriquecido de 12 dimensiones, actúa como controlador dinámico de la metaheurística, optimizando una función de recompensa que penaliza explícitamente el riesgo extremo CVaR95 y el tamaño de la flota. Bajo un diseño metodológico estricto (split: entrenamiento con Curriculum Learning en Días 1-6, validación hold-out en Día 7 y test oficial en Días 8 y 9), los resultados muestran evidencia favorable de adaptabilidad topológica del modelo. En la fase de test, se documentó empíricamente que la configuración baseline implementada en OR-Tools no encontró una solución inicial factible para el Día, evidenciando limitaciones del enfoque determinista bajo hiper-restricción temporal. En la evaluación operativa comparativa del Día 9 (aislada sobre 1,000 escenarios estocásticos), la política PPO+ALNS exhibió un comportamiento defensivo compatible con una convergencia hacia la solución basal: al identificar una topología altamente restrictiva, evitó alterar de forma agresiva la ruta y preservó un 19.4% de escenarios sin retraso total, manteniendo un CVaR95 de 38.45. En contraste, la heurística ALNS pura redujo el riesgo extremo a 32.70, pero también redujo la proporción de escenarios sin retraso total a 12.3%. Adicionalmente, el test de Wilcoxon pareado en la cola extrema corroboró que no existe superioridad estadística de la metaheurística pura en los peores escenarios de tráfico, lo que es consistente con una estrategia conservadora de la política aprendida. Un estudio transversal de ablación sugiere que el estado histórico enriquecido, la penalización por riesgo y la restricción de flota contribuyen al comportamiento observado, aunque con sensibilidad a la topología evaluada. La principal contribución de este trabajo es consolidar un framework reproducible que muestra cómo el aprendizaje por refuerzo puede navegar el trade-off entre exploración heurística y factibilidad operativa bajo incertidumbre extrema.19 p.es070037SData scienceVRPTWToolsALNSPPOOptimización guiada por aprendizaje por refuerzo sensible al riesgo para VRPTW bajo incertidumbre en tiempos de viajeThesis