Bravo Celedón, María LoretoOvando Fuentealba, Ricardo2025-04-032025-04-032025https://hdl.handle.net/11447/9941Proyecto de grado presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data ScienceEste proyecto se centra en el desarrollo y evaluación de modelos de aprendizaje automático para predecir resultados de partidos de fútbol (Victoria Local, Empate, Victoria Visitante). A partir de datos históricos de ligas de fútbol, se construyó un conjunto de características (incluyendo estadísticas de temporadas previas, datos acumulados de rendimiento y contexto) con el objetivo de entrenar y comparar diferentes algoritmos de clasificación: Random Forest, XGBoost, CatBoost y Regresión Logística. El enfoque metodológico incluyó: 1. Preprocesamiento de Datos: Se aplicaron técnicas para manejar el desbalance de clases (SMOTE, ADASYN) y métodos de normalización robusta. Esto buscaba mejorar la detección de resultados menos frecuentes (empates y victorias visitantes). 2. Optimización y Validación: Se emplearon búsquedas de hiperparámetros (RandomizedSearchCV), validación cruzada estratificada y ampliación de muestras con ruido para intentar incrementar la capacidad predictiva de los modelos. Además, se exploró la reducción de dimensionalidad mediante PCA, analizando el impacto en las métricas de desempeño. 3. Comparación de Algoritmos: Los resultados mostraron que, si bien los modelos ensamble (Random Forest, XGBoost, CatBoost) superaron a la Regresión Logística en general, ninguno logró un salto significativo en la predicción de empates. La clase “Victoria Local” fue la más fácil de predecir, reflejando patrones más marcados, mientras que la clase “Empate” permaneció consistentemente difícil de identificar. 4. Replicación en Diferentes Ligas: El mismo procedimiento se aplicó a datos de la Premier League de Inglaterra con resultados similares, lo que evidencia que el reto no se limita a una sola competencia. Esto sugiere que la dificultad es intrínseca al dominio y las variables empleadas, más que a un problema de un conjunto de datos específico. Conclusiones: El proyecto demuestra la complejidad de predecir resultados de fútbol a partir de datos cuantitativos limitados. A pesar de esfuerzos en balanceo de datos, optimización de hiperparámetros y reducción de dimensionalidad, la clasificación del empate sigue siendo un desafío sustancial. La conclusión central es que, para mejorar el desempeño, se requieren nuevas fuentes de información más ricas (variables contextuales, tácticas, calidad individual de jugadores, condiciones externas) y/o técnicas más sofisticadas que capten la complejidad inherente al juego. De esta forma, el proyecto aporta una visión clara de las limitaciones actuales y ofrece una ruta hacia futuras líneas de investigación, enfatizando la necesidad de enriquecer los datos y adaptar las técnicas de modelado para abordar la complejidad del fenómeno “empate” en el fútbol.69 p.es070037SPredicción de resultadosMachine learningFútbolModelos predictivosPredicción de resultados de partidos de la liga profesional de Fútbol Chileno usando algoritmos de Machine LearningThesis