Predicción de resultados de partidos de la liga profesional de Fútbol Chileno usando algoritmos de Machine Learning

Date

2025

Type:

Thesis

item.page.extent

69 p.

item.page.accessRights

Acceso abierto

item.contributor.advisor

ORCID:

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad del Desarrollo. Facultad de Ingeniería

item.page.isbn

item.page.issn

item.page.issne

item.page.doiurl

item.page.other

item.page.references

Abstract

Este proyecto se centra en el desarrollo y evaluación de modelos de aprendizaje automático para predecir resultados de partidos de fútbol (Victoria Local, Empate, Victoria Visitante). A partir de datos históricos de ligas de fútbol, se construyó un conjunto de características (incluyendo estadísticas de temporadas previas, datos acumulados de rendimiento y contexto) con el objetivo de entrenar y comparar diferentes algoritmos de clasificación: Random Forest, XGBoost, CatBoost y Regresión Logística. El enfoque metodológico incluyó: 1. Preprocesamiento de Datos: Se aplicaron técnicas para manejar el desbalance de clases (SMOTE, ADASYN) y métodos de normalización robusta. Esto buscaba mejorar la detección de resultados menos frecuentes (empates y victorias visitantes). 2. Optimización y Validación: Se emplearon búsquedas de hiperparámetros (RandomizedSearchCV), validación cruzada estratificada y ampliación de muestras con ruido para intentar incrementar la capacidad predictiva de los modelos. Además, se exploró la reducción de dimensionalidad mediante PCA, analizando el impacto en las métricas de desempeño. 3. Comparación de Algoritmos: Los resultados mostraron que, si bien los modelos ensamble (Random Forest, XGBoost, CatBoost) superaron a la Regresión Logística en general, ninguno logró un salto significativo en la predicción de empates. La clase “Victoria Local” fue la más fácil de predecir, reflejando patrones más marcados, mientras que la clase “Empate” permaneció consistentemente difícil de identificar. 4. Replicación en Diferentes Ligas: El mismo procedimiento se aplicó a datos de la Premier League de Inglaterra con resultados similares, lo que evidencia que el reto no se limita a una sola competencia. Esto sugiere que la dificultad es intrínseca al dominio y las variables empleadas, más que a un problema de un conjunto de datos específico. Conclusiones: El proyecto demuestra la complejidad de predecir resultados de fútbol a partir de datos cuantitativos limitados. A pesar de esfuerzos en balanceo de datos, optimización de hiperparámetros y reducción de dimensionalidad, la clasificación del empate sigue siendo un desafío sustancial. La conclusión central es que, para mejorar el desempeño, se requieren nuevas fuentes de información más ricas (variables contextuales, tácticas, calidad individual de jugadores, condiciones externas) y/o técnicas más sofisticadas que capten la complejidad inherente al juego. De esta forma, el proyecto aporta una visión clara de las limitaciones actuales y ofrece una ruta hacia futuras líneas de investigación, enfatizando la necesidad de enriquecer los datos y adaptar las técnicas de modelado para abordar la complejidad del fenómeno “empate” en el fútbol.

Description

Proyecto de grado presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data Science

item.page.coverage.spatial

Santiago

item.page.sponsorship

Citation

Keywords

070037S, Predicción de resultados, Machine learning, Fútbol, Modelos predictivos

item.page.dc.rights

item.page.dc.rights.url