Raveau Morales, María PazOróstica Tapia, KarenUgalde Casanova, Juan Antonio2026-03-112026-03-112026https://hdl.handle.net/11447/10620Proyecto de grado presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data ScienceEl microbioma humano es un sistema biológico de gran diversidad y complejidad, cuyo análisis computacional representa un desafío metodológico relevante. En este proyecto se desarrolló una herramienta computacional denominada vaultfinder-microbiome, para la vectorización de datos de microbioma a través de métodos composicionales y modelos de lenguaje para secuencias de ADN (DNABERT-2, DNABERT-S y GenomeOcean-500M). La metodología incluyó la evaluación de las cuatro estrategias de vectorización sobre dos conjuntos de datos: 42,321 secuencias del gen que codifica para el 16S rRNA provenientes de la base de datos Genome Taxonomy Database (GTDB) para análisis taxonómico y 3,110 muestras de microbioma intestinal provenientes del South American MicroBiome Archive (saMBA) para clasificación geográfica. En la evaluación se consideraron métricas de clustering no supervisado, análisis de varianza, y clasificación supervisada. Los resultados demostraron que los modelos de lenguaje tienen un mejor desempeño comparado a enfoques clásicos como los métodos composicionales. La combinación de DNABERT-S y XGBoost alcanzó el mejor rendimiento en tareas de clasificación geográfica (57,7% precisión y 43,9% macro F1). Aunque la señal geográfica detectada es más débil que en estudios ambientales, los resultados respaldan el uso de modelos de lenguaje de ADN como alternativa para el análisis de comunidades microbianas.65 p.es070037SMicrobiomaEmbeddingsModelos de lenguajeDesarrollo y Evaluación de una Herramienta Computacional para la Vectorización de Datos de Microbioma Mediante Modelos de Lenguaje de ADNThesis