Desarrollo y Evaluación de una Herramienta Computacional para la Vectorización de Datos de Microbioma Mediante Modelos de Lenguaje de ADN

dc.contributor.advisorRaveau Morales, María Paz
dc.contributor.advisorOróstica Tapia, Karen
dc.contributor.authorUgalde Casanova, Juan Antonio
dc.coverage.spatialSantiago
dc.date.accessioned2026-03-11T19:53:28Z
dc.date.available2026-03-11T19:53:28Z
dc.date.issued2026
dc.descriptionProyecto de grado presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data Science
dc.description.abstractEl microbioma humano es un sistema biológico de gran diversidad y complejidad, cuyo análisis computacional representa un desafío metodológico relevante. En este proyecto se desarrolló una herramienta computacional denominada vaultfinder-microbiome, para la vectorización de datos de microbioma a través de métodos composicionales y modelos de lenguaje para secuencias de ADN (DNABERT-2, DNABERT-S y GenomeOcean-500M). La metodología incluyó la evaluación de las cuatro estrategias de vectorización sobre dos conjuntos de datos: 42,321 secuencias del gen que codifica para el 16S rRNA provenientes de la base de datos Genome Taxonomy Database (GTDB) para análisis taxonómico y 3,110 muestras de microbioma intestinal provenientes del South American MicroBiome Archive (saMBA) para clasificación geográfica. En la evaluación se consideraron métricas de clustering no supervisado, análisis de varianza, y clasificación supervisada. Los resultados demostraron que los modelos de lenguaje tienen un mejor desempeño comparado a enfoques clásicos como los métodos composicionales. La combinación de DNABERT-S y XGBoost alcanzó el mejor rendimiento en tareas de clasificación geográfica (57,7% precisión y 43,9% macro F1). Aunque la señal geográfica detectada es más débil que en estudios ambientales, los resultados respaldan el uso de modelos de lenguaje de ADN como alternativa para el análisis de comunidades microbianas.
dc.format.extent65 p.
dc.identifier.urihttps://hdl.handle.net/11447/10620
dc.language.isoes
dc.publisherUniversidad del Desarrollo. Facultad de Ingeniería
dc.subject070037S
dc.subjectMicrobioma
dc.subjectEmbeddings
dc.subjectModelos de lenguaje
dc.titleDesarrollo y Evaluación de una Herramienta Computacional para la Vectorización de Datos de Microbioma Mediante Modelos de Lenguaje de ADN
dc.typeThesis
dcterms.accessRightsPrivado

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Vectorización de Datos de Microbioma Mediante Modelos de Lenguaje de ADN.pdf
Size:
1.23 MB
Format:
Adobe Portable Document Format
Description:
Autor no autoriza publicacion acceso abierto
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
347 B
Format:
Item-specific license agreed upon to submission
Description: